راهکارهای تشخیص تقلب

یادداشت و مقاله
نیلوفر حقجو
۲۵ مهر ۱۴۰۱

آیا نیاز بشر به ثروت، نیازی طبیعی است؟ مکاتب بسیاری سعی در پاسخ به این سوال داشته‌اند و هر یک دلایل گوناگونی از جمله میل به قدرت، وجود سیستم‌های سرمایه‌داری، تامین نیازهای اولیه اساسی و… را علت ثروت‌طلبی بشر دانسته‌اند. هر چند لازمه پاسخ به این سوال، نیازمند بررسی و مکاشفه دقیق است اما آنچه به‌صورت حقیقتی غیر قابل انکار بین تمامی متفکران پذیرفته شده نیاز روزافزون بشر برای به‌دست‌آوردن هرچه بیشتر منابع مالی است.

بدیهی است که با ایجاد هر سیستم مالی، بسیاری از افراد با کشف خلا امنیتی سیستم، سعی در کسب منابع مالی با کمترین زحمت را دارند. در زمینه مبارزه با تقلب، دو نگاه کلی وجود دارد: اجتناب از تقلب و شناسایی آن و طراحی سیستم‌هایی با امنیت بالا و برای مثال طراحی رمز دوم یا OTP که جزو طبقه اول این دسته‌بندی است. گاهی سیستم امنیتی بسیار دقیق طراحی شده است؛ در این موارد متقلبین سعی می‌کنند با فریب افراد به مقاصد خود نائل شوند. از اینجا به بعد، سیستم‌های شناسایی تقلب برای جلوگیری از جابه‌جایی پول، کاربرد پیدا می‌کنند. یک موسسه تحقیقاتی در زمینه مالی میزان کلاه برداری از طریق دزدی مشخصات در سال 2020 را حدود 56 میلیون دلار تخمین زده است.

لازم به ذکر است که سیستم‌های کشف تقلب باید به‌طور مداوم، در طول زمان تکامل یابند، زیرا زمانی که دسته‌ای از تقلب‌ها کشف می‌شوند، استراتژی‌های قدیمی کنار گذاشته و با استراتژی‌های جدید تقلب جایگزین می‌شوند.

سیستم‌های کشف تقلب از الگوریتم‌های یادگیری ماشین، تحلیل‌های سری زمانی، تحلیل‌های آماری و ریاضیاتی و تحلیل گراف برای کشف تقلب استفاده می‌کنند. تقلب را می‌توان نوعی ناهنجاری در داده‌ها به حساب آورد؛ بنابراین می‌توان از این به بعد به‌جای اصطلاح کشف تقلب، شناسایی نمونه‌های ناهنجار را به کار برد. ناهنجاری‌ها در داده‌ها سه نوع مختلف دارند که لازم است در کشف هر تقلب دقت کنیم کدام یک از انواع ناهنجاری در حال رخ‌دادن است؛ در این صورت احتمال شناسایی خطا پایین می‌آید. این ناهنجاری‌ها عبارتند از:

ناهنجاری‌های نقطه‌ای: زمانی که یک داده به‌صورت معناداری از بقیه داده‌ها متفاوت است. برای مثال، اگر موجودی یک کارت به صورت میانگین در هر روز برابر پنج هزار تومان باشد، موجودی برابر با پنج میلیارد تومان در یک روز تصادفی، ناهنجاری نقطه‌ای نامیده می‌شود.
ناهنجاری‌های مبتنی‌بر زمینه: زمانی که یک داده با توجه به درنظرگرفتن شرایط موجود یا همان زمینه حضور، ناهنجار رفتار می‌کند. برای مثال، میزان برداشت از کارت در مواقع خاصی از سال مانند اسفندماه (قبل از نوروز) افزایش می‌یابد. این افزایش برداشت در اسفندماه رفتاری معمول است، در صورتی که همین افزایش برداشت در ماه‌های دیگر سال رفتاری ناهنجار محسوب می‌شود.
ناهنجاری‌های تجمعی: زمانی که مجموعه‌ای از داده‌های شبیه به هم در نسبت با بقیه داده‌ها ناهنجار رفتار می‌کنند. برای مثال پولشویی نمونه‌ای از این دست ناهنجاری است.

دسته‌ای از روش‌ها تنها امتیاز یا احتمال ناهنجاری را به هر داده منتسب می‌کنند، در حالی که دسته‌ای دیگر، یکی از دو برچسب هنجار یا ناهنجار را.

به‌طور کلی الگوریتم‌های یادگیری ماشین به سه دسته تقسیم‌بندی می‌شوند:

1. دسته اول الگوریتم‌های با ناظر هستند که در آنها از داده‌های برچسب‌خورده استفاده می‌شود. به عبارت بهتر، برای آموزش این دسته از الگوریتم‌ها که به الگوریتم‌های کلاس‌بندی نیز معروفند، از هر دو نوع داده هنجار و ناهنجار (داده‌ای که نشانگر تقلب در سیستم مالی باشد) استفاده می‌شود. هرچند این الگوریتم‌ها کارایی بالایی دارند اما به‌طور ذاتی دو مشکل عمده در رابطه با این الگوریتم‌ها وجود دارد؛ اول اینکه در بسیاری از سیستم‌های مالی موجود، برچسب‌هایی تحت عنوان هنجار یا ناهنجار نگه‌داری نمی‌شوند. دوم اینکه حتی اگر این برچسب‌ها در طول زمان جمع‌آوری نیز شوند، تعداد داده‌های ناهنجار به مراتب کمتر از داده‌های هنجار است. همه الگوریتم‌های با ناظر برای این نوع داده‌ها مناسب نیست. برای مثال درختان تصمیم مانند C4.5 نمی‌توانند با داده‌های نامتعادل کار کنند اما الگوریتم‌هایی نظیر ماشین‌بردار پشتیبان (SVM) یا شبکه عصبی مصنوعی گزینه‌های بهتری هستند.علاوه‌بر روش‌های مذکور، روش‌های مبتنی‌بر قوا‌نین نیز در مواردی که الگوهای شناخته‌شده وجود داشته باشند روش‌های مفیدی هستند.

2. دسته دوم الگوریتم‌های نیمه نظارتی هستند. در این نوع الگوریتم‌ها تنها لازم است که داده‌های هنجار، بدون داده‌های ناهنجار در نظر گرفته شوند. ایده این دسته از الگوریتم‌ها به‌دست‌آوردن الگوهای موجود در داده‌های هنجار است. از این طریق می‌توان داده‌هایی را که از این الگو تبعیت نمی‌کنند، داده‌های ناهنجار در نظر گرفت. به این الگوریتم‌ها کلاس‌بندی تک کلاسه نیز می‌گویند. معروف‌ترین الگوریتم‌ها در این دسته ماشین‌بردار پشتیبان تک کلاسه و رمزنگار خودکار است.

3. دسته سوم الگوریتم‌های یادگیری ماشین، الگوریتم‌های بدون ناظر است که بدون هیچ‌گونه برچسبی سعی در شناسایی ناهنجاری‌ها دارد. با توجه به چالش‌های ذکرشده، این دسته از الگوریتم‌ها پراستفاده‌ترین روش در تشخیص ناهنجاری‌هاست که خود به دو دسته کلی تقسیم می‌شوند:

1- روش‌های مبتنی بر نزدیک‌ترین همسایه: در این روش‌ها که شامل الگوریتم‌هایی نظیر Local Outlier Factor، Connectivity-Based Outlier Factor ، Influenced Outliers، Local Outlier Probability،Local Correlation Integral هستند، داده ناهنجار بر اساس محاسبه فاصله، چگالی کلی و محلی شناسایی می‌شوند.

2- روش‌های خوشه‌بندی: در روش‌های نزدیک‌ترین همسایه ابتدا بر اساس فاصله، مجموعه‌ها شناسایی و با استفاده از چگالی هر مجموعه داده‌های ناهنجار شناسایی می‌شوند. اما در روش‌های خوشه‌بندی ابتدا خوشه‌ها شناسایی و سپس درون هر خوشه، چگالی محلی محاسبه می‌شود. در مرحله بعد، با استفاده از چگالی محلی، داده‌های ناهنجار شناسایی می‌شوند. از جمله این روش‌ها می‌توان به الگوریتم‌های Histogram-based Outlier Score و Cluster-Based Local Outlier Factor اشاره کرد.

3- علاوه‌بر موارد مذکور، روش تجزیه‌وتحلیل گروه همتا نیز در دسته الگوریتم‌های بدون ناظر قرار می‌گیرد. در این روش، نیاز نیست رفتار معمول هر یک از افراد به‌صورت جداگانه شناسایی شود، بلکه رفتار جمعی گروهی از همتایان که در گذشته شبیه به یکدیگر رفتار کرده‌اند به‌عنوان مرجع در نظر گرفته می‌شود. انحراف شدید از رفتار جمعی گروه همتایان می‌تواند نشان‌دهنده ناهنجاری، یا به عبارت دیگر بروز تقلب باشد.

روش های مبتنی‌بر گراف: این روش‌ها نیز بر اساس وجود یا عدم وجود برچسب برای داده‌ها، در سه دسته الگوریتم‌های بدون ناظر، نیمه نظارتی و با ناظر جای می‌گیرند. با این حال به دلیل اهمیت این دسته از روش‌ها به بررسی آنها به‌صورت جداگانه می‌پردازیم. این دسته از الگوریتم‌ها که از شبکه‌های ارتباطی برای شناسایی رفتارهای ناهنجار استفاده می‌کنند، پرکاربردترین روش‌ها برای تشخیص ناهنجاری هستند. روش‌های مبتنی‌بر گراف روی گراف‌های ثابت یا پویا می‌توانند راس، یال، زیرگراف یا واقعه ناهنجاری را شناسایی کنند.

منظور از راس ناهنجار، راس‌هایی هستند که در مقایسه با بقیه راس‌ها، دارای ویژگی ناهنجاری هستنند. معمولا به هر راس، بر اساس ویژگی‌های آن، امتیازی برابر با میزان ناهنجاری آن راس داده می‌شود. برای مثال بر اساس نرخ یال‌های ورودی به خروجی. مانند راس‌ها، یال‌های ناهنجار نیز با استفاده از ویژگی‌های غیرمعمول یال‌ها، برای مثال امتیازی بالاتر از یک آستانه، یافت می‌شوند. به بیانی دیگر، بعد از امتیاز دهی به یال ها با استفاده از پارامتر های مختلف همچون فاصله یا هزینه و غیره، یال هایی که امتیازی بالاتر از حد معمول به دست آورند می‌توانند به‌عنوان یال های ناهنجار شناسایی شوند. بعد از شناسایی یال‌های ناهنجار می‌توان راس‌های محتمل برای ناهنجاری را نیز یافت. برای یافتن زیرگراف‌های ناهنجار، ابتدا زیرگراف‌ها با الگوریتم‌های تشخیص انجمن، شناسایی‌شده، سپس به هر یک امتیازی برای میزان ناهنجاری اختصاص داده می‌شود. دسته آخر این مجموعه که تنها در گراف‌های پویا قابل اجراست، تشخیص بازه زمانی است که در آن تغییر چشم‌گیری در شبکه ایجاد شده است.

بسیاری از روش‌های مبتنی بر گراف، همان روش‌های یادگیری ماشین هستند که روی گراف پیاده‌سازی شده‌اند. بر اساس دردسترس‌بودن برچسب داده‌ها، ماهیت شبکه و نوع ناهنجاری، روش‌های مختلفی به کار برده می‌شود. برای مثال می‌توان از روش‌های ساختاری که بر اساس ویژگی‌های توپولوژی، شبکه راس‌ها و یال‌های ناهنجار را شناسایی می‌کنند یا روش‌های آماری که بر اساس تئوری احتمالات، توزیع احتمالات و… مدلی برای رفتار به هنجار می‌سازد و سپس هر انحرافی از این رفتار را به‎‌عنوان رفتار ناهنجار شناسایی می‌کنند، نام برد.

منبع: فصلنامه فناوری‌های مالی