آیا نیاز بشر به ثروت، نیازی طبیعی است؟ مکاتب بسیاری سعی در پاسخ به این سوال داشتهاند و هر یک دلایل گوناگونی از جمله میل به قدرت، وجود سیستمهای سرمایهداری، تامین نیازهای اولیه اساسی و… را علت ثروتطلبی بشر دانستهاند. هر چند لازمه پاسخ به این سوال، نیازمند بررسی و مکاشفه دقیق است اما آنچه بهصورت حقیقتی غیر قابل انکار بین تمامی متفکران پذیرفته شده نیاز روزافزون بشر برای بهدستآوردن هرچه بیشتر منابع مالی است.
بدیهی است که با ایجاد هر سیستم مالی، بسیاری از افراد با کشف خلا امنیتی سیستم، سعی در کسب منابع مالی با کمترین زحمت را دارند. در زمینه مبارزه با تقلب، دو نگاه کلی وجود دارد: اجتناب از تقلب و شناسایی آن و طراحی سیستمهایی با امنیت بالا و برای مثال طراحی رمز دوم یا OTP که جزو طبقه اول این دستهبندی است. گاهی سیستم امنیتی بسیار دقیق طراحی شده است؛ در این موارد متقلبین سعی میکنند با فریب افراد به مقاصد خود نائل شوند. از اینجا به بعد، سیستمهای شناسایی تقلب برای جلوگیری از جابهجایی پول، کاربرد پیدا میکنند. یک موسسه تحقیقاتی در زمینه مالی میزان کلاه برداری از طریق دزدی مشخصات در سال 2020 را حدود 56 میلیون دلار تخمین زده است.
لازم به ذکر است که سیستمهای کشف تقلب باید بهطور مداوم، در طول زمان تکامل یابند، زیرا زمانی که دستهای از تقلبها کشف میشوند، استراتژیهای قدیمی کنار گذاشته و با استراتژیهای جدید تقلب جایگزین میشوند.
سیستمهای کشف تقلب از الگوریتمهای یادگیری ماشین، تحلیلهای سری زمانی، تحلیلهای آماری و ریاضیاتی و تحلیل گراف برای کشف تقلب استفاده میکنند. تقلب را میتوان نوعی ناهنجاری در دادهها به حساب آورد؛ بنابراین میتوان از این به بعد بهجای اصطلاح کشف تقلب، شناسایی نمونههای ناهنجار را به کار برد. ناهنجاریها در دادهها سه نوع مختلف دارند که لازم است در کشف هر تقلب دقت کنیم کدام یک از انواع ناهنجاری در حال رخدادن است؛ در این صورت احتمال شناسایی خطا پایین میآید. این ناهنجاریها عبارتند از:
- ناهنجاریهای نقطهای: زمانی که یک داده بهصورت معناداری از بقیه دادهها متفاوت است. برای مثال، اگر موجودی یک کارت به صورت میانگین در هر روز برابر پنج هزار تومان باشد، موجودی برابر با پنج میلیارد تومان در یک روز تصادفی، ناهنجاری نقطهای نامیده میشود.
- ناهنجاریهای مبتنیبر زمینه: زمانی که یک داده با توجه به درنظرگرفتن شرایط موجود یا همان زمینه حضور، ناهنجار رفتار میکند. برای مثال، میزان برداشت از کارت در مواقع خاصی از سال مانند اسفندماه (قبل از نوروز) افزایش مییابد. این افزایش برداشت در اسفندماه رفتاری معمول است، در صورتی که همین افزایش برداشت در ماههای دیگر سال رفتاری ناهنجار محسوب میشود.
- ناهنجاریهای تجمعی: زمانی که مجموعهای از دادههای شبیه به هم در نسبت با بقیه دادهها ناهنجار رفتار میکنند. برای مثال پولشویی نمونهای از این دست ناهنجاری است.
دستهای از روشها تنها امتیاز یا احتمال ناهنجاری را به هر داده منتسب میکنند، در حالی که دستهای دیگر، یکی از دو برچسب هنجار یا ناهنجار را.
بهطور کلی الگوریتمهای یادگیری ماشین به سه دسته تقسیمبندی میشوند:
1. دسته اول الگوریتمهای با ناظر هستند که در آنها از دادههای برچسبخورده استفاده میشود. به عبارت بهتر، برای آموزش این دسته از الگوریتمها که به الگوریتمهای کلاسبندی نیز معروفند، از هر دو نوع داده هنجار و ناهنجار (دادهای که نشانگر تقلب در سیستم مالی باشد) استفاده میشود. هرچند این الگوریتمها کارایی بالایی دارند اما بهطور ذاتی دو مشکل عمده در رابطه با این الگوریتمها وجود دارد؛ اول اینکه در بسیاری از سیستمهای مالی موجود، برچسبهایی تحت عنوان هنجار یا ناهنجار نگهداری نمیشوند. دوم اینکه حتی اگر این برچسبها در طول زمان جمعآوری نیز شوند، تعداد دادههای ناهنجار به مراتب کمتر از دادههای هنجار است. همه الگوریتمهای با ناظر برای این نوع دادهها مناسب نیست. برای مثال درختان تصمیم مانند C4.5 نمیتوانند با دادههای نامتعادل کار کنند اما الگوریتمهایی نظیر ماشینبردار پشتیبان (SVM) یا شبکه عصبی مصنوعی گزینههای بهتری هستند.علاوهبر روشهای مذکور، روشهای مبتنیبر قوانین نیز در مواردی که الگوهای شناختهشده وجود داشته باشند روشهای مفیدی هستند.
2. دسته دوم الگوریتمهای نیمه نظارتی هستند. در این نوع الگوریتمها تنها لازم است که دادههای هنجار، بدون دادههای ناهنجار در نظر گرفته شوند. ایده این دسته از الگوریتمها بهدستآوردن الگوهای موجود در دادههای هنجار است. از این طریق میتوان دادههایی را که از این الگو تبعیت نمیکنند، دادههای ناهنجار در نظر گرفت. به این الگوریتمها کلاسبندی تک کلاسه نیز میگویند. معروفترین الگوریتمها در این دسته ماشینبردار پشتیبان تک کلاسه و رمزنگار خودکار است.
3. دسته سوم الگوریتمهای یادگیری ماشین، الگوریتمهای بدون ناظر است که بدون هیچگونه برچسبی سعی در شناسایی ناهنجاریها دارد. با توجه به چالشهای ذکرشده، این دسته از الگوریتمها پراستفادهترین روش در تشخیص ناهنجاریهاست که خود به دو دسته کلی تقسیم میشوند:
1- روشهای مبتنی بر نزدیکترین همسایه: در این روشها که شامل الگوریتمهایی نظیر Local Outlier Factor، Connectivity-Based Outlier Factor ، Influenced Outliers، Local Outlier Probability،Local Correlation Integral هستند، داده ناهنجار بر اساس محاسبه فاصله، چگالی کلی و محلی شناسایی میشوند.
2- روشهای خوشهبندی: در روشهای نزدیکترین همسایه ابتدا بر اساس فاصله، مجموعهها شناسایی و با استفاده از چگالی هر مجموعه دادههای ناهنجار شناسایی میشوند. اما در روشهای خوشهبندی ابتدا خوشهها شناسایی و سپس درون هر خوشه، چگالی محلی محاسبه میشود. در مرحله بعد، با استفاده از چگالی محلی، دادههای ناهنجار شناسایی میشوند. از جمله این روشها میتوان به الگوریتمهای Histogram-based Outlier Score و Cluster-Based Local Outlier Factor اشاره کرد.
3- علاوهبر موارد مذکور، روش تجزیهوتحلیل گروه همتا نیز در دسته الگوریتمهای بدون ناظر قرار میگیرد. در این روش، نیاز نیست رفتار معمول هر یک از افراد بهصورت جداگانه شناسایی شود، بلکه رفتار جمعی گروهی از همتایان که در گذشته شبیه به یکدیگر رفتار کردهاند بهعنوان مرجع در نظر گرفته میشود. انحراف شدید از رفتار جمعی گروه همتایان میتواند نشاندهنده ناهنجاری، یا به عبارت دیگر بروز تقلب باشد.
روش های مبتنیبر گراف: این روشها نیز بر اساس وجود یا عدم وجود برچسب برای دادهها، در سه دسته الگوریتمهای بدون ناظر، نیمه نظارتی و با ناظر جای میگیرند. با این حال به دلیل اهمیت این دسته از روشها به بررسی آنها بهصورت جداگانه میپردازیم. این دسته از الگوریتمها که از شبکههای ارتباطی برای شناسایی رفتارهای ناهنجار استفاده میکنند، پرکاربردترین روشها برای تشخیص ناهنجاری هستند. روشهای مبتنیبر گراف روی گرافهای ثابت یا پویا میتوانند راس، یال، زیرگراف یا واقعه ناهنجاری را شناسایی کنند.
منظور از راس ناهنجار، راسهایی هستند که در مقایسه با بقیه راسها، دارای ویژگی ناهنجاری هستنند. معمولا به هر راس، بر اساس ویژگیهای آن، امتیازی برابر با میزان ناهنجاری آن راس داده میشود. برای مثال بر اساس نرخ یالهای ورودی به خروجی. مانند راسها، یالهای ناهنجار نیز با استفاده از ویژگیهای غیرمعمول یالها، برای مثال امتیازی بالاتر از یک آستانه، یافت میشوند. به بیانی دیگر، بعد از امتیاز دهی به یال ها با استفاده از پارامتر های مختلف همچون فاصله یا هزینه و غیره، یال هایی که امتیازی بالاتر از حد معمول به دست آورند میتوانند بهعنوان یال های ناهنجار شناسایی شوند. بعد از شناسایی یالهای ناهنجار میتوان راسهای محتمل برای ناهنجاری را نیز یافت. برای یافتن زیرگرافهای ناهنجار، ابتدا زیرگرافها با الگوریتمهای تشخیص انجمن، شناساییشده، سپس به هر یک امتیازی برای میزان ناهنجاری اختصاص داده میشود. دسته آخر این مجموعه که تنها در گرافهای پویا قابل اجراست، تشخیص بازه زمانی است که در آن تغییر چشمگیری در شبکه ایجاد شده است.
بسیاری از روشهای مبتنی بر گراف، همان روشهای یادگیری ماشین هستند که روی گراف پیادهسازی شدهاند. بر اساس دردسترسبودن برچسب دادهها، ماهیت شبکه و نوع ناهنجاری، روشهای مختلفی به کار برده میشود. برای مثال میتوان از روشهای ساختاری که بر اساس ویژگیهای توپولوژی، شبکه راسها و یالهای ناهنجار را شناسایی میکنند یا روشهای آماری که بر اساس تئوری احتمالات، توزیع احتمالات و… مدلی برای رفتار به هنجار میسازد و سپس هر انحرافی از این رفتار را بهعنوان رفتار ناهنجار شناسایی میکنند، نام برد.
منبع: فصلنامه فناوریهای مالی