امروزه استفاده بهینه از دادهها یکی از بزرگترین چالشهای اصلی و مهم در سازمانهاست. از این رو در دهه اخیر تمرکز اصلی سازمانها بر مدیریت بهینه دادهها شامل استخراج دادههای کاربردی، مفید و ذخیرهسازی آن و همچنین تحلیلوتدوین استراتژیهای مبتنی بر دادههاست. علم داده (Data Science) به عنوان یک راهکار جامع میتواند این چالش مهم را تا حد زیادی مرتفع سازد.
یکی از کاربردهای مهم علم داده، در حوزه کسبوکار مطرح میشود که ما در این یادداشت به طور خاص فرایند علم داده جهت تولید دادههای باکیفیت در سیستمهای اعتبارسنجی را به طور کلی مورد بررسی قرار میدهیم.
برای مدیریت بهینه دادهها و تولید خروجیهای مطلوب در سیستم اعتبارسنجی نیاز است که بر اساس فرایند علم داده پیش رفت. بدین ترتیب فرایند مذکور شامل مراحل زیر است که در ادامه به شرح آن میپردازیم:
- طرح مسئله (هدف اصلی)
- گردآوری دادهها
- آمادهسازی دادهها
- تحلیل و مدلسازی دادهها
- نمایش دادهها
- توسعه سیستم
۱- طرح مسئله (هدف اصلی اعتبارسنجی)
هدف اصلی در سامانه اعتبارسنجی محاسبه نمره اعتباری فرد جهت اعطای تسهیلات و یا تعیین میزان اعتبار به وی از سوی ارائهدهندگان تسهیلات است. به طور کلی هدف اعتبارسنجی بررسی و سنجش اهلیت اشخاص (حقیقی و حقوقی) در عمل به تعهدات آنهاست. منظور از اهلیت اشخاص، توانایی و تمایل در نحوه عمل به تعهدات آنهاست. بنابراین در فرایند اعتبارسنجی نیاز به دادههای اشخاص از جمله دادههای مالی و اعتباری، شغلی، تحصیلی، مالکیت و غیره است که با استفاده از این دادهها میتوان رفتار اشخاص را از گذشته تا به امروز تحلیل کرده و حتی بر اساس این تحلیل، رفتار آینده اشخاص را پیشبینی کرد. بدین ترتیب سیستم اعتبارسنجی مناسب، سبب کاهش ریسک اعتباری و اطمینان خاطر بیشتر اعطاکنندگان تسهیلات در بازگشت به موقع سرمایهشان خواهد شد.
۲- گردآوری دادهها
سیستم اعتبارسنجی برای تشخیص اهلیت اشخاص نیاز به اطلاعات گوناگون از منابع اطلاعاتی مختلف دارد که این اطلاعات را میتوان از databaseها، online Repositories، APIها و web server ها و همچنین دادههای ورودی توسط کاربر کسب کرد. قسمتی از این اطلاعات که توسط کاربر ارائه میشود جهت احراز هویت وی به کار رفته و علاوه بر آن، قسمت اعظم اطلاعات، جهت ارزیابی، ارائه نمره و رتبه اعتباری مورد بررسی قرار میگیرد.
از طرفی فرایند گردآوری اطلاعات از منابع اطلاعاتی مختلف زمانبر بوده و بعضا موانع بزرگی بر سر راه آن قرار دارد که از مهمترین این موانع میتوان به گسستگی اطلاعات اشاره کرد. در ایران به دلیل عدم یکپارچگی اطلاعات و یا وجود اطلاعات ناکافی و ناقص، دادهها بهدرستی منتقل نمیشوند. بدین ترتیب زمانی که سوابق اطلاعاتی اشخاص در دسترس نباشد امکان تحلیل و مدلسازی بهینه دادهها وجود نخواهد داشت. لذا در این مرحله، علم داده کمک میکند تا با استفاده از مکانیزمها، ابزار و روشهای مناسب و منطقی، دادههای مورد نیاز را از منابع اطلاعاتی مختلف گردآوری کرد.
۳- آمادهسازی دادهها
پس از گردآوری حجم بسیار زیادی از انواع داده از سازمانهای مختلف، نیاز است که از این دادهها در جهت مدلسازی آنها برای رسیدن به بهترین خروجیها در سیستم اعتبارسنجی بهره برد. برخی از اقلام اطلاعاتی کسبشده عینا و بدون کموکاست مورد استفاده قرار میگیرند ولی در اکثر مواقع میبایست دادهها پالایش شوند. لذا استفاده از تکنیکهای پاکسازی دادهها امری اجتنابناپذیر است. یکی از مهمترین چالشها در امر آمادهسازی دادهها در کشور، اطلاعات ناقص و ناکافی اشخاص در سازمانهای مختلف است. به عنوان مثال میتوان به مصادیق زیر اشاره کرد:
- در بسیاری از پروندههای اشخاص در سازمانهای کشور به ویژه در بانکها، مشخصات دقیق و صحیحی از قبیل کد ملی، شماره تلفن یا حتی آدرس دقیقی جهت احراز هویت آنها وجود ندارد که این به دلیل عدم مراجعه مشتریان طی این سالها و همچنین بهروزنکردن اطلاعات اشخاص از سوی نهادهای مذکور است. بنابراین باید این مقادیر در پایگاههای دادهای بررسی و تکمیل شوند.
- در سازمانهای مختلف انواع دادهها مانند اعداد، تاریخ، ساعت و برخی دیگر از اقلام دادهای با فرمتهای متفاوتی ارائه شده است. به عنوان مثال در برخی منابع، مقدار متغیر (شاخص) مدرک تحصیلی کارشناسی و در برخی دیگر لیسانس یا مقدار شاخص سن به صورت عدد (مثلا 35) یا تاریخ تولد (مانند 06/12/1362) درج شده است. بنابراین استانداردسازی انواع دادهها یکی از مهمترین عملیات در پاکسازی دادهها به شمار میآید.
- همچنین برخی از دادههای اشخاص در پایگاههای دادهای تکراری است یا نامرتبط محسوب میشوند که باید این دادهها شناسایی و در نهایت حذف شوند.
لذا در این مرحله دادهها جهت تحلیل و مدلسازی آماده و مورد استفاده قرار میگیرند.
۴- تحلیل و مدلسازی دادهها
پس از آمادهسازی دادهها، برای رسیدن به نمره اعتباری دقیقتر و همچنین دیگر خروجیهای مورد نظر، متغیر (شاخص)های مناسب تعریف و یا اصلاح میشوند.
بدین ترتیب جهت مدلسازی دادهها در سیستم اعتبارسنجی برای رسیدن به خروجی مناسب از تکنیکهای گوناگونی میتوان استفاده کرد. از جمله تکنیکهای موثر و کاربردی در اعتبارسنجی تکنیکهای آماری هستند.
تاکنون مدلهای مختلفی پیرامون اعتبارسنجی مشتریان در سراسر جهان معرفی شده که در دو دسته مدلهای پارامتریک و ناپارامتریک جای میگیرند که مهمترین و پرکاربردترین آنها در ادامه لیست شدهاند:
۱- مدلهای اعتبارسنجی پارامتریک
مدل رگرسیون خطی
مدلهای پروبیت و لاجیت
مدل مبتنی بر تحلیل ممیزی
۲- مدلهای اعتبارسنجی ناپارامتریک
شبکههای عصبی مصنوعی
سیستمهای خبره
مدل سلسله مراتب تحلیلی
مدل برنامهریزی ریاضی
مدل نزدیکترین همسایه
الگوریتم درخت طبقهبندی
باتوجه به جنبه کیفی برخی از مدلهای معرفیشده و به دلیل بهرهمندی از نقاط قوت و پوشش نقاط ضعف مدلها، پیشنهاد میشود که رویکردی ترکیبی از روشهای اعتبارسنجی جهت رسیدن به نتایج مطلوب و کاربردی در این سامانه مورد استفاده قرار گیرد. به عنوان مثال با بررسیهای انجامشده و با توجه به کاربرد و ویژگیهای روش شبکههای عصبی مصنوعی مانند شناسایی الگوها، دستهبندی اطلاعات و همچنین یادگیری در حین فرایند اعتبارسنجی، به نظر میرسد که در سیستم اعتبارسنجی بهتر است از شبکههای عصبی، به عنوان یکی از روشهای اصلی در کنار روشهای دیگر مانند روشهای آماری جهت رسیدن به خروجیهای مطلوب همچون دستهبندی مشتریان خوشحساب و بدحساب، تعیین میزان نرخ نکول، تشخیص مشتریان وفادار و غیره استفاده شود.
۵- نمایش دادهها
پس از تحلیل دادهها، ایجاد مدل دادهای مناسب و بهکارگیری آن به صورت الگوریتم محاسباتی نمره و رتبه اعتباری در سیستم اعتبارسنجی، میبایست نتایج بهدستآمده از عملکردهای مالی و غیرمالی در قالب گزارش جامع به اشخاص نمایش داده شود. همچنین متناسب با نیاز کاربران (سازمانی، حقیقی) گزارش اعتبارسنجی میتواند بر بستر اپلیکیشن، وبسایت و حتی پنل سازمانی ارائه شود. در گزارش اعتبارسنجی، برخی از اطلاعات جهت ارائه به کاربر الزامی است که مهمترین این موارد در اینجا لیست شدهاند:
- ارائه اطلاعات هویتی، مشخصات تماس، آدرس
- ارائه نمره و رتبه اعتباری و توضیحات و دلایل مربوط به کسب این نمره و رتبه
- دستهبندی اطلاعات مالی و غیرمالی
- نمایش قراردادهای جاری، وضعیت وثایق، نحوه بازپرداخت اقساط در گذشته
- ارائه سوابق و وضعیت منفی شخص (اعم از حقیقی و حقوقی) در دورههای زمانی مختلف. به عنوان مثال سابقه چک برگشتی، وضعیت منفی قراردادها شامل بدهیهای بیمهای شخص، اقساط معوقشده از تسهیلات بانکی.
- وضعیت ضامنین در قراردادها
- وضعیت تعهدات آتی مشتری
جهت خوانایی و درک بهتر کاربر از گزارش اعتبارسنجی نیاز به استفاده از روشهای عینیسازی دادهها (Data Visualization) مانند بهکارگیری نمودارها، چارتها و جداول است. بنابراین برای تولید گزارش حرفهای، بسیاری از مهندسین داده از نرمافزارهای تولید گزارش متناسب با زیرساختهای فنی خود بهره میبرند. از ابزارهای مهم و کاربردی در فضای عینیسازی دادهها می توان به نرمافزارهای زیر اشاره کرد:
- Microsoft Power BI
- Tableau
- Qlick View
۶- توسعه سیستم اعتبارسنجی
از آنجایی که سیستم اعتبارسنجی از منابع اطلاعاتی گوناگونی همچون سازمانهای دولتی و غیردولتی مانند بانکها و موسسات مالی و اعتباری، بیمهها، وزارتخانهها، شرکتها و نهادهای ذیربط و همچنین استارتآپهای مالی بهره میبرد هرگونه تغییری که در دادههای منابع مذکور رخ دهد نیاز است تا سیستم اعتبارسنجی دادههای خود را بهروزرسانی کند تا در مراجعههای بعدی کاربران، گزارش اعتبارسنجی بهروزی را به ایشان ارائه کند. از طرفی جهت استفاده از اطلاعات مالی و غیر مالی بیشتر و ارائه خروجیهای بهینه و بهروز، نیاز به افزودن منابع اطلاعاتی بیشتر در سیستم است.
بنابراین جهت توسعه سیستم اعتبارسنجی، دو رویکرد اصلی بهروزرسانی و افزودن دادههای بیشتر برای محاسبه نمره و رتبه اعتباری دقیقتر جزو الزامات است.
بدین ترتیب میتوان انتظار داشت با استفاده از علم داده، چالش مدیریت بهینه دادهها در حوزه اعتبارسنجی تا حد قابل قبولی مرتفعشده و خروجیهای مطلوبی حاصل شود.
منبع: راه پرداخت