صالح سعیدی

صالح سعیدی

راهبر کسب‌وکار بانکداری نوین داتین

امروزه استفاده بهینه از داده‌ها یکی از بزرگترین چالش‌های اصلی و مهم در سازمان‌هاست. از این رو در دهه اخیر تمرکز اصلی سازمان‌ها بر مدیریت بهینه داده‌ها شامل استخراج داده‌های کاربردی، مفید و ذخیره‌سازی آن و همچنین تحلیل‌وتدوین استراتژی‌های مبتنی بر داده‌هاست. علم داده (Data Science) به عنوان یک راهکار جامع می‌تواند این چالش مهم را تا حد زیادی مرتفع سازد.

یکی از کاربردهای مهم علم داده، در حوزه کسب‌و‌کار مطرح می‌شود که ما در این یادداشت به طور خاص فرایند علم داده جهت تولید داده‌های باکیفیت در سیستم‌های اعتبارسنجی را به طور کلی مورد بررسی قرار می‌دهیم.

برای مدیریت بهینه داده‌ها و تولید خروجی‌های مطلوب در سیستم اعتبارسنجی نیاز است که بر اساس فرایند علم داده پیش رفت. بدین ترتیب فرایند مذکور شامل مراحل زیر است که در ادامه به شرح آن می‌پردازیم:

۱- طرح مسئله (هدف اصلی)

۲- گردآوری داده‌ها

۳- آماده‌سازی داده‌ها

۴- تحلیل و مدلسازی داده‌ها

۵- نمایش داده‌ها

۶- توسعه سیستم

۱- طرح مسئله (هدف اصلی اعتبارسنجی)

هدف اصلی در سامانه اعتبارسنجی محاسبه نمره اعتباری فرد جهت اعطای تسهیلات و یا تعیین میزان اعتبار به وی از سوی ارائه‌دهندگان تسهیلات است. به طور کلی هدف اعتبارسنجی بررسی و سنجش اهلیت اشخاص (حقیقی و حقوقی) در عمل به تعهدات آنهاست. منظور از اهلیت اشخاص، توانایی و تمایل در نحوه عمل به تعهدات آنهاست. بنابراین در فرایند اعتبارسنجی نیاز به داده‌های اشخاص از جمله داده‌های مالی و اعتباری، شغلی، تحصیلی، مالکیت و غیره است که با استفاده از این داده‌ها می‌توان رفتار اشخاص را از گذشته تا به امروز تحلیل کرده و حتی بر اساس این تحلیل، رفتار آینده اشخاص را پیش‌بینی کرد. بدین ترتیب سیستم اعتبارسنجی مناسب، سبب کاهش ریسک اعتباری و اطمینان خاطر بیشتر اعطاکنندگان تسهیلات در بازگشت به موقع سرمایه‌شان خواهد شد.

۲- گردآوری داده‌ها

سیستم اعتبارسنجی برای تشخیص اهلیت اشخاص نیاز به اطلاعات گوناگون از منابع اطلاعاتی مختلف دارد که این اطلاعات را می‌توان از databaseها، online Repositories، APIها و web server ها و همچنین داده‌های ورودی توسط کاربر کسب کرد. قسمتی از این اطلاعات که توسط کاربر ارائه می‌شود جهت احراز هویت وی به کار رفته و علاوه بر آن، قسمت اعظم اطلاعات، جهت ارزیابی، ارائه نمره و رتبه اعتباری مورد بررسی قرار می‌گیرد. از طرفی فرایند گردآوری اطلاعات از منابع اطلاعاتی مختلف زمان‌بر بوده و بعضا موانع بزرگی بر سر راه آن قرار دارد که از مهم‌ترین این موانع می‌توان به گسستگی اطلاعات اشاره کرد. در ایران به دلیل عدم یکپارچگی اطلاعات و یا وجود اطلاعات ناکافی و ناقص، داده‌ها به‌درستی منتقل نمی‌شوند. بدین ترتیب زمانی که سوابق اطلاعاتی اشخاص در دسترس نباشد امکان تحلیل و مدلسازی بهینه داده‌ها وجود نخواهد داشت. لذا در این مرحله، علم داده کمک می‌کند تا با استفاده از مکانیزم‌ها، ابزار و روش‌های مناسب و منطقی، داده‌های مورد نیاز را از منابع اطلاعاتی مختلف گردآوری کرد.

۳- آماده‌سازی داده‌ها

پس از گردآوری حجم بسیار زیادی از انواع داده از سازمان‌های مختلف، نیاز است که از این داده‌ها در جهت مدلسازی آنها برای رسیدن به بهترین خروجی‌ها در سیستم اعتبارسنجی بهره برد. برخی از اقلام اطلاعاتی کسب‌شده عینا و بدون کم‌وکاست مورد استفاده قرار می‌گیرند ولی در اکثر مواقع می‌بایست داده‌ها پالایش شوند. لذا استفاده از تکنیک‌های پاکسازی داده‌ها امری اجتناب‌ناپذیر است. یکی از مهمترین چالش‌ها در امر آماده‌سازی داده‌ها در کشور، اطلاعات ناقص و ناکافی اشخاص در سازمان‌های مختلف است. به عنوان مثال می‌توان به مصادیق زیر اشاره کرد:

– در بسیاری از پرونده‌های اشخاص در سازمان‌های کشور به ویژه در بانک‌ها، مشخصات دقیق و صحیحی از قبیل کد ملی، شماره تلفن یا حتی آدرس دقیقی جهت احراز هویت آنها وجود ندارد که این به دلیل عدم مراجعه مشتریان طی این سال‌ها و همچنین به‌روزنکردن اطلاعات اشخاص از سوی نهادهای مذکور است. بنابراین باید این مقادیر در پایگاه‌های داده‌ای بررسی و تکمیل شوند.

– در سازمان‌های مختلف انواع داده‌ها مانند اعداد، تاریخ، ساعت و برخی دیگر از اقلام داده‌ای با فرمت‌های متفاوتی ارائه شده است. به عنوان مثال در برخی منابع، مقدار متغیر (شاخص) مدرک تحصیلی کارشناسی و در برخی دیگر لیسانس یا مقدار شاخص سن به صورت عدد (مثلا 35) یا تاریخ تولد (مانند 06/12/1362) درج شده است. بنابراین استانداردسازی انواع داده‌ها یکی از مهم‌ترین عملیات در پاکسازی داده‌ها به شمار می‌آید.

– همچنین برخی از داده‌های اشخاص در پایگاه‌های داده‌ای تکراری است یا نامرتبط محسوب می‌شوند که باید این داده‌ها شناسایی و در نهایت حذف شوند.

لذا در این مرحله داده‌ها جهت تحلیل و مدلسازی آماده و مورد استفاده قرار می‌گیرند.

۴- تحلیل و مدلسازی داده‌ها

پس از آماده‌سازی داده‌ها، برای رسیدن به نمره اعتباری دقیق‌تر و همچنین دیگر خروجی‌های مورد نظر، متغیر (شاخص)های مناسب تعریف و یا اصلاح می‌شوند.

بدین ترتیب جهت مدلسازی داده‌ها در سیستم اعتبارسنجی برای رسیدن به خروجی مناسب از تکنیک‌های گوناگونی می‌توان استفاده کرد. از جمله تکنیک‌های موثر و کاربردی در اعتبارسنجی تکنیک‌های آماری هستند.

تاکنون مدل‌های مختلفی پیرامون اعتبارسنجی مشتریان در سراسر جهان معرفی شده که در دو دسته مدل‌های پارامتریک و ناپارامتریک جای می‌گیرند که مهم‌ترین و پرکاربردترین آنها در ادامه لیست شده‌اند:

۱- مدل‌های اعتبارسنجی پارامتریک

مدل رگرسیون خطی
مدل‌های پروبیت و لاجیت
مدل مبتنی بر تحلیل ممیزی

۲- مدل‌های اعتبارسنجی ناپارامتریک

شبکه‌های عصبی مصنوعی
سیستم‌های خبره
مدل سلسله مراتب تحلیلی
مدل برنامه‌ریزی ریاضی
مدل نزدیکترین همسایه
الگوریتم درخت طبقه‌بندی

باتوجه به جنبه کیفی برخی از مدل‌های معرفی‌شده و به دلیل بهره‌مندی از نقاط قوت و پوشش نقاط ضعف مدل‌ها، پیشنهاد می‌شود که رویکردی ترکیبی از روش‌های اعتبارسنجی جهت رسیدن به نتایج مطلوب و کاربردی در این سامانه مورد استفاده قرار گیرد. به عنوان مثال با بررسی‌های انجام‌شده و با توجه به کاربرد و ویژگی‌های روش شبکه‌های عصبی مصنوعی مانند شناسایی الگوها، دسته‌بندی اطلاعات و همچنین یادگیری در حین فرایند اعتبارسنجی، به نظر می‌رسد که در سیستم اعتبارسنجی بهتر است از شبکه‌های عصبی، به عنوان یکی از روش‌های اصلی در کنار روش‌های دیگر مانند روش‌های آماری جهت رسیدن به خروجی‌های مطلوب همچون دسته‌بندی مشتریان خوش‌حساب و بدحساب، تعیین میزان نرخ نکول، تشخیص مشتریان وفادار و غیره استفاده شود.

۵- نمایش داده‌ها

پس از تحلیل داده‌ها، ایجاد مدل داده‌ای مناسب و به‌کارگیری آن به صورت الگوریتم محاسباتی نمره و رتبه اعتباری در سیستم اعتبارسنجی، می‌بایست نتایج به‌دست‌آمده از عملکردهای مالی و غیرمالی در قالب گزارش جامع به اشخاص نمایش داده شود. همچنین متناسب با نیاز کاربران (سازمانی، حقیقی) گزارش اعتبارسنجی می‌تواند بر بستر اپلیکیشن، وب‌سایت و حتی پنل سازمانی ارائه شود. در گزارش اعتبارسنجی، برخی از اطلاعات جهت ارائه به کاربر الزامی است که مهم‌ترین این موارد در اینجا لیست شده‌اند:

ارائه اطلاعات هویتی، مشخصات تماس، آدرس
ارائه نمره و رتبه اعتباری و توضیحات و دلایل مربوط به کسب این نمره و رتبه
دسته‌بندی اطلاعات مالی و غیرمالی
نمایش قراردادهای جاری، وضعیت وثایق، نحوه بازپرداخت اقساط در گذشته
ارائه سوابق و وضعیت منفی شخص (اعم از حقیقی و حقوقی) در دوره‌های زمانی مختلف. به عنوان مثال سابقه چک برگشتی، وضعیت منفی قراردادها شامل بدهی‌های بیمه‌ای شخص، اقساط معوق‌شده از تسهیلات بانکی.
وضعیت ضامنین در قراردادها
وضعیت تعهدات آتی مشتری

جهت خوانایی و درک بهتر کاربر از گزارش اعتبارسنجی نیاز به استفاده از روش‌های عینی‌سازی داده‌ها (Data Visualization) مانند به‌کارگیری نمودارها، چارت‌ها و جداول است. بنابراین برای تولید گزارش حرفه‌ای، بسیاری از مهندسین داده از نرم‌افزارهای تولید گزارش متناسب با زیرساخت‌های فنی خود بهره می‌برند. از ابزارهای مهم و کاربردی در فضای عینی‌سازی داده‌ها می توان به نرم‌افزارهای زیر اشاره کرد:

Microsoft Power BI
Tableau
Qlick View

۶- توسعه سیستم اعتبارسنجی

از آنجایی که سیستم اعتبارسنجی از منابع اطلاعاتی گوناگونی همچون سازمان‌های دولتی و غیردولتی مانند بانک‌ها و موسسات مالی و اعتباری، بیمه‌ها، وزارتخانه‌ها، شرکت‌ها و نهادهای ذیربط و همچنین استارت‌آپ‌های مالی بهره می‌برد هرگونه تغییری که در داده‌های منابع مذکور رخ دهد نیاز است تا سیستم اعتبارسنجی داده‌های خود را به‌روزرسانی کند تا در مراجعه‌های بعدی کاربران، گزارش اعتبارسنجی به‌روزی را به ایشان ارائه کند. از طرفی جهت استفاده از اطلاعات مالی و غیر مالی بیشتر و ارائه خروجی‌های بهینه و به‌روز، نیاز به افزودن منابع اطلاعاتی بیشتر در سیستم است.

بنابراین جهت توسعه سیستم اعتبارسنجی، دو رویکرد اصلی به‌روزرسانی و افزودن داده‌های بیشتر برای محاسبه نمره و رتبه اعتباری دقیقتر جزو الزامات است.

بدین ترتیب می‌توان انتظار داشت با استفاده از علم داده، چالش مدیریت بهینه داده‌ها در حوزه اعتبارسنجی تا حد قابل قبولی مرتفع‌شده و خروجی‌های مطلوبی حاصل شود.

منبع: راه پرداخت

مطالب مرتبط