معیارهای ارزیابی در یادگیری ماشین – به زبان ساده
مدل یادگیری ماشین الگوریتمی آموزش دیده با مجموعهدادهای مشخص برای پیشبینی پاسخ یک مسئله است. برای بررسی عملکرد نهایی مدل یادگیری ماشین از معیارهای ارزیابی استفاده میشود. ارزیابی مدل مرحلهای ضروری در یادگیری ماشین است که در آن عملکرد یک مدل از پیش آموزش دیده بهوسیله معیارها و روشهایی گوناگون سنجیده میشود. بسیار مهم است که از عملکرد قابل قبول مدل یادگیری ماشین نسبت به دادههای جدید و از پیش دیده نشده اطمینان حاصل کنیم. در این مطلب از مجله فرادرس، با مفهوم و اهمیت ارزیابی مدل آشنا شده و انواع معیارهای ارزیابی در یادگیری ماشین را مورد بررسی قرار میدهیم.
در این مطلب، ابتدا تعریفی از ارزیابی مدل ارائه داده و سپس یاد میگیریم که چرا باید مدلهای یادگیری ماشین را ارزیابی کنیم. در ادامه با انواع معیارهای ارزیابی در یادگیری ماشین آشنا شده و روشهای رایج در ارزیابی مدل را بررسی میکنیم. در انتهای این مطلب و پس از معرفی محدودیتهای معیارهای ارزیابی، به سوالات متداول این حوزه پاسخ میدهیم.
منظور از ارزیابی مدل چیست؟
ارزیابی مدل در یادگیری ماشین فرایندی است که در آن با استفاده از معیارهایی از پیش تعیین شده، عملکرد مدل مورد ارزیابی قرار میگیرد. ارزیابی مدل را میتوان به دو صورت انجام داد:
- «برونخط» (Offline): در این روش، مدل پس از آموزش و همزمان در مرحله آزمایش ارزیابی میشود.
- «برخط» (Online): نوعی از ارزیابی که در مرحله تولید و به عنوان بخشی از عملیات «پایش مدل» (Model Monitoring) انجام میشود.
انتخاب نوع ارزیابی به دادهها و الگوریتمهای مورد استفاده شما بستگی دارد و مطابق با نوع مسئله خود، میتوانید ارزیابی مناسب را انتخاب کنید. در «یادگیری نظارت شده» (Supervised Leaning)، معیارهای ارزیابی برای دو روش «دستهبندی» (Classification) و «رگرسیون» (Regression) متفاوت هستند. معیارهای مسائل دستهبندی بر پایه «ماترسی درهم ریختگی» (Confusion Matrix) بوده و شامل روشهای همچون «صحت» (Accuracy)، «دقت» (Precision)، «بازیابی» (Recall) و «امتیاز اِفوان» (F1 Score) میشوند. از طرفی دیگر مسائل رگرسیون بر اساس معیارهایی همچون «میانگین قدر مطلق خطا» (Mean Absolute Error | MAE) و «جذر میانگین مربعات خطا» (Root Mean Squared Error | RMSE) مورد ارزیابی قرار میگیرند. تعریف معیارهای «انسجام» (Cohesion)، «جدایی» (Separation)، «اطمینان» (Confidence) و خطا در خروجی، هدف معیارهای ارزیابی در «یادگیری نظارت نشده» (Unsupervised Learning) است.
به عنوان مثال از معیار «نیمرخ» (Silhouette) برای «خوشهبندی» (Clustering) استفاده میشود تا میزان شباهت یک داده به خوشهای که در آن قرار دارد، در مقایسه با شباهتش به سایر خوشهها اندازهگیری شود. لازم به ذکر است که در هر دو روش یادگیری بهویژه یادگیری نظارت نشده، ارزیابی مدل در حین آزمایش با «مصورسازی» (Visualization) و تحلیل گروه دادهها صورت میگیرد. در آخر باید ارزیابیها توسط «متخصص دامنه» (Domain Expert) بررسی شوند.
چرا ارزیابی مدل در یادگیری ماشین اهمیت دارد؟
همانطور که پیشتر نیز گفته شد، ارزیابی مدل قدمی لازم و ضروری در یادگیری ماشین است که به ما اجازه میدهد تا عملکرد مدل را نسبت به دادههای جدید مورد سنجش قرار دهیم. «بیشبرازش» (Overfitting) یکی از مشکلاتی است که ممکن است پس از آموزش مدل با دادههای آموزشی با آن مواجه شویم. مدل وقتی بیشبرازش میشود که عملکرد خوبی نسبت به دادههای آموزشی داشته باشد و در برخورد با نمونههای جدید ضعیف عمل کند. از همینرو با ارزیابی مدل میتوانیم بهترین مدل یادگیری ماشین را انتخاب کرده و با تخمینی واقعگرایانه از دقت مدل نسبت به دادههای جدید، از بیشبرازش جلوگیری کنیم. همچنین ارزیابی مدل به ما کمک میکند تا به محدودیتهای مدل پیببریم. در نهایت میتوان نتیجه گرفت که فرایند ارزیابی برای توسعه مدلهای یادگیری ماشین پایدار امری ضروری است.
انواع معیارهای ارزیابی در یادگیری ماشین
هنگام ارزیابی عملکرد «مدلهای پیشبینی کننده» (Predictive Models)، از معیارهای ارزیابی متنوعی برای سنجش کارآمدی آنها در زمینههای مختلف استفاده میشود. درک این معیارها نقش مهمی در مقایسه و ارزیابی موثر مدلهای یادگیری ماشین دارد. در زیر چند نمونه از رایجترین معیارهای ارزیابی را فهرست کردهایم:
- «ماتریس درهم ریختگی» (Confusion Matrix)
- «صحت» (Accuracy)
- «دقت» (Precision)
- «بازیابی» (Recall)
- «ویژگی» (Specificity)
- «امتیاز اِفوان» (F1 Score)
- «منحنی دقت-بازیابی» (Precision-Recall | PR Curve)
- «منحنی نمودار مشخصه عملکرد» (Receiver Operating Characteristics | ROC Curve)
- «میانگین مربعات خطا» (Mean Squared Error | MSE)
- «جذر میانگین مربعات خطا» (Root Mean Squared Error | RMSE)
- «میانگین قدر مطلق خطا» (Mean Absolute Error | MAE)
- «ضریب تعیین» (R-squared | Coefficient of Determination)
در ادامه انواع مختلف معیارهای ارزیابی در یادگیری ماشین و همچنین «یادگیری عمیق» (Deep Learning) را بررسی میکنیم.
ماتریس درهم ریختگی
برای درک راحتتر، یک مسئله «دستهبندی دودویی» (Binary Classification) را در نظر میگیریم که در آن قرار است تصویر گربه یا سگی را پیدا کنیم. یا مسئله بیماری که مشخص شده سرطان دارد (مثبت) یا سالم بوده و تست او منفی است. از همین جهت ابتدا باید با چند اصطلاح آشنا شویم:
- «پاسخهای مثبت درست» (True Positives | TP): نمونههایی که مثبت پیشبینی شده و در حقیقت نیز مثبت هستند.
- «پاسخهای مثبت نادرست» (False Positives | FP): نمونههایی که مثبت پیشبینی شده اما در حقیقت منفی هستند.
- «پاسخهای منفی درست» (True Negatives | TN): نمونههایی که منفی پیشبینی شده و در حقیقت نیز منفی هستند.
- «پاسخهای منفی نادرست» (False Negatives | FN): نمونههایی که منفی پیشبینی شده اما در حقیقت مثبت هستند.
«ماتریس درهم ریختگی» (Confusion Matrix) در واقع شکل نمایشی پارامترهای بالا در قالب یک ماتریس است و برای مصورسازی بهتر مورد استفاده قرار میگیرد.
صحت
رایجترین معیار برای ارزیابی یک مدل یادگیری ماشین، که در حقیقت شاخص چندان واضحی برای عملکرد نیست. زمانی که تعداد نمونههای هر دسته یا کلاس اختلاف زیادی با یکدیگر داشته باشند، استفاده از این معیار پیشنهاد نمیشود.
به عنوان مثال، یک مدل تشخیص سرطان را تصور کنید. در شرایط عادی، احتمال سرطان داشتن بسیار پایین بوده و از میان هر ۱۰۰ بیمار، تنها ۱۰ نفر مبتلا هستند. ما نمیخواهیم مراجعه کنندهای که سرطان داشته را با تشخیص منفی نادرست یا FN نادیده بگیریم. قرار دادن همه بیماران در دسته افرادی که سرطان ندارند، صحتی ۹۰ درصد را نتیجه میدهد. در واقع مدل یادگیری ماشین بدون اینکه کار خاصی کرده باشد و تنها با تشخیص سرطان برای همه بیماران به این درصد رسیده است. به همین خاطر است که به معیارهای دقیقتری نیاز داریم.
دقت
نسبت نمونههای مثبت درست (TP) به تمامی نمونههای مثبت پیشبینی شده را «دقت» (Precision) گویند. در این معیار مخرج، پیشبینی مثبت مدل برای تمامی نمونههای موجود در مجموعهداده است. به بیان سادهتر، معیار دقت به این پرسش پاسخ میدهد که از میان تمامی مراجعه کنندگانی که مثبت تشخیص داده شدهاند، چند نسبتی در حقیقت نیز بیمار هستند.
بازیابی
نسبت نمونههای مثبت درست (TP) به تمامی نمونههایی که در حقیقت مثبت هستند را معیار «بازیابی» (Recall) گویند. مخرج در این معیار، جمع تمامی نمونههای مثبت در مجموعهداده است. به بیان سادهتر میتوانیم بگوییم که از میان تمامی مراجعه کنندگان بیمار، چه نسبتی را بهدرستی پیشبینی کردهایم.
ویژگی
معیار «ویژگی» (Specificity) نسبت تعداد نمونههای منفی به کل نمونههای منفی پیشبینی شده است. در این معیار، مخرج تعداد نمونههای منفی در مجموعهداده است. تغییر در نمونههای منفی، وجه تمایز معیار ویژگی با معیار بازیابی است. در واقع میخواهیم بدانیم چه تعداد از مراجعه کنندگان سرطان نداشته و ما نیز به درستی منفی بودن تست آنها را پیشبینی کردهایم. از معیار ویژگی برای اندازهگیری فاصله کلاسی استفاده میشود.
امتیاز F1
امتیاز F1 ترکیبی از دو معیار دقت و بازیابی است. از آنجایی که هر دو معیار دقت و بازیابی در محاسبه امتیاز F1 نقش دارند، امتیاز F1 بالاتر نشاندهنده عملکرد بهتر است. همانطور که در فرمول این معیار نیز مشخص است، بهدلیل وجود عملگر ضرب در صورت مخرج، اگر از میزان یکی از معیارهای دقت یا بازیابی کاسته شود، امتیاز F1 بسیار نزولی میشود. در نتیجه امتیاز F1 یک مدل یادگیری ماشین بالاست، اگر نمونههای مثبت پیشبینی شده در حقیقت نیز مثبت بوده و هیچ نمونه مثبتی به اشتباه منفی پیشبینی نشده باشد.
امتیاز F1 وزن یکسانی به دو معیار دقت و بازیابی میدهد؛ موضوعی که ممکن است مورد پسند ما نبوده و بخواهیم یکی از معیارها اهمیت بالاتری داشته باشد. به همین خاطر در چنین مواردی، معیارهایی همچون «امتیاز F1 وزندار» (Weighted-F1 Score) یا منحنیهای PR و ROC میتوانند مفید باشند.
منحنی PR
به منحنی میان دو معیار دقت و بازیابی برای مقادیر «آستانه» (Threshold) مختلف، منحنی PR یا دقت-بازیابی گفته میشود. در نمودار زیر، منحنی دقت-بازیابی ۶ مدل پیشبینی کننده برای مقادیر آستانه مختلف را مشاهده میکنید. قسمت بالا سمت راست نمودار فضای ایدهآلی است که در آن دقت و بازیابی حداکثر است. در این روش میتوانیم بر اساس نیاز خود، مقدار مدل پیشبینی کننده و حد آستانه را انتخاب کنیم. سطح زیر نمودار منحنی PR را AUC مینامند. هر چقدر مقدار عددی این معیار بالاتر باشد یعنی عملکرد بهتر است.
منحنی ROC
منحنی نمودار مشخصه عملکرد یا به اصطلاح ROC، نموداری است که نسبت به دو معیار «نرخ مثبت درست» (True Positive Rate | TPR) و «نرخ مثبت نادرست» (False Positive Rate | FPR) و برای مقادیر آستانه متفاوت ترسیم میشود. همزمان با رشد TPR، معیار FPR نیز افزایش پیدا میکند. همانطور که در نمودار اول مشاهده میکنید، چهار گروه یا دسته مختلف داشته و میخواهیم آستانهای را انتخاب کنیم که نتایج را به قسمت بالا سمت چپ نمودار نزدیکتر کند. با استفاده از این روش، فرایند مقایسه برای سه پیشبینی کننده متفاوت روی مجموعهدادهای مشخص آسان میشود. مقدار آستانه دلخواه بوده و بر اساس مسئله شما تغییر میکند. به سطح زیر نمودار منحنی ROC نیز AUC گفته میشود و هر چه مقدار عددی آن بالاتر باشد، عملکرد نیز بهتر است.
مطلب بسیار مفید و جامعی بود و در عین حال با زبان ساده و قابل فهم نگارش شده بود خیلی ممنونم .