معیارهای ارزیابی در یادگیری ماشین – به زبان ساده

۲۸۲۳ بازدید
آخرین به‌روزرسانی: ۱۸ بهمن ۱۴۰۲
زمان مطالعه: ۱۶ دقیقه
دانلود PDF مقاله
معیارهای ارزیابی در یادگیری ماشین – به زبان سادهمعیارهای ارزیابی در یادگیری ماشین – به زبان ساده

مدل یادگیری ماشین الگوریتمی آموزش دیده با مجموعه‌داده‌ای مشخص برای پیش‌بینی پاسخ یک مسئله است. برای بررسی عملکرد نهایی مدل یادگیری ماشین از معیارهای ارزیابی استفاده می‌شود. ارزیابی مدل مرحله‌ای ضروری در یادگیری ماشین است که در آن عملکرد یک مدل از پیش آموزش دیده به‌وسیله معیارها و روش‌هایی گوناگون سنجیده می‌شود. بسیار مهم است که از عملکرد قابل قبول مدل یادگیری ماشین نسبت به داده‌های جدید و از پیش دیده نشده اطمینان حاصل کنیم. در این مطلب از مجله فرادرس، با مفهوم و اهمیت ارزیابی مدل آشنا شده و انواع معیارهای ارزیابی در یادگیری ماشین را مورد بررسی قرار می‌دهیم.

فهرست مطالب این نوشته
997696

در این مطلب، ابتدا تعریفی از ارزیابی مدل ارائه داده و سپس یاد می‌گیریم که چرا باید مدل‌های یادگیری ماشین را ارزیابی کنیم. در ادامه با انواع معیارهای ارزیابی در یادگیری ماشین آشنا شده و روش‌های رایج در ارزیابی مدل را بررسی می‌کنیم. در انتهای این مطلب و پس از معرفی محدودیت‌های معیارهای ارزیابی، به سوالات متداول این حوزه پاسخ می‌دهیم.

منظور از ارزیابی مدل چیست؟

ارزیابی مدل در یادگیری ماشین فرایندی است که در آن با استفاده از معیارهایی از پیش تعیین شده، عملکرد مدل مورد ارزیابی قرار می‌گیرد. ارزیابی مدل را می‌توان به دو صورت انجام داد:

  • «برون‌خط» (Offline): در این روش، مدل پس از آموزش و همزمان در مرحله آزمایش ارزیابی می‌شود.
  • «برخط» (Online): نوعی از ارزیابی که در مرحله تولید و به عنوان بخشی از عملیات «پایش مدل» (Model Monitoring) انجام می‌شود.

انتخاب نوع ارزیابی به داده‌ها و الگوریتم‌های مورد استفاده شما بستگی دارد و مطابق با نوع مسئله خود، می‌توانید ارزیابی مناسب را انتخاب کنید. در «یادگیری نظارت شده» (Supervised Leaning)، معیارهای ارزیابی برای دو روش «دسته‌بندی» (Classification) و «رگرسیون» (Regression) متفاوت هستند. معیارهای مسائل دسته‌بندی بر پایه «ماترسی درهم ریختگی» (Confusion Matrix) بوده و شامل روش‌های همچون «صحت» (Accuracy)، «دقت» (Precision)، «بازیابی» (Recall) و «امتیاز اِف‌وان» (F1 Score) می‌شوند. از طرفی دیگر مسائل رگرسیون بر اساس معیارهایی همچون «میانگین قدر مطلق خطا» (Mean Absolute Error | MAE) و «جذر میانگین مربعات خطا» (Root Mean Squared Error | RMSE) مورد ارزیابی قرار می‌گیرند. تعریف معیارهای «انسجام» (Cohesion)، «جدایی» (Separation)، «اطمینان» (Confidence) و خطا در خروجی، هدف معیارهای ارزیابی در «یادگیری نظارت نشده» (Unsupervised Learning) است.

تصویری ساده از یک مرد در حال کار در دفتر تمیز خود و برنامه‌نویسی با یک صفحه نمایش بزرگ.

به عنوان مثال از معیار «نیم‌رخ» (Silhouette) برای «خوشه‌بندی» (Clustering) استفاده می‌شود تا میزان شباهت یک داده به خوشه‌ای که در آن قرار دارد، در مقایسه با شباهتش به سایر خوشه‌ها اندازه‌گیری شود. لازم به ذکر است که در هر دو روش یادگیری به‌ویژه یادگیری نظارت نشده، ارزیابی مدل در حین آزمایش با «مصورسازی» (Visualization) و تحلیل گروه داده‌ها صورت می‌گیرد. در آخر باید ارزیابی‌ها توسط «متخصص دامنه» (Domain Expert) بررسی شوند.

چرا ارزیابی مدل در یادگیری ماشین اهمیت دارد؟

همان‌طور که پیش‌تر نیز گفته شد، ارزیابی مدل قدمی لازم و ضروری در یادگیری ماشین است که به ما اجازه می‌دهد تا عملکرد مدل را نسبت به داده‌های جدید مورد سنجش قرار دهیم. «بیش‌برازش» (Overfitting) یکی از مشکلاتی است که ممکن است پس از آموزش مدل با داده‌های آموزشی با آن مواجه شویم. مدل وقتی بیش‌برازش می‌شود که عملکرد خوبی نسبت به داده‌های آموزشی داشته باشد و در برخورد با نمونه‌های جدید ضعیف عمل کند. از همین‌رو با ارزیابی مدل می‌توانیم بهترین مدل یادگیری ماشین را انتخاب کرده و با تخمینی واقع‌گرایانه از دقت مدل نسبت به داده‌های جدید، از بیش‌برازش جلوگیری کنیم. همچنین ارزیابی مدل به ما کمک می‌کند تا به محدودیت‌های مدل پی‌ببریم. در نهایت می‌توان نتیجه گرفت که فرایند ارزیابی برای توسعه مدل‌های یادگیری ماشین پایدار امری ضروری است.

انواع معیارهای ارزیابی در یادگیری ماشین

هنگام ارزیابی عملکرد «مدل‌های پیش‌بینی کننده» (Predictive Models)، از معیارهای ارزیابی متنوعی برای سنجش کارآمدی آن‌ها در زمینه‌های مختلف استفاده می‌شود. درک این معیارها نقش مهمی در مقایسه و ارزیابی موثر مدل‌های یادگیری ماشین دارد. در زیر چند نمونه از رایج‌ترین معیارهای ارزیابی را فهرست کرده‌ایم:

  • «ماتریس درهم ریختگی» (Confusion Matrix)
  • «صحت» (Accuracy)
  • «دقت» (Precision)
  • «بازیابی» (Recall)
  • «ویژگی» (Specificity)
  • «امتیاز اِف‌وان» (F1 Score)
  • «منحنی دقت-بازیابی» (Precision-Recall | PR Curve)
  • «منحنی نمودار مشخصه عملکرد» (Receiver Operating Characteristics | ROC Curve)
  • «میانگین مربعات خطا» (Mean Squared Error | MSE)
  • «جذر میانگین مربعات خطا» (Root Mean Squared Error | RMSE)
  • «میانگین قدر مطلق خطا» (Mean Absolute Error | MAE)
  • «ضریب تعیین» (R-squared | Coefficient of Determination)
انواع معیارهای ارزیابی در یادگیری ماشین

در ادامه انواع مختلف معیارهای ارزیابی در یادگیری ماشین و همچنین «یادگیری عمیق» (Deep Learning) را بررسی می‌کنیم.

ماتریس درهم ریختگی

برای درک راحت‌تر، یک مسئله «دسته‌بندی دودویی» (Binary Classification) را در نظر می‌گیریم که در آن قرار است تصویر گربه یا سگی را پیدا کنیم. یا مسئله بیماری که مشخص شده سرطان دارد (مثبت) یا سالم بوده و تست او منفی است. از همین جهت ابتدا باید با چند اصطلاح آشنا شویم:

  • «پاسخ‌های مثبت درست» (True Positives | TP): نمونه‌هایی که مثبت پیش‌بینی شده و در حقیقت نیز مثبت هستند.
  • «پاسخ‌های مثبت نادرست» (False Positives | FP): نمونه‌هایی که مثبت پیش‌بینی شده اما در حقیقت منفی هستند.
  • «پاسخ‌های منفی درست» (True Negatives | TN): نمونه‌هایی که منفی پیش‌بینی شده و در حقیقت نیز منفی هستند.
  • «پاسخ‌های منفی نادرست» (False Negatives | FN): نمونه‌هایی که منفی پیش‌بینی شده اما در حقیقت مثبت هستند.

«ماتریس درهم ریختگی» (Confusion Matrix) در واقع شکل نمایشی پارامترهای بالا در قالب یک ماتریس است و برای مصورسازی بهتر مورد استفاده قرار می‌گیرد.

مثال ماتریس درهم ریختگی
ماتریس درهم ریختگی

صحت

رایج‌ترین معیار برای ارزیابی یک مدل یادگیری ماشین، که در حقیقت شاخص چندان واضحی برای عملکرد نیست. زمانی که تعداد نمونه‌های هر دسته یا کلاس اختلاف زیادی با یک‌دیگر داشته باشند، استفاده از این معیار پیشنهاد نمی‌شود.

TP+TNTP+FP+TN+FN\frac{TP + TN}{TP + FP + TN + FN}

به عنوان مثال، یک مدل تشخیص سرطان را تصور کنید. در شرایط عادی، احتمال سرطان داشتن بسیار پایین بوده و از میان هر ۱۰۰ بیمار، تنها ۱۰ نفر مبتلا هستند. ما نمی‌خواهیم مراجعه کننده‌ای که سرطان داشته را با تشخیص منفی نادرست یا FN نادیده بگیریم. قرار دادن همه بیماران در دسته افرادی که سرطان ندارند، صحتی ۹۰ درصد را نتیجه می‌دهد. در واقع مدل یادگیری ماشین بدون این‌که کار خاصی کرده باشد و تنها با تشخیص سرطان برای همه بیماران به این درصد رسیده است. به همین خاطر است که به معیارهای دقیق‌تری نیاز داریم.

دقت

نسبت نمونه‌های مثبت درست (TP) به تمامی نمونه‌های مثبت پیش‌بینی شده را «دقت» (Precision) گویند. در این معیار مخرج، پیش‌بینی مثبت مدل برای تمامی نمونه‌های موجود در مجموعه‌داده است. به بیان ساده‌تر، معیار دقت به این پرسش پاسخ می‌دهد که از میان تمامی مراجعه کنندگانی که مثبت تشخیص داده شده‌اند، چند نسبتی در حقیقت نیز بیمار هستند.

TPTP+FP\frac{TP}{TP + FP}

بازیابی

نسبت نمونه‌های مثبت درست (TP) به تمامی نمونه‌هایی که در حقیقت مثبت هستند را معیار «بازیابی» (Recall) گویند. مخرج در این معیار، جمع تمامی نمونه‌های مثبت در مجموعه‌داده است. به بیان ساده‌تر می‌توانیم بگوییم که از میان تمامی مراجعه کنندگان بیمار، چه نسبتی را به‌درستی پیش‌بینی کرده‌ایم.

TPTP+FN\frac{TP}{TP + FN}

ویژگی

معیار «ویژگی» (Specificity) نسبت تعداد نمونه‌های منفی به کل نمونه‌های منفی پیش‌بینی شده است. در این معیار، مخرج تعداد نمونه‌های منفی در مجموعه‌داده است. تغییر در نمونه‌های منفی، وجه تمایز معیار ویژگی با معیار بازیابی است. در واقع می‌خواهیم بدانیم چه تعداد از مراجعه کنندگان سرطان نداشته و ما نیز به درستی منفی بودن تست آن‌ها را پیش‌بینی کرده‌ایم. از معیار ویژگی برای اندازه‌گیری فاصله کلاسی استفاده می‌شود.

TNTN+FP\frac{TN}{TN + FP}

امتیاز F1

امتیاز F1 ترکیبی از دو معیار دقت و بازیابی است. از آن‌جایی که هر دو معیار دقت و بازیابی در محاسبه امتیاز F1 نقش دارند، امتیاز F1 بالاتر نشان‌دهنده عملکرد بهتر است. همان‌طور که در فرمول این معیار نیز مشخص است، به‌دلیل وجود عملگر ضرب در صورت مخرج، اگر از میزان یکی از معیارهای دقت یا بازیابی کاسته شود، امتیاز F1 بسیار نزولی می‌شود. در نتیجه امتیاز F1 یک مدل یادگیری ماشین بالاست، اگر نمونه‌های مثبت پیش‌بینی شده در حقیقت نیز مثبت بوده و هیچ نمونه مثبتی به اشتباه منفی پیش‌بینی نشده باشد.

21Precision+1Recall=2PrecisionRecallPrecision+Recall\frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall}

امتیاز F1 وزن یکسانی به دو معیار دقت و بازیابی می‌دهد؛ موضوعی که ممکن است مورد پسند ما نبوده و بخواهیم یکی از معیارها اهمیت بالاتری داشته باشد. به همین خاطر در چنین مواردی، معیارهایی همچون «امتیاز F1 وزن‌دار» (Weighted-F1 Score) یا منحنی‌های PR و ROC می‌توانند مفید باشند.

منحنی PR

به منحنی میان دو معیار دقت و بازیابی برای مقادیر «آستانه» (Threshold) مختلف، منحنی PR یا دقت-بازیابی گفته می‌شود. در نمودار زیر، منحنی دقت-بازیابی ۶ مدل پیش‌بینی کننده برای مقادیر آستانه مختلف را مشاهده می‌کنید. قسمت بالا سمت راست نمودار فضای ایده‌آلی است که در آن دقت و بازیابی حداکثر است. در این روش می‌توانیم بر اساس نیاز خود، مقدار مدل پیش‌بینی کننده و حد آستانه را انتخاب کنیم. سطح زیر نمودار منحنی PR را AUC می‌نامند. هر چقدر مقدار عددی این معیار بالاتر باشد یعنی عملکرد بهتر است.

مثال منحنی PR
منحنی PR

منحنی ROC

منحنی نمودار مشخصه عملکرد یا به اصطلاح ROC، نموداری است که نسبت به دو معیار «نرخ مثبت درست» (True Positive Rate | TPR) و «نرخ مثبت نادرست» (False Positive Rate | FPR) و برای مقادیر آستانه متفاوت ترسیم می‌شود. همزمان با رشد TPR، معیار FPR نیز افزایش پیدا می‌کند. همان‌طور که در نمودار اول مشاهده می‌کنید، چهار گروه یا دسته مختلف داشته و می‌خواهیم آستانه‌ای را انتخاب کنیم که نتایج را به قسمت بالا سمت چپ نمودار نزدیک‌تر کند. با استفاده از این روش، فرایند مقایسه برای سه پیش‌بینی کننده متفاوت روی مجموعه‌داده‌ای مشخص آسان می‌شود. مقدار آستانه دلخواه بوده و بر اساس مسئله شما تغییر می‌کند. به سطح زیر نمودار منحنی ROC نیز AUC گفته می‌شود و هر چه مقدار عددی آن بالاتر باشد، عملکرد نیز بهتر است.

TruePositiveRate(TPR)=Recall=TPTP+FNTrue\:Positive\:Rate\:(TPR) = Recall = \frac{TP}{TP + FN}
FalsePositiveRate(FPR)=1Recall=FPTN+FPFalse\:Positive\:Rate\:(FPR) = 1 – Recall = \frac{FP}{TN + FP}

بر اساس رای ۴ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
IguazioData BasecampTowards Data ScienceMedium
۱ دیدگاه برای «معیارهای ارزیابی در یادگیری ماشین – به زبان ساده»

مطلب بسیار مفید و جامعی بود و در عین حال با زبان ساده و قابل فهم نگارش شده بود خیلی ممنونم .

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *