ضریب تعیین چیست؟ – ضریب تشخیص به زبان ساده
تحلیل رگرسیون روشی آماری برای بررسی ارتباط میان متغیر وابسته و یک یا چند متغیر مستقل است. معیار «ضریب تعیین» (Coefficient of Determination | R-squared) که گاهی با عنوان ضریب تشخیص نیز شناخته میشود، از جمله رایجترین تکنیکهایی است که برای تحلیل رگرسیون خطی مورد استفاده قرار میگیرد. در این مطلب از مجله فرادرس با بررسی و شرح جنبههای مختلف این معیار ارزیابی مهم، یاد میگیریم ضریب تعیین چیست و چگونه محاسبه میشود. معیاری که بهرهگیری از آن برای تشخیص عملکرد مدل رگرسیون در مقابل دادههای جدید بسیار حائز اهمیت است.
در این مطلب ابتدا یاد میگیریم ضریب تعیین چیست و چه نقشی در ارزیابی برازش مدلهای رگرسیون دارد. سپس به معرفی فرمول محاسبه ضریب تعیین یا R-squared میپردازیم و علاوهبر آشنایی با نحوه به تصویر کشیدن و همچنین مفهوم ضریب تعیین تعدیل شده، تفسیری از انواع مقادیر بالا و پایین ضریب تعیین ارائه میدهیم. در انتها این مطلب از مجله فرادرس از محدودیتها و نکاتی برای بهبود ضریب تعیین میگوییم و به تعدادی از سوالات متداول درباره این معیار ارزیابی پاسخ میدهیم.
منظور از ضریب تعیین چیست؟
ضریب تعیین یا R-squared معیاری برای سنجش عملکرد مدلهای رگرسیونی است. در حقیقت ضریب تعیین عددی است که نسبت پراکندگی یا واریانس قابل پیشبینی برای متغیر یا متغیرهای مستقل را در متغیر وابسته نشان میدهد. به بیان سادهتر، ضریب تعیین نشان دهنده توانایی مدل رگرسیون (متغیر مستقل) در پیشبینی خروجی حاصل از دادههای مشاهده شده (متغیر وابسته) است. دامنه ضریب تعیین از ۰ تا ۱۰۰ درصد متغیر بوده و زمانی برابر با ۱۰۰ میشود که مدل بهطور کامل بر دیتاست ورودی برازش شده باشد.
ارزیابی برازش در مدل رگرسیون
در ادامه پاسخ دادن به پرسش ضریب تعیین چیست، باید به این نکته اشاره کنیم که هدف از بهکارگیری معیارهایی مانند ضریب تعیین، ارزیابی برازش مدلهای یادگیری ماشین است. به عنوان مثال در رگرسیون خطی، از معادلهای استفاده میشود که کوچکترین فاصله یا تفاضل را میان مقادیر حقیقی و پیشبینی شده تولید کند. از نظر متخصصان علم آمار، مدلی بهخوبی بر دادهها برازش شده است که در آن، فاصل میان مقادیر حقیقی و پیشبینی شده کم و بدون سوگیری باشد. منظور از «بدون سوگیری» این است که مقادیر برازش شده، فاصله بیش از حد زیاد یا کمی در فضای ویژگی نداشته باشند و در دسته نمونههای پرت قرار نگیرند.
با این حال، پیش از سنجش معیارهای عددی مانند ضریب تشخیص، لازم است ابتدا «نمودارهای باقیمانده» (Residual Plots) رسم و تجزیه و تحلیل شوند. با رسم نمودارهای مرتبط، فرایند تشخیص الگوهای مشکلساز در مدل، به مراتب راحتتر از بررسی مقادیر عددی خواهد بود. نتایج مدلی که سوگیری داشته باشد قابل اتکا نیست و این موضوع تنها با رسم نمودار و سپس بهرهگیری از معیارهای ارزیابی مانند ضریب تعیین مشخص میشود.
چگونه رگرسیون را با فرادرس یاد بگیریم؟
رگرسیون یکی از مهمترین تکنیکهای آماری و یادگیری ماشین است که برای مدلسازی و تحلیل روابط بین متغیرها بهکار گرفته میشود. در واقع، رگرسیون به ما کمک میکند تا بفهمیم چگونه یک یا چند متغیر مستقل میتوانند بر یک متغیر وابسته تأثیر بگذارند. این الگوریتم در حوزههای مختلفی از جمله اقتصاد، علوم اجتماعی، پزشکی و مهندسی کاربرد دارد.
موضوع این مطلب یعنی ضریب تعیین یکی از معیارهای کلیدی برای ارزیابی مدلهای رگرسیون است. این معیار نشان میدهد که مدل تا چه حد قادر است تغییرات متغیر وابسته را پیشبینی کند. در ارزیابی مدلهای رگرسیون، به عنوان یک شاخص مهم در نظر گرفته میشود. چرا که با بهرهگیری از آن متوجه میشویم که مدل چقدر دقیق است و تا چه حد میتوان به پیشبینیها اعتماد کرد. به عنوان مثال، ضریب تعیین در تحلیل دادههای مالی، پیشبینی الگو رفتاری بازار و ارزیابی تاثیرات یک رویه پزشکی، حاوی اطلاعات ارزشمندی است.
برای یادگیری بهتر رگرسیون، پیشنهاد میکنیم از مجموعه فیلمهای آموزشی فرادرس که توسط اساتید مجرب در این حوزه تهیه شده است استفاده کنید. با مشاهده این دورهها که از طریق لینکهای زیر در دسترس شما هستند، میتوانید رگرسیون را از سطح مقدماتی تا پیشرفته یاد بگیرید:
فرمول محاسبه ضریب تعیین
حالا که میدانیم ضریب تعیین چیست و چه نقشی در ارزیابی عملکرد مدلهای رگرسیونی دارد، در این بخش با فرمول و نحوه محاسبه این معیار ارزیابی آشنا میشویم. ضریب تعیین، میزان پراکندگی نقاط داده را اطراف خط رگرسیونی بررسی میکند. هرچه ضریب تعیین بزرگتر باشد یعنی فاصله میان مقادیر حقیقی و پیشبینی شده کمتر است. درصدی از پراکندگی متغیر وابسته را که برای مدل خطی قابل پیشبینی است ضریب تعیین گویند. فرمول محاسبه ضریب تعیین به شرح زیر است:
مقدار ضریب تعیین همیشه چیزی بین ۰ و ۱۰۰ درصد است. اگر ضریب تعیین برابر با ۰ باشد، یعنی مدل قادر به پیشبینی تغییرات متغیر وابسته در اطراف میانگین نیست. از طرف دیگر، ضریب تعیین مساوی ۱۰۰، یعنی مدل رگرسیون میتواند تمام تغییرات متغیر وابسته یا هدف را شناسایی کند. بهطور معمول هر چقدر بزرگتر باشد یعنی مدل بهتر برازش شده است.
مصورسازی ضریب تعیین
تا اینجا میدانیم ضریب تعیین چیست و همچنین چگونه محاسبه میشود. اما در ادامه و برای به تصویر کشیدن نحوه عملکرد ضریب تعیین، میتوانیم خط رگرسیونی برازش شده را مطابق با دادههای دیتاست ترسیم کنیم.
در تصویر بالا، ضریب تعیین برای مدل رگرسیون سمت چپ برابر با ۱۵ درصد و برای مدل سمت راست ۸۵ درصد است. زمانی یک مدل رگرسیونی قادر به پیشبینی نسبت بالایی از واریانس است که نقاط داده به خط برازش شده نزدیکتر باشند. در عمل هیچگاه شاهد مدلی با ضریب تعیین ۱۰۰ درصد نخواهید بود. در چنین شرایطی، مقادیر پیشبینی شده با حقیقی برابر بوده و همه نمونهها دقیقا روی خط قرار میگیرند. مطلب جامعی درباره مصورسازی داده در مجله فرادرس نگارش شده است که میتوانید آن را با مراجعه به لینک زیر مطالعه کنید:
ضریب تعیین و ضریب تعیین تعدیل شده
کاربرد معیار R-squared یا ضریب تعیین به مدلهای رگرسیون خطی ساده با تنها یک متغیر خلاصه میشود. در نتیجه اگر مسئله از نوع رگرسیون چندگانه با چند متغیر مستقل باشد، لازم است تا ضریب تعیین نیز با مسئله تطبیق پیدا کند. گاهی تعداد زیاد متغیرها باعث بیشبرازش مدل و افزایش ضریب تعیین میشود. اما ضریب تعیین تعدیل شده تنها زمانی افزایش پیدا میکند که متغیرهای جدید، نقشی در بهبود دقت مدل داشته باشند.
تفسیر مقادیر بالا و پایین
ضریب تعیین، اطلاعاتی از برازش مدل بر دادههای دیتاست در اختیار ما قرار نمیدهد. ممکن است ضریب تعیین پایین، اما عملکرد مدل خوب باشد. از طرف دیگر، ممکن است مدل سوگیری داشته اما ضریب تعیین عدد بالایی را نشان دهد. بهطور کلی، بالا یا پایین بودن ضریب تعیین بسیار به نوع مسئله و دادهها بستگی دارد. برای مثال، پیشبینی توزیع و پراکندگی دادههای مربوط به رفتار انسان، بسیار دشوارتر از موضوعی مانند پیشبینی شرایط محیطی است. بنابراین و در چنین کاربردهایی، امکان دارد ضریب تعیین کمتر از ۵۰ درصد باشد. زمانی ضریب پایین مشکلساز میشود که حد آستانه بالایی برای پیشبینیها مشخص کرده باشید. برای یادگیری و آشنایی عملی با نحوه پیشبینی در یادگیری ماشین، میتوانید فیلم آموزش پیشبینی با الگوریتمهای یادگیری ماشین فرادرس را که لینک آن در بخش زیر قرار گرفته است مشاهده کنید:
بالا بودن ضریب تعیین به تنهایی معیار مناسبی برای نتیجهگیری در مورد عملکرد مدل نیست. به عنوان مثال دو نمودار زیر را در نظر بگیرید. در این مثال، مدل بر اساس دو متغیر «جابهجایی» و «تراکم» ذرات الکترون، بر دادهها برازش شده است.
مطابق با آنچه نمودار سمت چپ در تصویر بالا نشان میدهد، ضریب تعیین برابر با ۹۸/۵ درصد است. اما در نمودار سمت راست شاهد فاصله زیادی بین مقادیر حقیقی و پیشبینی شده هستیم. مدلی فاقد سوگیری است که پراکندگی مقادیر در نمودار (سمت راست)، تصادفی و نزدیک به صفر باشد. در غیر اینصورت، مقدار بالا تضمینی برای برازش و عملکرد خوب مدل نیست. چنین مشکلی از کمبود متغیرهای مستقل همچون عبارات چندجملهای نشات میگیرد و راهحل آن نیز اضافه کردن متغیرهای جدید یا برازش یک مدل غیر خطی است. همچنین وجود شرایطی مانند بیشبرازش و داده کاوی میتواند بهطور مصنوعی ضریب تعیین را افزایش داده و در حالی که مدل بر دادهها برازش نیست، نتایج نادرست و اشتباهی برداشت شود.
در نتیجه برای ارزیابی میزان تاثیرگذاری و عملکرد مدل، باید علاوهبر ضریب تعیین، شاخصهای دیگری نیز مانند نمودارهای آماری مورد بررسی قرار بگیرند.
محدودیت های ضریب تعیین
ضریب تعیین بر اساس تغییرات متغیر مستقل، تخمینی از تغییرات متغیر وابسته ارائه میدهد. اگرچه، نه خوب یا بد بودن مدل را تعیین میکند و نه حاوی اطلاعاتی درباره جهتدار بودن یا نبودن پیشبینیها است. همانطور که در بخش قبل نیز اشاره کردیم، بالا یا پایین بودن ضریب تعیین به تنهایی برای انتخاب مدل رگرسیون مناسب با مسئله کافی نیست. شاید پایین، اما عملکرد مدل خوب باشد یا علارغم ضریب تعیین بالا، مدل بهخوبی برازش نشده باشد.
نکاتی برای بهبود ضریب تعیین
بهبود ضریب تعیین اغلب نیازمند راهکاری هوشمندانه برای بهینهسازی مدل است. به عنوان مثال، انتخاب و مهندسی ویژگی از جمله این رویکردها به شمار میروند. مدل یادگیری ماشین زمانی قادر به درک روابط و الگوهای میاندادهای است که تنها ویژگیهای تاثیرگذار شناسایی و انتخاب شوند. فرایندی که برای انتخاب مجموعه متغیرهای بهینه و از طریق «تحلیل داده اکتشافی» (Exploratory Data Analysis | EDA) یا تکنیکهایی همچون «رگرسیون گام به گام» (Stepwise Regression) و «منظمسازی» (Regularization) قابل انجام است.
حل مشکل «همخطی چندگانه» (Multicollinearity) رویکردی دیگر برای ارتقا ضریب تعیین است. این مشکل زمانی رخ میدهد که همبستگی متغیرهای مستقل به یکدیگر زیاد باشد و در نتیجه، علاوهبر تحت تاثیر قرار گرفتن ضریب تعیین، عملکرد مدل نیز تضعیف میشود. بهرهگیری از روشهایی مانند «تحلیل عامل تورم واریانس» (Variance Inflation Factor Analysis) یا «تحلیل مؤلفه اصلی» (Principal Component Analysis | PCA) در تشخیص و تعدیل همخطی چندگانه موثر است.
با تغییر مشخصات مدل و ایجاد رابطه غیر خطی میان متغیرها نیز میتوان ضریب تعیین را بهبود داد. برای نمونه، میتوان ویژگیهایی با مرتبه بالاتر در نظر گرفت و به شیوه موثرتری الگوهای پنهان را در دیتاست کشف کرد. البته نباید فراموش شود که گاهی دانش زمینه مرتبط هم بسیار در رسیدن به چنین بینشی کارساز است.
رگرسیون و معیارهایی مانند ضریب تعیین تنها بخشی از دنیای وسیع یادگیری ماشین هستند. اگر قصد حرفهای شدن و آغاز مسیر شغلی موفقی را در زمینه یادگیری ماشین دارید، لازم است تا مهارتهای خود را به صورت پروژهمحور و کاربردی توسعه دهید. یکی از بهترین ابزارها برای این منظور، زبان برنامهنویسی پایتون است که به دلیل قابلیتهای گسترده، کتابخانههای متنوع و جامعه بزرگ کاربری، برای پیادهسازی الگوریتمهای یادگیری ماشین بسیار مناسب است.
برای آنکه بتوانید به طور کامل و جامع یادگیری ماشین را بیاموزید و در پروژههای عملی از آن استفاده کنید، مشاهده مجموعهای از فیلمهای آموزشی فرادرس را به ترتیبی که در ادامه آورده شده است به شما توصیه میکنیم:
- فیلم آموزش یادگیری ماشین فرادرس
- فیلم آموزش رایگان مقدمهای در رابطه با یادگیری ماشین با پایتون فرادرس
- فیلم آموزش یادگیری ماشین با پایتون
سوالات متداول
حالا که بهخوبی میدانیم ضریب تعیین چیست، در این بخش به چند مورد از پرسشهای متداول که ممکن است هنگام یادگیری و حتی زمان استفاده از ضریب تعیین با آنها مواجه شوید پاسخ میدهیم.
ضریب تعیین یا تشخیص حاوی چه اطلاعاتی است؟
ضریب تعیین یا R-squared بیانگر نسبتی از واریانس در متغیر وابسته است که به وسیله متغیرهای مستقل پیشبینی میشود. این معیار ارزیابی در حقیقت کیفیت برازش مدل را بر دادههای جدید اندازه میگیرد و مشخص میکند که پیشبینیهای مدل تا چه حد به دادههای حقیقی نزدیک هستند.
آیا ضریب تعیین منفی میشود؟
خیر. همانطور که پیشتر نیز توضیح دادیم، دامنه ضریب تعیین در محدوده ۰ تا ۱۰۰ درصد یا ۰ تا ۱ قرار دارد. اگر ضریب تعیین برابر با ۰ باشد، یعنی تراکم موجود در متغیر وابسته برای متغیر یا متغیرهای مستقل قابل پیشبینی نیست و اگر ۱ باشد، نشان دهنده برازش کامل مدل بر دادهها است.
علت پایین بودن ضریب تعیین چیست؟
مقدار پایین ضریب تعیین، نشان دهنده ناتوانی متغیرهای مستقل در توضیح و درک پراکندگی موجود در متغیر هدف است. کمبود متغیرهای مناسب یا روابط غیر خطی میان دادهها، از جمله عواملی هستند که توسط مدل قابل تشخیص نبوده و امکان دارد به ضریب تعیین پایین ختم شوند.
چه مقداری از ضریب تعیین «مناسب» است؟
زمانی میتوان از عبارت «مناسب» برای ضریب تعیین استفاده کرد که کاربرد و نوع مسئله در نظر گرفته شده باشد. در برخی از حوزهها مانند علوم اجتماعی، حتی ضریب تعیین به نسبت پایین مانند ۰/۵ هم مناسب است. اما این استاندارد برای همه کاربردها یکسان نبوده و گاهی فقط ضرایب بیشتر از ۰/۹ مورد بررسی قرار میگیرند. برای مثال در زمینه امور مالی، ضریب تعیین بیش از ۰/۷، نوعی همبستگی بالا را نشان میدهد و اگر کمتر از ۰/۴ باشد، یعنی همبستگی میان متغیرها پایین است.
جمعبندی
بهطور خلاصه، ضریب تعیین از جمله معیارهای ارزیابی پر استفاده است که در زمینههای متنوعی کاربرد دارد. در این مطلب از مجله فرادرس یاد گرفتیم ضریب تعیین چیست و چگونه با کمک آن میتوانیم میزان تاثیرگذاری یک یا چند متغیر مستقل را بر متغیر وابسته اندازه بگیریم. با وجود همه مزیتها، ضریب تشخیص محدودیتهایی نیز دارد که باید هنگام انتخاب معیار ارزیابی و بسته به نوع مسئله به آنها توجه شود.