استفاده از داده‌ها به منظور کشف رابطه بین آن‌ها اساس داده‌کاوی است. یکی از ابزار سنجش رابطه و مدل‌سازی استفاده از ابزار آماری رگرسیون است. امروزه به منظور تحلیل و کشف مدل روی «مه داده» (کلان‌داده | Big Data)، روش‌های مختلف رگرسیون توسعه یافته است. استفاده از تحلیل گرسیونی در علوم مختلف داده‌کاوی، بخصوص مبحث «آموزش ماشین» (Machine Learning)، فیزیک، شیمی و علوم زیستی کاربرد بسیاری دارد.

مفهوم رگرسیون

در آمار، رگرسیون خطی یک روریکرد مدل خطی بین متغیر «پاسخ» (Response) با یک یا چند متغیر «توصیفی» (Explanatory) است. اغلب برای کشف مدل رابطه‌ی خطی بین متغیرها از رگرسیون (Regression) استفاده می‌شود. در این حالت فرض بر این است که یک یا چند متغیر توصیفی که مقدار آن‌ها مستقل از بقیه متغیرها یا تحت کنترل محقق است، می‌تواند در پیش‌بینی متغیر پاسخ که مقدارش وابسته به متغیرهای توصیفی و تحت کنترل محقق نیست، موثر باشد. هدف از انجام تحلیل رگرسیون شناسایی مدل خطی این رابطه‌ است.

در ادامه از  متغیر وابسته به جای متغیر پاسخ و متغیر مستقل به جای متغیر توصیفی استفاده می‌کنیم.

از آنجایی که ممکن است علاوه بر متغیرهای مستقل، عوامل زیاد و ناشناخته‌ دیگری نیز در تعیین مقدار متغیر وابسته نقش داشته باشند، مدل رگرسیونی را با مناسب‌ترین تعداد متغیر مستقل در نظر گرفته و میزان خطا را به عنوان نماینده عوامل تصادفی دیگری که قابل شناسایی نبودند در نظر می‌گیریم که انتظار است کمتر در تغییرات متغیر وابسته نقش داشته باشند.

ضریب همبستگی

برای سنجش شدت رابطه بین متغیر وابسته و مستقل می‌توان از ضریب همبستگی استفاده کرد. هر چه ضریب همبستگی به ۱ یا ۱- نزدیکتر باشد،‌ شدت رابطه خطی بین متغیرهای مستقل و وابسته شدیدتر است. البته اگر ضریب همبستگی نزدیک به ۱ باشد جهت تغییرات هر دو متغیر یکسان است که به آن رابطه مستقیم می‌گوییم و اگر ضریب همبستگی به ۱- نزدیک باشد، جهت تغییرات متغیرها معکوس یکدیگر خواهد بود و به آن رابطه عکس می‌گوییم. ولی در هر دو حالت امکان پیش‌بینی مقدار متغیر وابسته برحسب متغیر مستقل وجود دارد.

هرچند ضریب همبستگی راهی برای نشان دادن رابطه بین دو متغیر مستقل و وابسته است ولی مدل رابطه بین این دو متغیر را نشان نمی‌دهد. با رگرسیون می‌توان قانونی که بین داده‌ها وجود دارد را کشف و به کار بست. بسیاری از رابطه‌های فیزیک یا شیمی به کمک رگرسیون بدست آمده است. برای مثال مقدار ثابت گازها در فیزیک کلاسیک از طریق رگرسیون قابل محاسبه است.

نمایش رابطه‌ی خطی بین دو متغیر مستقل و وابسته معمولا توسط «نمودار نقطه‌ای» (Scatter Plot) انجام می‌شود. برای آشنایی با شیوه ترسیم نمودار نقطه‌ای می‌توانید به مطلب نمایش و رسم نمودار برای داده‌ها — معرفی و کاربردها مراجعه کنید.

simple-regression
رابطه‌ مستقیم بین متغیر مستقل وابسته با خط رگرسیون

با توجه به تصویر بالا مشخص است که محور افقی مقدارهای متغیر مستقل و محور عمودی مقدارهای متغیر وابسته را نشان می‌دهد و رابطه‌ی بین دو متغیر مستقیم است. ولی در تصویر زیر رابطه شدید ولی در جهت عکس بین دو متغیر مستفل و وابسته دیده می‌شود.

simple-regression-1
رابطه‌ معکوس بین متغیر مستقل وابسته با خط رگرسیون

تاریخچه رگرسیون

واژه رگرسیون برای اولین بار در مقاله‌ معروف فرانسیس گالتون دیده شد که در مورد قد فرزندان و والدینشان بود. این واژه به معنی بازگشت است. او در مقاله خود در سال ۱۸۷۷ اشاره می‌کند که قد فرزندان قد بلند به میانگین قد جامعه میل می‌کند. او این رابطه را «بازگشت» (Regress) نامید.

هر چند واژه رگرسیون در شاخه علوم زیستی معرفی شد ولی آنچه امروزه به نام رگرسیون می‌شناسیم،‌ روشی است که توسط «گاوس» (Gauss) در سال ۱۸۰۹ معرفی شد تا به کمک آن پارامترهای مجهول رابطه بین مدار سیاره‌های منظومه شمسی را برآورد کند.

بعدها روش گاوس توسط پیرسون (Pearson) توسعه یافت و با مفاهیم آماری آمیخته شد. همچنین پیرسون توزیع توام متغیر وابسته و مستقل را توزیع گاوسی در نظر گرفت. بعدها «فیشر» (R. A. Fisher) توزیع متغیر وابسته به شرط متغیر مستقل را توزیع گاوسی محسوب کرد.

مدل رگرسیون خطی ساده

اگر برای شناسایی و پیش‌بینی متغیر وابسته فقط از یک متغیر مستقل استفاده شود، مدل را «رگرسیون خطی ساده» (Simple Linear Regression) می‌گویند. فرم مدل رگرسیون خطی ساده به صورت زیر است:

$$Y=\beta_0+\beta_1X+\epsilon$$

همانطور که دیده می‌شود این رابطه، معادله یک خط است که جمله خطا یا همان $$\epsilon$$‌ به آن اضافه شده. پارامترهای این مدل خطی عرض از مبدا ($$\beta_0$$) و شیب خط ($$\beta_1$$) است. شیب خط در حالت رگرسیون خطی ساده، نشان می‌دهد که میزان حساسیت متغیر وابسته به متغیر مستقل چقدر است. به این معنی که با افزایش یک واحد به مقدار متغیر مستقل چه میزان متغیر وابسته تغییر خواهد کرد. عرض از مبدا نیز بیانگر مقداری از متغیر وابسته است که به ازاء مقدار متغیر مستقل برابر با صفر محاسبه می‌شود. به شکل دیگر می‌توان مقدار ثابت یا عرض از مبدا را مقدار متوسط متغیر وابسته به ازاء حذف متغیر مستقل در نظر گرفت.

برای مثال فرض کنید کارخانه‌ای می‌خواهد میزان هزینه‌هایش را براساس ساعت کار برآورد کند. شیب خط حاصل از برآورد نشان می‌دهد به ازای یک ساعت افزایش ساعت کاری چه میزان بر هزینه‌هایش افزوده خواهد شد. از طرفی عرض از مبدا خط رگرسیون نیز هزینه ثابت کارخانه حتی زمانی که ساعت کاری نیست نشان می‌دهد. این هزینه را می‌توان هزینه‌های ثابت مانند دستمزد نگهبانان و هزینه روشنایی فضای کارخانه فرض کرد.

گاهی مدل رگرسیونی را بدون عرض از مبدا در نظر می‌گیرند و  $$\beta_0=0$$ محسوب می‌کنند. این کار به این معنی است که با صفر شدن مقدار متغیر مستقل، مقدار متغیر وابسته نیز باید صفر در نظر گرفته شود. زمانی که محقق مطمئن باشد که که خط رگرسیون باید از مبدا مختصات عبور کند، این گونه مدل در نظر گرفته می‌شود. فرم مدل رگرسیونی در این حالت به صورت زیر است:

$$Y=\beta_1X+\epsilon$$

از آنجایی که پیش‌بینی رابطه بین متغیر وابسته و مستقل به شکل دقیق نیست، جمله خطا را یک «متغیر تصادفی» (Random Variable) با میانگین صفر در نظر می‌گیرند تا این رابطه دارای اریبی نباشد.

باید توجه داشت که منظور از رابطه خطی در مدل رگرسیون، وجود رابطه خطی بین ضرایب است نه بین متغیرهای مستقل. برای مثال این مدل $$y=\beta_0+\beta_1x^2+\epsilon$$ را نیز می‌توان مدل خطی در نظر گرفت در حالیکه مدل $$y=\beta_0x^{\beta_1}+\epsilon$$ دیگر خطی نیست و به مدل نمایی شهرت دارد.

همچنین در فرضیات این مدل، خطا یک جمله تصادفی است و تغییرات آن مستقل از متغیر X‌ است. به این ترتیب مقدار خطا وابسته به مقدار متغیر مستقل نیست.

در رگرسیون خطی سعی می‌شود، به کمک معادله خطی که توسط روش رگرسیون معرفی می‌شود، برآورد مقدار متغیر وابسته به ازای مقدارهای مختلف متغیر مستقل توسط خط رگرسیون بدست آید. به منظور برآورد پارامترهای مناسب برای مدل، کوشش می‌شود براساس داده‌های موجود، مدلی انتخاب می‌شود که کمترین خطا را داشته باشد.

روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون خطی ساده به کار می‌رود، کمینه کردن مجموع مربعات خطا است. از آنجایی که میانگین مقدارهای خطا صفر در نظر گرفته شده است، می‌دانیم زمانی مجموع مربعات خطا، حداقل ممکن را خواهد داشت که توزیع داده‌ها نرمال باشند. در نتیجه، نرمال بودن داده‌های متغییر وابسته یا باقی‌مانده‌ها یکی از فرضیات مهم برای مدل رگرسیونی خطی ساده است.

شکل زیر به منظور توضیح نرمال بودن مقدار خطا ترسیم شده است. در هر مقدار از متغیر مستقل ممکن است بیش از یک مقدار برای متغیر وابسته مشاهده شود. مقدار پیش‌بینی شده برای هر یک از این مقدارها ثابت است که توسط معادله خط رگرسیون برآورد می‌شود.

برای مثال تعدادی مقدار برای متغیر وابسته براساس مقدار x=65 وجود دارد که شکل توزیع فراوانی آن‌ها به صورت نرمال با میانگین $$\beta_0+\beta_1\times 65$$ است. همچنین برای نقطه ۹۰ نیز مقدار پیش‌بینی یا برآورد برای متغیر وابسته به صورت $$\beta_0+\beta_1\times 90$$ خواهد بود. در هر دو حالت واریانس خطا یا واریانس مقدارهای پیش‌بینی‌شده (پهنای منحنی زنگی شکل)  ثابت است.

در تصویر زیر چهار نقطه از مشاهدات (x,y) به همراه خط رگرسیون دیده می‌شوند که در آن خط رگرسیون با رنگ آبی، نقطه‌های مربوط به مشاهدات با رنگ قرمز و فاصله هر نقطه از خط رگرسیون (خطای برآورد) با رنگ سبز نشان داده شده است.

 

Linear_least_squares
نمودار نقطه‌ای متغیر مستقل و وابسته،‌ میزان خطا و خط رگرسیون

برای برآورد کردن پارامترهای مدل رگرسیونی باید معادله خطی یافت شود که از بین همه خطوط دیگر دارای کمترین مجموع توان دوم خطا باشد. یعنی $$\sum\epsilon^2$$ برای آن از بقیه خطوط کمتر باشد.

points_for_linear_regression
خطوط مناسب برای بیان رابطه بین متغیر مستقل و وابسته

به نظر شما در تصویر بالا،‌ کدام خط دارای مجموع مربعات خطای کمتری است؟ امکان تشخیص بهترین خط بدون استفاده از ابزارهای محاسباتی امکان‌پذیر نیست.

برآورد پارامترهای رگرسیون خطی ساده

به منظور برآورد پارامترهای رگرسیون خطی ساده، کافی است تابع مجموع مربعات خطا را کمینه کرد. برای این کار مراحل زیر باید طی شوند:

  • محاسبه مجموع توان دوم خطا

$$\sum(y_i-(\widehat{\beta}_0+ \widehat{\beta}_1x_i))^2$$

  • مشتق مجموع مربعات خطا برحسب پارامتر $$\widehat\beta_0$$

$$\sum(-y_i+\widehat{\beta}_0+\widehat{\beta}_1x_i)$$

  • برابر قرار دادن مشتق با صفر به منظور پیدا کردن نقاط کمینه

$$\sum(-y_i+\widehat{\beta}_0+\widehat{\beta}_1x_i)=0$$

  • پیدا کردن ریشه برای معادله حاصل برحسب $$\widehat{\beta}_0$$

$$\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}$$

  • مشتق مجموع مربعات خطا بر حسب پارامتر  $$\widehat\beta_1$$

$$ \sum(-2x_iy_i+2\widehat{\beta}_0x_i+2\widehat{\beta}_1 x_i^2)$$

  • جایگذاری $$\widehat\beta_0$$ و پیدا کردن ریشه برای معادله حاصل برحسب $$\widehat{\beta}_1$$

$$-\sum(x_iy_i+(\bar{y}-\widehat{\beta}_1\bar{x})\sum x_i+\widehat{\beta}_1\sum x_i^2)=0$$

$$\widehat{\beta_1}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$$

به این ترتیب برآورد پارامترهای مدل خطی به صورت زیر خواهند بود.

$$\widehat{\beta_1}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$$

$$\widehat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}$$

که در آن $$\bar{x}$$  و $$\bar{y}$$ میانگین $$x$$ و $$y$$ هستند.

برای راحتی محاسبات، می‌توان برآورد $$\beta_1$$ را به فرم دیگری نیز نوشت:

$$\widehat{\beta_1}=\frac{n(\overline{xy}-\bar{x}\bar{y}))}{(n-1)\sigma_x^2}$$

که منظور از $$\overline{xy}$$ میانگین حاصلضرب x و y بوده و $$\sigma_x^2$$ نیز بیانگر واریانس مقدارهای x است.

اگر $$\widehat{y}$$ مقدار برآورد برای متغیر وابسته باشد، می‌توانیم آن را میانگین مشاهدات برای متغیر وابسته به ازای مقدار ثابت متغیر مستقل در نظر گرفت. پس با فرض اینکه میانگین جمله خطا نیز صفر است، خواهیم داشت:

$$\widehat{y}=E(Y|X=x)= \widehat{\beta_0}+\widehat{\beta_1}x$$

که در آن $$E(Y|X=x)$$ نشان‌دهنده امید ریاضی (متوسط) شرطی است و همچنین  $$\widehat{\beta_0}$$ و $$\widehat\beta_1$$ برآوردهای مربوط به هر یک از پارامترها هستند.

نکته: به راحتی دیده می‌شود که میانگین مربوط به متغیر مستقل و وابسته روی خط رگرسیون قرار دارند. یعنی این نقطه در معادله خط رگرسیون صدق می‌کند. زیرا با توجه به محاسبه $$\beta_0$$ داریم:

$$\widehat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}\rightarrow \overline{Y}=\widehat\beta_0+\widehat\beta_1 \overline{X}$$

مثال

اطلاعات مربوط به ۵۰ خانه شامل قیمت (به میلیون ریال) و متراژ (متر مربع) در شهر تهران جمع‌آوری شده است. این اطلاعات را می‌توانید با قالب اکسل از اینجا دریافت کنید.

با توجه به ضریب همبستگی بین این دو متغیر که برابر با 0.9891 است،‌ مشخص است که رابطه خطی شدیدی بینشان برقرار است. اگر فرض کنیم قیمت خانه متغیری وابسته به متراژ است، محاسبات اولیه برای برآورد پارامترهای مدل رگرسیونی در جدول زیر قرار گرفته.

$$\overline{X}$$ $$\overline{Y}$$ $$\overline{XY}$$ $$\sigma_X^2$$
84.9 451.136 40350.6 411.724

بر این اساس برآورد پارامترهای مدل خطی به صورت $$\widehat\beta_0=19.965$$ و $$\widehat\beta_1=5.078$$  خواهد بود. در نتیجه می‌توان معادله مربوط برآورد مقدار متغیر وابسته را به صورت زیر نوشت:

$$\widehat{y_i}=19.965+5.078 x_i$$

پس اگر لازم باشد که ارزش خانه‌ای با متراژ 61 متر محاسبه شود، کافی است در معادله بالا برای $$x_i$$‌ مقدار 61 را جایگزین کرده،‌ مقدار $$\widehat{y}_i$$ را بدست آوریم که برابر با 329.758 میلیون ریال است. در تصویر زیر نمودار مربوط به داده‌ها و خط رگرسیون دیده می‌شود.

$$\widehat{y_i}=19.965+5.078 (61)=329.758$$

آزمون مربوط به مدل و پارامترهای آن

بعد از انجام مراحل رگرسیون، با استفاده از جدول «تحلیل واریانس» (Analysis of Variance) می‌توان صحت مدل ایجاد شده و کارایی آن را سنجید. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. پس می‌توان رابطه زیر را بر این اساس نوشت.

SST= SSR+SSE

که هر کدام به صورت زیر تعریف شده‌اند:

$$SST=\sum(y_i-\overline{y})^2$$

مقدار SST را می‌توان مجموع مربعات تفاضل مشاهدات متغیر وابسته با میانگینشان در نظر گرفت که در حقیقت صورت کسر واریانس متغیر وابسته است. این کمیت می‌تواند به دو بخش زیر تفکیک شود.

$$SSE=\sum(y_i-\widehat{y}_i)^2$$

شایان ذکر است به مقدار SSE مجموع مربعات خطا نیز گفته می‌شود که در مدل رگرسیون با توجه به کمینه کردن آن پارامترهای مدل بدست آمد. همچنین بخش بعدی با SSR‌ نشان داده می‌شود:

$$SSR=\sum(\widehat{y}_i-\overline{y})^2$$

که می‌تواند به عنوان مجموع مربعات تفاضل مقدارهای پیش‌بینی‌شده از میانگینشان نام‌گذاری شود.

در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است حاصل را بر تعداد اعضایشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند. به جدول زیر که به جدول تحلیل واریانس معروف است، توجه کنید.

منشاء تغییرات درجه آزادی مجموع مربعات  میانگین مربعات آماره F
رگرسیون k-۱ SSR $$MSR=\dfrac{SSR}{k-1}$$ $$F=\dfrac{MSR}{MSE}$$
خطا n-k SSE $$MSE=\dfrac{SSE}{n-k}$$
کل n-1 SST

درجه آزادی برای رگرسیون که با k-۱ نشان داده شده است، یکی کمتر از تعداد پارامترهای مدل (k) است که در رگرسیون خطی ساده برابر با ۱-۲=۱ خواهد بود زیرا پارامترهای مدل در این حالت $$\beta_0$$ و $$\beta_1$$ هستند. تعداد مشاهدات نیز با n نشان داده شده است.

اگر محاسبات مربوط به جدول تحلیل واریانس را برای مثال ذکر شده، انجام دهیم نتیجه مطابق جدول زیر خواهد بود.

منشاء تغییرات درجه آزادی مجموع مربعات  میانگین مربعات آماره F
رگرسیون 1 520338.1755 520338.1755 $$F=\dfrac{MSR}{MSE}=\dfrac{520338.1755}{239.91}=2168.89$$
خطا 48 11515.7187 239.91
کل 49 531853.8942

از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع متوجه می‌شویم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با $$k-1$$‌ و $$n-k$$ درجه آزادی است، پس مدل رگرسیون توانسته است بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.

گاهی از «ضریب تعیین» (Coefficient of Determination) برای نمایش درصدی از تغییرات که توسط مدل رگرسیونی بیان شده، استفاده می‌شود. ضریب تعیین را با علامت $$R^2$$ نشان می‌دهند. هر چه ضریب تعیین بزرگتر باشد، نشان‌دهنده موفقیت مدل در پیش‌بینی متغیر وابسته است. در رگرسیون خطی ساده مربع ضریب همبستگی خطی همان ضریب تعیین خواهد بود.

در مثال قبل ضریب تعیین برای مدل رگرسیونی برابر با 0.9783‌ است. بنابراین به نظر می‌رسد که مدل رگرسیونی در پیش‌بینی ارزش خانه برحسب متراژ موفق عمل کرده.

نکاتی در مورد رگرسیون خطی ساده

قبل از اتمام کار با مدل رگرسیون نکاتی باید در نظر گرفته شوند. با توجه به تعریف فیشر برای رگرسیون، جمله‌ خطا باید یک متغیر تصادفی با توزیع نرمال باشد. از آنجایی که در انجام محاسبات این فرضیه چک نشده است، باید بعد از محاسبات مربوط به مدل رگرسیون خطی، مقدارهای خطا محاسبه شده و تصادفی بودن و وجود توزیع نرمال برای آن‌ها چک شود.

تصادفی بودن باقی‌مانده‌ها

یک راه ساده، برای چک کردن تصادفی بودن مقدارهای خطا می‌تواند رسم آن‌ها و مقدار پیش‌بینی شده $$\widehat{y}$$ روی یک نمودار باشد، بطوری که مقدارهای پیش‌بینی در محور افقی و مقدارهای خطا در محور عمودی ظاهر شوند. اگر در این نمودار، الگوی خاصی مشاهده نشود می‌توان رای به تصادفی بودن باقی‌مانده داد. منظور از الگوی غیرتصادفی، افزایش یا کاهش مقدار خطا با افزایش یا کاهش مقدارهای پیش‌بینی‌ شده است.

در تصویر زیر این نمودار برای مثال قبلی ترسیم شده است. محور افقی در این نمودار مقدار قیمت خانه و محور عمودی نیز باقی‌مانده‌ها است. همانطور که دیده می‌شود، الگوی خاصی وجود ندارد.

randomness
نمودار نقطه‌ای برای نمایش رابطه بین مقدارهای پیش‌بینی شده و باقی‌مانده‌ها

نرمال بودن باقی‌مانده‌ها

به منظور سنجش نرمال بودن باقی‌مانده‌ها، ترسیم بافت‌نگار می‌تواند ساده‌ترین راه باشد. در تصویر زیر بافت‌نگار مربوط به باقی‌مانده‌های مثال قبل ترسیم شده است. شکل بدست آمده شبیه توزیع نرمال است و به صورت زنگی شکل درآمده.

residuals and normal

البته روش‌ دقیق‌تر، ترسیم نمودار «چندک-چندک» (Q-Q Plot) برای باقی‌مانده‌ها یا مشاهدات y و داده‌های توزیع نرمال است. در زیر نمودار چندک-چندک برای داده‌های مربوط به مثال قبل ترسیم شده است.

qq-plot
نمودار چندک-چندک Q-Q Plot

انتظار داریم در این نمودار، اگر داده‌های مربوط به متغیر وابسته دارای توزیع نرمال باشند، صدک‌های مربوط به آن با صدک‌های تولید شده از توزیع نرمال تقریبا یکسان باشند. اگر این اتفاق بیافتد باید نقاط روی نمودار که نشان‌دهنده زوج‌ صدک‌های تولید شده هستند، روی یک خط راست قرار گیرند. این کار را با مقدارهای خطا نیز می‌توان انجام داد زیرا متغیر وابسته با مقدارهای خطا رابطه خطی دارد. به این منظور چندک‌های توزیع نرمال را با چندک‌های توزیع تجربی باقی‌مانده‌ها مقایسه می‌کنیم. انتظار داریم که نمودار، نشان دهنده یک رابطه مستقیم خطی باشد. در نتیجه می‌توان فرض کرد که باقی‌مانده‌ها دارای توزیع نرمال هستند.

ثابت بودن واریانس

از طرفی واریانس جمله‌ خطا نیز طبق فرضیه‌های اولیه برای مدل رگرسیونی، باید ثابت و برابر با $$\sigma^2$$ باشد. برآورد واریانس برای جمله‌های خطا نیز به صورت زیر است:

$$\sigma^2=\dfrac{\sum(y_i-\widehat{y}_i)^2}{n-2}$$

مشخص است که مقدار $$y_i$$ بیانگر مقدار مشاهده شده و $$\widehat{y}_i$$ مقدار پیش‌بینی برای مشاهده iام است. از آنجایی که در برآورد واریانس احتیاج به دو پارامتر مدل رگرسیونی است، دو درجه آزادی از تعداد مشاهدات کم شده است و در مخرج کسر n-2‌ قرار گرفته است.

برای آنکه نشان دهیم واریانس نیز ثابت است از نمودار نقطه‌ای استفاده می‌کنیم که در محور افقی مقدارهای پیش‌بینی‌شده و در محور عمودی نیز مقدار باقی‌مانده‌ها قرار دارد. این نمودار نباید به صورت الگوی افزایشی یا کاهشی باشد. قبلا از این نمودار به منظور چک کردن تصادفی بودن باقی‌مانده‌ها بهره بردیم.

تصویر زیر حالتی را نشان می‌دهد که واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی حالت افزایشی دارد و ثابت نیست.

unequal-residual-variance
افزایشی بودن واریانس باقی‌مانده‌ها

همچنین کاهشی بودن واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی در تصویر زیر دیده می‌شود.

not-equal-variance-type2
نزولی بودن واریانس باقی‌مانده با افزایش مقدار پیش‌بینی

اگر در مدل رگرسیونی باقی‌مانده‌ها نسبت به مقدار پیش‌بینی به طور تصادفی حول نقطه صفر تغییر کند، ثابت بودن واریانس قابل شناسایی است. این حالت در تصویر زیر دیده می‌شود.

equal-variance
ثابت بودن واریانس باقی‌مانده‌ها

اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزش‌هایی که در ادامه آمده‌اند نیز برایتان کاربردی خواهند بود.

^^

telegram
twitter

بر اساس رای 3 نفر

آیا این مطلب برای شما مفید بود؟

7 نظر در “رگرسیون خطی — مفهوم و محاسبات به زبان ساده

  1. من معمولاً نظر نمیذارم. اما این دفعه حیفم اومد نظری ندم.
    میخواستم بگم :
    آفرین به نویسنده این مقاله ، آفرین به سایت فرادرس

  2. سلام
    واقعا عالی بود، خیلی خیلی ممنون
    خلاصه و خیلی مفید بود
    بازم ممنون

    یه اشکال تایپی داشت تو جدول که جای MSE و MSR اشتباه نوشته شده

    1. سلام و تشکر از توجه شما به مطالب فرادرس
      مشکل تایپی حل شده و اصلاح در جدول تحلیل واریانس صورت گرفت… از اینکه همراه فرادرس هستید بسیار سپاسگزاریم.

  3. سلام دوستان عزیز
    کسی میتونه لطفا راهنمایی کنه؟
    یک محصول ۶ متری داریم که در هر متر ۱ میلیمتر انحراف از خط راست داره . انحراف در ۶ متر چقدر صحیح است؟
    در صورتیکه خردش کنیم در هر ۱ متر ۱ میلیمتر انحراف داره اما در طول ۶ متر الان حدود ۱۵ سانتیمتر انحراف داره. میشه روش محاسبه رو بفرمایید.

  4. درود و سپاس از اموزش خوبتون. اما در مقایسه با کتاب Jeffry Wooldridge انگار SSE و SSR جابجاست.
    در کتاب ازمون صحت رگرسیون را با این فرمول گفته ست

    SSR=∑(yi−y^i)2
    و خطا رو با
    SSE=∑(y^i−y¯)۲

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *