رگرسیون خطی ساده — مفهوم و محاسبات به زبان ساده

۴۰۸۲۹ بازدید
آخرین به‌روزرسانی: ۲۲ اسفند ۱۴۰۲
زمان مطالعه: ۱۱ دقیقه
رگرسیون خطی ساده — مفهوم و محاسبات به زبان ساده

در این مطلب از مجله فرادرس در مورد رگرسیون خطی ساده و محاسبات آن صحبت می‌کنیم. استفاده از داده‌ها به منظور کشف رابطه بین آن‌ها اساس داده‌کاوی است. یکی از ابزار سنجش رابطه و مدل‌سازی استفاده از ابزار آماری رگرسیون است. امروزه به منظور تحلیل و کشف مدل روی «مه داده» (کلان‌داده | Big Data)، روش‌های مختلف رگرسیون توسعه یافته است. استفاده از تحلیل رگرسیون خطی ساده در علوم مختلف داده‌کاوی، بخصوص مبحث «آموزش ماشین» (Machine Learning)، فیزیک، شیمی و علوم زیستی کاربرد بسیاری دارد.

مفهوم رگرسیون خطی ساده

در آمار، رگرسیون خطی یک رویکرد مدل خطی بین متغیر «پاسخ» (Response) با یک یا چند متغیر «توصیفی» (Explanatory) است. اغلب برای کشف مدل رابطه‌ی خطی بین متغیرها از رگرسیون (Regression) استفاده می‌شود. در این حالت فرض بر این است که یک یا چند متغیر توصیفی که مقدار آن‌ها مستقل از بقیه متغیرها یا تحت کنترل محقق است، می‌تواند در پیش‌بینی متغیر پاسخ که مقدارش وابسته به متغیرهای توصیفی و تحت کنترل محقق نیست، موثر باشد. هدف از انجام تحلیل رگرسیون شناسایی مدل خطی این رابطه است.

در ادامه از  متغیر وابسته به جای متغیر پاسخ و متغیر مستقل به جای متغیر توصیفی استفاده می‌کنیم.

تصویر گرافیکی چند ذره بزرگ و کوچک که یک خط مستقیم را تشکیل می دهند (تصویر تزئینی مطلب رگرسیون خطی ساده)

از آنجایی که ممکن است علاوه بر متغیرهای مستقل، عوامل زیاد و ناشناخته‌ دیگری نیز در تعیین مقدار متغیر وابسته نقش داشته باشند، مدل رگرسیونی را با مناسب‌ترین تعداد متغیر مستقل در نظر گرفته و میزان خطا را به عنوان نماینده عوامل تصادفی دیگری که قابل شناسایی نبودند در نظر می‌گیریم که انتظار است کمتر در تغییرات متغیر وابسته نقش داشته باشند.

ضریب همبستگی

برای سنجش شدت رابطه بین متغیر وابسته و مستقل می‌توان از ضریب همبستگی استفاده کرد. هر چه ضریب همبستگی به ۱ یا ۱- نزدیکتر باشد،‌ شدت رابطه خطی بین متغیرهای مستقل و وابسته شدیدتر است. البته اگر ضریب همبستگی نزدیک به ۱ باشد جهت تغییرات هر دو متغیر یکسان است که به آن رابطه مستقیم می‌گوییم و اگر ضریب همبستگی به ۱- نزدیک باشد، جهت تغییرات متغیرها معکوس یکدیگر خواهد بود و به آن رابطه عکس می‌گوییم. ولی در هر دو حالت امکان پیش‌بینی مقدار متغیر وابسته برحسب متغیر مستقل وجود دارد.

هرچند ضریب همبستگی راهی برای نشان دادن رابطه بین دو متغیر مستقل و وابسته است ولی مدل رابطه بین این دو متغیر را نشان نمی‌دهد. با رگرسیون می‌توان قانونی که بین داده‌ها وجود دارد را کشف و به کار بست. بسیاری از رابطه‌های فیزیک یا شیمی به کمک رگرسیون بدست آمده است. برای مثال مقدار ثابت گازها در فیزیک کلاسیک از طریق رگرسیون قابل محاسبه است.

نمایش رابطه‌ی خطی بین دو متغیر مستقل و وابسته معمولا توسط «نمودار نقطه‌ای» (Scatter Plot) انجام می‌شود. برای آشنایی با شیوه ترسیم نمودار نقطه‌ای می‌توانید به مطلب نمایش و رسم نمودار برای داده‌ها — معرفی و کاربردها مراجعه کنید.

simple-regression
رابطه‌ مستقیم بین متغیر مستقل وابسته با خط رگرسیون

با توجه به تصویر بالا مشخص است که محور افقی مقدارهای متغیر مستقل و محور عمودی مقدارهای متغیر وابسته را نشان می‌دهد و رابطه‌ی بین دو متغیر مستقیم است. ولی در تصویر زیر رابطه شدید ولی در جهت عکس بین دو متغیر مستقل و وابسته دیده می‌شود.

simple-regression-1
رابطه‌ معکوس بین متغیر مستقل وابسته با خط رگرسیون

تاریخچه رگرسیون

واژه رگرسیون برای اولین بار در مقاله‌ معروف «فرانسیس گالتون» (Sir Francis Galton) دیده شد که در مورد قد فرزندان و والدینشان بود. این واژه به معنی بازگشت است. او در مقاله خود در سال ۱۸۷۷ اشاره می‌کند که قد فرزندان قد بلند به میانگین قد جامعه میل می‌کند. او این رابطه را «بازگشت» (Regress) نامید.

هر چند واژه رگرسیون در شاخه علوم زیستی معرفی شد ولی آنچه امروزه به نام رگرسیون می‌شناسیم،‌ روشی است که توسط «گاوس» (Gauss) در سال ۱۸۰۹ معرفی شد تا به کمک آن پارامترهای مجهول رابطه بین مدار سیاره‌های منظومه شمسی را برآورد کند.

بعدها روش گاوس توسط «پیرسون» (Pearson) توسعه یافت و با مفاهیم آماری آمیخته شد. همچنین پیرسون توزیع توام متغیر وابسته و مستقل را توزیع گاوسی در نظر گرفت. بعدها «فیشر» (R. A. Fisher) توزیع متغیر وابسته به شرط متغیر مستقل را توزیع گاوسی محسوب کرد.

مدل رگرسیون خطی ساده

اگر برای شناسایی و پیش‌بینی متغیر وابسته فقط از یک متغیر مستقل استفاده شود، مدل را «رگرسیون خطی ساده» (Simple Linear Regression) می‌گویند. فرم مدل رگرسیون خطی ساده به صورت زیر است:

$$Y=\beta_0+\beta_1X+\epsilon$$

همانطور که دیده می‌شود این رابطه، معادله یک خط است که جمله خطا یا همان $$\epsilon$$‌ به آن اضافه شده. پارامترهای این مدل خطی عرض از مبدا ($$\beta_0$$) و شیب خط ($$\beta_1$$) است. شیب خط در حالت رگرسیون خطی ساده، نشان می‌دهد که میزان حساسیت متغیر وابسته به متغیر مستقل چقدر است. به این معنی که با افزایش یک واحد به مقدار متغیر مستقل چه میزان متغیر وابسته تغییر خواهد کرد. عرض از مبدا نیز بیانگر مقداری از متغیر وابسته است که به ازاء مقدار متغیر مستقل برابر با صفر محاسبه می‌شود. به شکل دیگر می‌توان مقدار ثابت یا عرض از مبدا را مقدار متوسط متغیر وابسته به ازاء حذف متغیر مستقل در نظر گرفت.

برای مثال فرض کنید کارخانه‌ای می‌خواهد میزان هزینه‌هایش را براساس ساعت کار برآورد کند. شیب خط حاصل از برآورد نشان می‌دهد به ازای یک ساعت افزایش ساعت کاری چه میزان بر هزینه‌هایش افزوده خواهد شد. از طرفی عرض از مبدا خط رگرسیون نیز هزینه ثابت کارخانه حتی زمانی که ساعت کاری نیست نشان می‌دهد. این هزینه را می‌توان هزینه‌های ثابت مانند دستمزد نگهبانان و هزینه روشنایی فضای کارخانه فرض کرد.

گاهی مدل رگرسیونی را بدون عرض از مبدا در نظر می‌گیرند و  $$\beta_0=0$$ محسوب می‌کنند. این کار به این معنی است که با صفر شدن مقدار متغیر مستقل، مقدار متغیر وابسته نیز باید صفر در نظر گرفته شود. زمانی که محقق مطمئن باشد که که خط رگرسیون باید از مبدا مختصات عبور کند، این گونه مدل در نظر گرفته می‌شود. فرم مدل رگرسیونی در این حالت به صورت زیر است:

$$Y=\beta_1X+\epsilon$$

از آنجایی که پیش‌بینی رابطه بین متغیر وابسته و مستقل به شکل دقیق نیست، جمله خطا را یک «متغیر تصادفی» (Random Variable) با میانگین صفر در نظر می‌گیرند تا این رابطه دارای اریبی نباشد.

کلاس درس خالی (تصویر تزئینی مطلب رگرسیون خطی ساده)

باید توجه داشت که منظور از رابطه خطی در مدل رگرسیون، وجود رابطه خطی بین ضرایب است نه بین متغیرهای مستقل. برای مثال این مدل $$y=\beta_0+\beta_1x^2+\epsilon$$ را نیز می‌توان مدل خطی در نظر گرفت در حالیکه مدل $$y=\beta_0x^{\beta_1}+\epsilon$$ دیگر خطی نیست و به مدل نمایی شهرت دارد.

همچنین در فرضیات این مدل، خطا یک جمله تصادفی است و تغییرات آن مستقل از متغیر X‌ است. به این ترتیب مقدار خطا وابسته به مقدار متغیر مستقل نیست.

در رگرسیون خطی سعی می‌شود، به کمک معادله خطی که توسط روش رگرسیون معرفی می‌شود، برآورد مقدار متغیر وابسته به ازای مقدارهای مختلف متغیر مستقل توسط خط رگرسیون بدست آید. به منظور برآورد پارامترهای مناسب برای مدل، کوشش می‌شود براساس داده‌های موجود، مدلی انتخاب می‌شود که کمترین خطا را داشته باشد.

روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون خطی ساده به کار می‌رود، کمینه کردن مجموع مربعات خطا است. از آنجایی که میانگین مقدارهای خطا صفر در نظر گرفته شده است، می‌دانیم زمانی مجموع مربعات خطا، حداقل ممکن را خواهد داشت که توزیع داده‌ها نرمال (Normal Distribution) باشند. در نتیجه، نرمال بودن داده‌های متغیر وابسته یا باقی‌مانده‌ها یکی از فرضیات مهم برای مدل رگرسیونی خطی ساده است.

شکل زیر به منظور توضیح نرمال بودن مقدار خطا ترسیم شده است. در هر مقدار از متغیر مستقل ممکن است بیش از یک مقدار برای متغیر وابسته مشاهده شود. مقدار پیش‌بینی شده برای هر یک از این مقدارها ثابت است که توسط معادله خط رگرسیون برآورد می‌شود.

برای مثال تعدادی مقدار برای متغیر وابسته براساس مقدار x=65 وجود دارد که شکل توزیع فراوانی آن‌ها به صورت نرمال با میانگین $$\beta_0+\beta_1\times 65$$ است. همچنین برای نقطه ۹۰ نیز مقدار پیش‌بینی یا برآورد برای متغیر وابسته به صورت $$\beta_0+\beta_1\times 90$$ خواهد بود. در هر دو حالت واریانس خطا یا واریانس مقدارهای پیش‌بینی‌شده (پهنای منحنی زنگی شکل)  ثابت است.

در تصویر زیر چهار نقطه از مشاهدات (x,y) به همراه خط رگرسیون دیده می‌شوند که در آن خط رگرسیون با رنگ آبی، نقطه‌های مربوط به مشاهدات با رنگ قرمز و فاصله هر نقطه از خط رگرسیون (خطای برآورد) با رنگ سبز نشان داده شده است.

 

Linear_least_squares
نمودار نقطه‌ای متغیر مستقل و وابسته،‌ میزان خطا و خط رگرسیون

برای برآورد کردن پارامترهای مدل رگرسیونی باید معادله خطی یافت شود که از بین همه خطوط دیگر دارای کمترین مجموع توان دوم خطا باشد. یعنی $$\sum\epsilon^2$$ برای آن از بقیه خطوط کمتر باشد.

points_for_linear_regression
خطوط مناسب برای بیان رابطه بین متغیر مستقل و وابسته

به نظر شما در تصویر بالا،‌ کدام خط دارای مجموع مربعات خطای کمتری است؟ امکان تشخیص بهترین خط بدون استفاده از ابزارهای محاسباتی امکان‌پذیر نیست. تا اینجا می‌دانیم رگرسیون خطی چیست. برای آشنایی بیشتر با مفهوم رگرسیون و انواع آن می‌توانید به مجموعه آموزش تخمین و رگرسیون مقدماتی تا پیشرفته فرادرس مراجعه کنید.

برآورد پارامترهای رگرسیون خطی ساده

به منظور برآورد پارامترهای رگرسیون خطی ساده، کافی است تابع مجموع مربعات خطا را کمینه کرد. برای این کار مراحل زیر باید طی شوند:

  • محاسبه مجموع توان دوم خطا

$$\sum(y_i-(\widehat{\beta}_0+ \widehat{\beta}_1x_i))^2$$

  • مشتق مجموع مربعات خطا برحسب پارامتر $$\widehat\beta_0$$

$$\sum(-y_i+\widehat{\beta}_0+\widehat{\beta}_1x_i)$$

  • برابر قرار دادن مشتق با صفر به منظور پیدا کردن نقاط کمینه

$$\sum(-y_i+\widehat{\beta}_0+\widehat{\beta}_1x_i)=0$$

  • پیدا کردن ریشه برای معادله حاصل برحسب $$\widehat{\beta}_0$$

$$\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}$$

  • مشتق مجموع مربعات خطا بر حسب پارامتر  $$\widehat\beta_1$$

$$ \sum(-2x_iy_i+2\widehat{\beta}_0x_i+2\widehat{\beta}_1 x_i^2)$$

  • جایگذاری $$\widehat\beta_0$$ و پیدا کردن ریشه برای معادله حاصل برحسب $$\widehat{\beta}_1$$

$$-\sum(x_iy_i+(\bar{y}-\widehat{\beta}_1\bar{x})\sum x_i+\widehat{\beta}_1\sum x_i^2)=0$$

$$\widehat{\beta_1}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$$

به این ترتیب برآورد پارامترهای مدل خطی به صورت زیر خواهند بود.

$$\widehat{\beta_1}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$$

$$\widehat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}$$

که در آن $$\bar{x}$$  و $$\bar{y}$$ میانگین $$x$$ و $$y$$ هستند.

برای راحتی محاسبات، می‌توان برآورد $$\beta_1$$ را به فرم دیگری نیز نوشت:

$$\widehat{\beta_1}=\frac{n(\overline{xy}-\bar{x}\bar{y}))}{(n-1)\sigma_x^2}$$

که منظور از $$\overline{xy}$$ میانگین حاصلضرب x و y بوده و $$\sigma_x^2$$ نیز بیانگر واریانس مقدارهای x است.

اگر $$\widehat{y}$$ مقدار برآورد برای متغیر وابسته باشد، می‌توانیم آن را میانگین مشاهدات برای متغیر وابسته به ازای مقدار ثابت متغیر مستقل در نظر گرفت. پس با فرض اینکه میانگین جمله خطا نیز صفر است، خواهیم داشت:

$$\widehat{y}=E(Y|X=x)= \widehat{\beta_0}+\widehat{\beta_1}x$$

که در آن $$E(Y|X=x)$$ نشان‌دهنده امید ریاضی (متوسط) شرطی است و همچنین  $$\widehat{\beta_0}$$ و $$\widehat\beta_1$$ برآوردهای مربوط به هر یک از پارامترها هستند.

آسمان با ابری به شکل یک خط مستقیم (تصویر تزئینی مطلب رگرسیون خطی ساده)

نکته: به راحتی دیده می‌شود که میانگین مربوط به متغیر مستقل و وابسته روی خط رگرسیون قرار دارند. یعنی این نقطه در معادله خط رگرسیون صدق می‌کند. زیرا با توجه به محاسبه $$\beta_0$$ داریم:

$$\widehat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}\rightarrow \overline{Y}=\widehat\beta_0+\widehat\beta_1 \overline{X}$$

مثال

اطلاعات مربوط به ۵۰ خانه شامل قیمت (به میلیون ریال) و متراژ (متر مربع) در شهر تهران جمع‌آوری شده است. این اطلاعات را می‌توانید با قالب اکسل از اینجا دریافت کنید.

با توجه به ضریب همبستگی بین این دو متغیر که برابر با 0.9891 است،‌ مشخص است که رابطه خطی شدیدی بینشان برقرار است. اگر فرض کنیم قیمت خانه متغیری وابسته به متراژ است، محاسبات اولیه برای برآورد پارامترهای مدل رگرسیونی در جدول زیر قرار گرفته.

$$\overline{X}$$$$\overline{Y}$$$$\overline{XY}$$$$\sigma_X^2$$
84.9451.13640350.6411.724

بر این اساس برآورد پارامترهای مدل خطی به صورت $$\widehat\beta_0=19.965$$ و $$\widehat\beta_1=5.078$$  خواهد بود. در نتیجه می‌توان معادله مربوط برآورد مقدار متغیر وابسته را به صورت زیر نوشت:

$$\widehat{y_i}=19.965+5.078 x_i$$

پس اگر لازم باشد که ارزش خانه‌ای با متراژ 61 متر محاسبه شود، کافی است در معادله بالا برای $$x_i$$‌ مقدار 61 را جایگزین کرده،‌ مقدار $$\widehat{y}_i$$ را بدست آوریم که برابر با 329.758 میلیون ریال است. در تصویر زیر نمودار مربوط به داده‌ها و خط رگرسیون دیده می‌شود.

$$\widehat{y_i}=19.965+5.078 (61)=329.758$$

آزمون مربوط به مدل و پارامترهای آن

بعد از انجام مراحل رگرسیون، با استفاده از جدول «تحلیل واریانس» (Analysis of Variance) می‌توان صحت مدل ایجاد شده و کارایی آن را سنجید. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. پس می‌توان رابطه زیر را بر این اساس نوشت.

$$ \large SST= SSR+SSE $$

که هر کدام به صورت زیر تعریف شده‌اند:

$$ \large SST=\sum(y_i-\overline{y})^2$$

مقدار SST را می‌توان مجموع مربعات تفاضل مشاهدات متغیر وابسته با میانگینشان در نظر گرفت که در حقیقت صورت کسر واریانس متغیر وابسته است. این کمیت می‌تواند به دو بخش زیر تفکیک شود.

$$ \large SSE=\sum(y_i-\widehat{y}_i)^2$$

شایان ذکر است به مقدار SSE مجموع مربعات خطا نیز گفته می‌شود که در مدل رگرسیون با توجه به کمینه کردن آن پارامترهای مدل بدست آمد. همچنین بخش بعدی با SSR‌ نشان داده می‌شود:

$$ \large SSR=\sum(\widehat{y}_i-\overline{y})^2$$

که می‌تواند به عنوان مجموع مربعات تفاضل مقدارهای پیش‌بینی‌شده از میانگینشان نام‌گذاری شود.

در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است حاصل را بر تعداد اعضایشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند. به جدول زیر که به جدول تحلیل واریانس معروف است، توجه کنید.

منشاء تغییراتدرجه آزادیمجموع مربعات میانگین مربعاتآماره F
رگرسیونk-۱SSR$$MSR=\dfrac{SSR}{k-1}$$$$F=\dfrac{MSR}{MSE}$$
خطاn-kSSE$$MSE=\dfrac{SSE}{n-k}$$
کلn-1SST

درجه آزادی برای رگرسیون که با k-۱ نشان داده شده است، یکی کمتر از تعداد پارامترهای مدل (k) است که در رگرسیون خطی ساده برابر با ۱-۲=۱ خواهد بود زیرا پارامترهای مدل در این حالت $$\beta_0$$ و $$\beta_1$$ هستند. تعداد مشاهدات نیز با n نشان داده شده است.

اگر محاسبات مربوط به جدول تحلیل واریانس را برای مثال ذکر شده، انجام دهیم نتیجه مطابق جدول زیر خواهد بود.

منشاء تغییراتدرجه آزادیمجموع مربعات میانگین مربعاتآماره F
رگرسیون1520338.1755520338.1755$$F=\dfrac{MSR}{MSE}=\dfrac{520338.1755}{239.91}=2168.89$$
خطا4811515.7187239.91
کل49531853.8942

از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع متوجه می‌شویم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با $$k-1$$‌ و $$n-k$$ درجه آزادی است، پس مدل رگرسیون توانسته است بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.

گاهی از «ضریب تعیین» (Coefficient of Determination) برای نمایش درصدی از تغییرات که توسط مدل رگرسیونی بیان شده، استفاده می‌شود. ضریب تعیین را با علامت $$R^2$$ نشان می‌دهند. هر چه ضریب تعیین بزرگتر باشد، نشان‌دهنده موفقیت مدل در پیش‌بینی متغیر وابسته است. در رگرسیون خطی ساده مربع ضریب همبستگی خطی همان ضریب تعیین خواهد بود.

در مثال قبل ضریب تعیین برای مدل رگرسیونی برابر با 0.9783‌ است. بنابراین به نظر می‌رسد که مدل رگرسیونی در پیش‌بینی ارزش خانه برحسب متراژ موفق عمل کرده.

نکاتی در مورد رگرسیون خطی ساده

قبل از اتمام کار با مدل رگرسیون نکاتی باید در نظر گرفته شوند. با توجه به تعریف فیشر برای رگرسیون، جمله خطا باید یک متغیر تصادفی با توزیع نرمال باشد. از آنجایی که در انجام محاسبات این فرضیه چک نشده است، باید بعد از محاسبات مربوط به مدل رگرسیون خطی، مقدارهای خطا محاسبه شده و تصادفی بودن و وجود توزیع نرمال برای آن‌ها چک شود.

تصادفی بودن باقی‌مانده‌ها در رگرسیون خطی ساده

یک راه ساده، برای چک کردن تصادفی بودن مقدارهای خطا می‌تواند رسم آن‌ها و مقدار پیش‌بینی شده $$\widehat{y}$$ روی یک نمودار باشد، بطوری که مقدارهای پیش‌بینی در محور افقی و مقدارهای خطا در محور عمودی ظاهر شوند. اگر در این نمودار، الگوی خاصی مشاهده نشود می‌توان رای به تصادفی بودن باقی‌مانده داد. منظور از الگوی غیرتصادفی، افزایش یا کاهش مقدار خطا با افزایش یا کاهش مقدارهای پیش‌بینی‌ شده است.

در تصویر زیر این نمودار برای مثال قبلی ترسیم شده است. محور افقی در این نمودار مقدار قیمت خانه و محور عمودی نیز باقی‌مانده‌ها است. همانطور که دیده می‌شود، الگوی خاصی وجود ندارد.

randomness
نمودار نقطه‌ای برای نمایش رابطه بین مقدارهای پیش‌بینی شده و باقی‌مانده‌ها در رگرسیون خطی ساده

نرمال بودن باقی‌مانده‌ها در رگرسیون خطی ساده

به منظور سنجش نرمال بودن باقی‌مانده‌ها، ترسیم بافت‌نگار (نمودار فراوانی -Histogram) می‌تواند ساده‌ترین راه باشد. در تصویر زیر بافت‌نگار مربوط به باقی‌مانده‌های مثال قبل ترسیم شده است. شکل بدست آمده شبیه توزیع نرمال است و به صورت زنگی شکل درآمده.

residuals and normal

البته روش‌ دقیق‌تر، ترسیم نمودار «چندک-چندک» (Q-Q Plot) برای باقی‌مانده‌ها یا مشاهدات y و داده‌های توزیع نرمال است. در زیر نمودار چندک-چندک برای داده‌های مربوط به مثال قبل ترسیم شده است.

qq-plot
نمودار چندک-چندک Q-Q Plot

انتظار داریم در این نمودار، اگر داده‌های مربوط به متغیر وابسته دارای توزیع نرمال باشند، صدک‌های مربوط به آن با صدک‌های تولید شده از توزیع نرمال تقریبا یکسان باشند. اگر این اتفاق بیافتد باید نقاط روی نمودار که نشان‌دهنده زوج‌ صدک‌های تولید شده هستند، روی یک خط راست قرار گیرند. این کار را با مقدارهای خطا نیز می‌توان انجام داد زیرا متغیر وابسته با مقدارهای خطا رابطه خطی دارد. به این منظور چندک‌های توزیع نرمال را با چندک‌های توزیع تجربی باقی‌مانده‌ها مقایسه می‌کنیم. انتظار داریم که نمودار، نشان دهنده یک رابطه مستقیم خطی باشد. در نتیجه می‌توان فرض کرد که باقی‌مانده‌ها دارای توزیع نرمال هستند.

ثابت بودن واریانس در رگرسیون خطی ساده

از طرفی واریانس جمله‌ خطا نیز طبق فرضیه‌های اولیه برای مدل رگرسیونی، باید ثابت و برابر با $$\sigma^2$$ باشد. برآورد واریانس برای جمله‌های خطا نیز به صورت زیر است:

$$\sigma^2=\dfrac{\sum(y_i-\widehat{y}_i)^2}{n-2}$$

مشخص است که مقدار $$y_i$$ بیانگر مقدار مشاهده شده و $$\widehat{y}_i$$ مقدار پیش‌بینی برای مشاهده iام است. از آنجایی که در برآورد واریانس احتیاج به دو پارامتر مدل رگرسیونی است، دو درجه آزادی از تعداد مشاهدات کم شده است و در مخرج کسر n-2‌ قرار گرفته است.

برای آنکه نشان دهیم واریانس نیز ثابت است از نمودار نقطه‌ای استفاده می‌کنیم که در محور افقی مقدارهای پیش‌بینی‌شده و در محور عمودی نیز مقدار باقی‌مانده‌ها قرار دارد. این نمودار نباید به صورت الگوی افزایشی یا کاهشی باشد. قبلا از این نمودار به منظور چک کردن تصادفی بودن باقی‌مانده‌ها بهره بردیم.

تصویر زیر حالتی را نشان می‌دهد که واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی حالت افزایشی دارد و ثابت نیست.

unequal-residual-variance
افزایشی بودن واریانس باقی‌مانده‌ها

همچنین کاهشی بودن واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی در تصویر زیر دیده می‌شود.

not-equal-variance-type2
نزولی بودن واریانس باقی‌مانده با افزایش مقدار پیش‌بینی

اگر در مدل رگرسیونی باقی‌مانده‌ها نسبت به مقدار پیش‌بینی به طور تصادفی حول نقطه صفر تغییر کند، ثابت بودن واریانس قابل شناسایی است. این حالت در تصویر زیر دیده می‌شود.

ثابت بودن واریانس باقی‌مانده‌ها در رگرسیون خطی ساده
ثابت بودن واریانس باقی‌مانده‌ها
بر اساس رای ۱۹۸ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
۳۰ دیدگاه برای «رگرسیون خطی ساده — مفهوم و محاسبات به زبان ساده»

در این قسمت: جایگذاری \widehat\beta_0 و پیدا کردن ریشه برای معادله حاصل برحسب \widehat{\beta}_1
باید معالده رو با معکوس‌سازی ماتریس حل کنیم؟ ینی این معاله رو باید حل کرد خلاصه… مهمینجوری با فاکتورگیری اون خط بعدش بدست نمیاد که؟ من یکم گیج شدم/:

با عرض سلام
12 متغییر (نقشه) مستقل دارم برای یه مدل میخام کار کنم با چه روشی , نرم افزار کار کنم عدم وجود چند خطی بین این متغیرها نشان دهند؟ با تشکر

سلام و تشکر برای تحلیل از نمودار y (مقدار مشاهده شده) و خطا استفاده نمی کنیم؟

سلام بر چه اساسي ما تشخيص ميديم كه ما چندتا بايد مدل رگرسيوني براي تجزيه و تحليل داده ها با استفاده از نرم افزار ايويز بنويسيم.؟

ممنون حداقل و حداکثر رگرسیون چند متغیره چه میزان هستش؟متشکرم

سلام. برای پیش بینی متغیر ملاک از روی جنسیت از چه روش اماری استفاده میشه؟

سلام استاد گرامی بسیار ممنون از بابت مطالب مفیدتون.لطفا بفرمایید در بازار ارزهای دیجیتال به چه شکل می توان از مبحث رگرسیون در پیش بینی روند تغییرات استفاده کرد. یا بعبارتی برای کاربران این حوزه چه مباحثی می تواند در زمنیه پیش بینی روند تغییرات کمک موثر و جدی بکند. از اینکه توجه می فرمایید صمیمانه سپاسگزارم. ارادتمند،علیرضا

سلام، وقت شما بخیر؛

از آنجایی که در پیش‌بینی روند تغییرات، مولفه زمان دخیل است، سری‌های زمانی و مدل‌های آن برای آینده نگری قیمت ارزهای دیجیتال موثرتر از رگرسیون خطی است. به نظر من بهتر است مطالب سری زمانی در علم داده — از صفر تا صد را مطالعه کنید تا با جنبه‌های مختلف آن بیشتر آشنا شوید.

سربلند و سرافراز باشید.

با سلام
در مقاله ای برای فراوانی های ۲ ، ۴ ، ۱ ، ۱۱ ، ۱۲
میانگین ۳/۹ و انحراف معیار ۱/۲۷ بدست آمده لطفا در صورت امکان راهنمایی بفرمایید میانگین و انحراف معیار چطور بدست آمده است

سلام و درود به شما دوست گرامی؛

براساس فراوانی ها نمی‌توان میانگین و انحراف معیار را مشخص کرد. باید علاوه بر فراوانی، مقادیر نیز موجود باشند. برای مشاهده نحوه محاسبه میانگین و انحراف معیار براساس جدول فراوانی، به نوشتارهای میانگین وزنی — به زبان ساده و واریانس و اندازه‌های پراکندگی — به زبان ساده را مطالعه کنید.

همواره تندرست و پیروز باشید.

اره خطا باید صفر بشه بنابراین تخمین ما باید با میانگین مطابقت داشته باشه برعکس گفتند

چگونه میتوان ۳ متغیر را به عنوان متغیر مستقل وارد و یک متغیر وابسته در کدوم قسمت ممنون و تفسیر SEدر رگرسبون چی هست ممنون

سلام و عرض ادب
آیا قرار گیری باقی مانده در باند مثبت یا منفی معنای خاصی می دهد؟ آیا محل قرار گیری آنها را بایستی با نمودار زنگوله تطبیق داد؟

سلام دوست و همیار مجله فرادرس،
همانطور که در در نوشتار خواندید، اساس کار آن است که مجموع مربعات جملات خطا (یا باقی‌مانده) کمینه شود. از طرفی طبق پیش‌فرض‌های مدل رگرسیونی، میانگین یا امید ریاضی متغیر تصادفی خطا (باقی‌مانده) صفر است. که البته این موضوع در اکثر مواقع براساس داده‌ها نیز تایید می‌شود. پس می‌توان نتیجه گرفت که باقی مانده ها در یک بازه شامل مقدار صفر قرار می‌گیرند. به این ترتیب اگر باقی مانده در باند مثبت یا منفی باشد، نشانگر مشکل خطای بیش‌برآورد یا کم‌برآورد برای مقدار متغیر وابسته خواهد بود. اگر میزان باقی‌مانده مثبت باشد، مقدار واقعی بزرگتر از مقدار پیش‌بینی است و مشکل کم‌برآوردی رخ داده است. در حالت عکس نیز مشکل بیش‌برآوردی واضح است. اگر نمودار فراوانی باقی‌مانده‌ها (توزیع احتمال) زنگی شکل و مطابق با توزیع نرمال باشد، واریانس ثابت بوده و میانگین باید برابر با صفر برای این توزیع باشد. در غیر اینصورت فرضیات اولیه برای مدلسازی رگرسیونی برقرار نیست.
در این صورت یا با تغییر متغیر، عملیات را انجام می‌دهیم یا از روش‌های دیگری غیر از OLS برای اجرای رگرسیون بهره می‌بریم.

از اینکه همراه مجله فرادرس هستید بسیار سپاسگزاریم.
شاد و تندرست و پیروز باشید.

عالی
دوستان یه منبع انگلیسی که رگرسیون رو مفصل توضیح داده باشه معرفی کنید ممنون میشم

سلام دوست و همراه عزیز مجله فرادرس
احتمالا با مطالعه نوشتارهای مجله فرادرس متوجه شده‌اید که روش‌های رگرسیونی بسیار متنوع هستند. روش‌های پارامتری و غیر پارامتری، روش‌های مبتنی برای کمترین مربعات خطا یا کمترین زاویه و … همگی گسترده بوده و در یک کتاب نمی گنجند. ولی به نظر من برای درک بهتر تحلیل‌های آماری در مباحث مربوط به یادگیری ماشین بهترین کتاب (+) و (+) هستند.
از مطالعه آن‌ها لذت ببرید.
تندرست، پیروز و شاد باشید.

سلام خط رگرسیون رو کی بلده چند تا سوال دارم نمیتونم حلش کنم

xبار 84.9 هستش و y بار 451.136 پس چجوری XY میشه 40350.6؟

من متن رو خوندم خیلی عالی بود قشنگ فهمیدم چیه ممنون

صداش خیلی رو مخ بود

بسیار عالی

درود و سپاس از اموزش خوبتون. اما در مقایسه با کتاب Jeffry Wooldridge انگار SSE و SSR جابجاست.
در کتاب ازمون صحت رگرسیون را با این فرمول گفته ست

SSR=∑(yi−y^i)2
و خطا رو با
SSE=∑(y^i−y¯)2

سلام
ایا میشه بین رگرسیون و خطاهای نوع اول و دوم ، ارتباطی پیدا کرد و اون رو توضیح داد ؟

سلام دوستان عزیز
کسی میتونه لطفا راهنمایی کنه؟
یک محصول 6 متری داریم که در هر متر 1 میلیمتر انحراف از خط راست داره . انحراف در 6 متر چقدر صحیح است؟
در صورتیکه خردش کنیم در هر 1 متر 1 میلیمتر انحراف داره اما در طول 6 متر الان حدود 15 سانتیمتر انحراف داره. میشه روش محاسبه رو بفرمایید.

thanks ,bravo! that was really helpful for me

سلام
واقعا عالی بود، خیلی خیلی ممنون
خلاصه و خیلی مفید بود
بازم ممنون

یه اشکال تایپی داشت تو جدول که جای MSE و MSR اشتباه نوشته شده

سلام و تشکر از توجه شما به مطالب فرادرس
مشکل تایپی حل شده و اصلاح در جدول تحلیل واریانس صورت گرفت… از اینکه همراه فرادرس هستید بسیار سپاسگزاریم.

من معمولاً نظر نمیذارم. اما این دفعه حیفم اومد نظری ندم.
میخواستم بگم :
آفرین به نویسنده این مقاله ، آفرین به سایت فرادرس

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *