رگرسیون خطی در یادگیری ماشین — از صفر تا صد + کد

فیلم آموزش رگرسیون خطی ساده (رایگان) در فرادرس

انواع رگرسیون خطی در یادگیری ماشین

دو نوع الگوریتم رگرسیون خطی در ماشین لرنینگ وجود دارد که در ادامه فهرست شده‌اند:

«رگرسیون خطی ساده» (Simple Linear Regression): زمانی به یک الگوریتم رگرسیون خطی ساده گفته می‌شود که برای پیش‌بینی مقدار متغیر عددی وابسته از یک متغیر مستقل واحد استفاده شود.
«رگرسیون خطی چندگانه» (Multiple Linear regression): اگر برای پیش‌بینی مقدار متغیر وابسته عددی بیش از یک متغیر مستقل استفاده شود، به این مدل، رگرسیون خطی چندگانه گفته می‌گویند.

در ادامه این نوشتار هر کدام از انواع الگوریتم‌های رگرسیون خطی در یادگیری ماشین شرح داده شده‌اند.

رگرسیون خطی ساده در یادگیری ماشین چیست ؟

خطی که رابطه بین متغیرهای وابسته و مستقل را نشان می‌دهد، «خط رگرسیون» (Regression Line) نامیده می‌شود.

فیلم آموزش یادگیری ماشین – جامع و با مفاهیم کلیدی در فرادرس

به طور کلی خط رگرسیون می‌تواند دو نوع ارتباط زیر را نشان دهد:

«ارتباط خطی مثبت» (Positive Linear Relationship): اگر متغیر وابسته محور Y افزایش پیدا کند و متغیر مستقل روی محور X افزایش داشته باشد، به این ارتباط خطی به اصطلاح ارتباط رگرسیون خطی مثبت گفته می‌شود. در ادامه نموداری با این نوع از ارتباط نمایش داده شده است.

رگرسیون ارتباط خطی مثبت در یادگیری ماشین

«ارتباط خطی منفی» (Negative Linear Relationship): اگر متغیرهای وابسته روی محور Y کاهش پیدا کنند و متغیرهای مستقل روی محور X افزایش داشته باشند، رابطه رگرسیون خطی منفی در مدل به وجود می‌آید.

رگرسیون ارتباط خطی منفی در یادگیری ماشین

رگرسیون خطی چندگانه در یادگیری ماشین چیست ؟

در روش رگرسیون خطی چندگانه، بیش از یک متغیر مستقل برای مدل جهت پیدا کردن ارتباط وجود دارد. در معادله رگرسیون خطی چندگانه که در آن $b_0$ نقطه قطع کردن است، $b_1\, b_2\, b_3\, b_4\, ... \, b_n$ ضرایب یا دامنه‌های متغیرهای مستقل $x_1\, x_2\, x_3\, x_4\, ... \, x_n$ هستند و $y$ یک متغیر وابسته به حساب می‌آید.

$y = b_0 + b_1 x_1 + b_2 x_2 + b_3 x_3 + ... + b_n x_n$

اصطلاحات پیش بینی با استفاده از رگرسیون خطی در یادگیری ماشین

در این بخش با استفاده از مثال چند اصطلاح رایج در الگوریتم‌های یادگیری ماشین و همچنین رگرسیون خطی آموزش داده شده‌اند. در این مثال، تابع پیش‌بینی با استفاده از رگرسیون خطی، می‌تواند تخمینی از فروش را با توجه به هزینه‌های تبلیغات رادیویی شرکت و مقادیر فعلی برای «وزن» (Weight) و «بایاس» (Bias) به دست بیاورد. در ادامه رابطه ریاضی این مثال نشان داده شده است:

$Sales = Weight ⋅ Radio + Bias$

در ادامه هر یک از مؤلفه‌های رابطه فوق بررسی و شرح داده شده‌اند:

وزن یا همان Weight: ضرایبی برای متغیر مستقل رادیو هستند. در یادگیری ماشین این ضرایب، وزن نامیده می‌شوند.
رادیو یا همان Radio در فرمول فوق: ضرایب مستقلی هستند که در یادگیری ماشین به آن‌ها ویژگی گفته می‌شود.
بایاس یا همان Bias: به نقطه‌ای که خط جدا کننده محور Yها را قطع می‌کند، در یادگیری ماشین بایاس گفته می‌شود. بایاس همه پیش‌بینی‌های انجام شده را خنثی می‌کند.

کدهای رابطه فوق در ادامه نمایش داده شده‌اند:

1def predict_sales(radio, weight, bias):
2    return weight*radio + bias

الگوریتم این مثال تلاش می‌کند تا مقدارهای صحیحی را برای وزن و بایاس یاد بگیرد. در انتهای یادگیری این الگوریتم، معادله خط مورد نظر بهترین برازش را به صورت تقریبی نشان می‌دهد. در ادامه بهترین خط برازش رگرسیون آموزش داده شده مشاهده می‌شود.

هدف الگوریتم رگرسیون خطی در یادگیری ماشین چیست ؟

هدف اصلی الگوریتم‌های رگرسیون خطی، پیدا کردن بهترین خط برازش و مقدارهای بهینه برای جدا کننده‌ها و ضرایب از جمله به حداقل رساندن خطاها است. خطا در الگوریتم‌های رگرسیون خطی، تفاوت بین مقدار واقعی و مقدار پیش‌بینی شده به حساب می‌آید و هدف الگوریتم کاهش این تفاوت است. در ادامه نموداری ارائه شده است که خطا را در یک الگوریتم رگرسیون خطی نشان می‌دهد.

توضیحاتی در رابطه با نمودار فوق در ادامه فهرست شده‌اند:

x در نمودار فوق نشان‌دهنده متغیر وابسته است که روی محور Xها و y متغیر مستقل را نشان می‌دهد که روی محور Y‌ها ترسیم شده است.
نقطه‌های سیاه نشان‌دهنده نقاط داده یعنی همان مقدارهای واقعی هستند.
$b_0$ فاصله جدا شده بین صفر تا ۱۰ و $b_1$ شیب متغیر x را نشان می‌دهد.
خط آبی بهترین خط برازش پیش‌بینی توسط مدل رگرسیون خطی به حساب می‌آید. به عبارت دیگر، مقادیر پیش‌بینی شده روی خط آبی قرار دارند.

فاصله عمودی بین نقاط داده و خط رگرسیون به عنوان خطا یا باقی‌مانده شناخته می‌شود. هر نقطه داده دارای یک باقی‌مانده و مجموعه همه این تفاوت‌ها به عنوان مجموع خطا‌ها یا باقی‌مانده‌ها در نظر گرفته شده‌اند. رابطه ریاضی خطا برای الگوریتم رگرسیون خطی در ادامه نمایش داده شده است:

$Residual / Error = Actual values - Predicted Values$

در فرمول فوق، خطا یا همان باقی مانده با استفاده از کم کردن مقدار واقعی از مقدار پیش‌بینی شده محاسبه شده است.

$$ Sum \of Residuals / Errors = Sum ( Actual - Predicted Values)$$

مجموع مقادیر باقی‌مانده یا خطاها با استفاده از فرمول فوق به این صورت محاسبه شده است که مجموع مقادیر واقعی منهای مقادیر پیش‌بینی شده حساب می‌شود.

$$Square \of Sum \of Residuals / Errors = ( Sum ( Actual - Predicted Values) )^2$$

با استفاده از فرمول فوق، مربع مجموع خطا یا باقی مانده محاسبه می‌شود. در این رابطع، نتیجه‌ای که از رابطه قبلی به دست آمده بود به توان دوم می‌رسد. رابطه زیر نشان‌دهنده فرمول ریاضی خطای کلی در الگوریتم رگرسیون خطی است:

$\sum e_i^2 = \sum (Y _i - \hat {Y_ i})$

در بخش بعدی از مطلب «رگرسیون خطی در یادگیری ماشین»، پس از معرفی مجموعه دوره‌های آموزش «داده کاوی» (Data Mining) و یادگیری ماشین، به بررسی برخی از فرضیه‌های رگرسیون خطی پرداخته شده است.

معرفی فیلم های آموزش داده کاوی و یادگیری ماشین فرادرس

دوره‌های آموزشی ویدیویی پلتفرم فرادرس بر اساس موضوع به صورت مجموعه‌های آموزشی متفاوتی دسته‌بندی شده‌اند. یکی از این مجموعه‌های جامع مربوط به دوره‌های آموزش داده کاوی و یادگیری ماشین است. علاقه‌مندان می‌توانند از این مجموعه آموزشی برای مطالعه بیشتر استفاده کنند. در زمان تدوین این مطلب، مجموعه دوره‌های داده کاوی و یادگیری ماشین فرادرس حاوی بیش از ۳۲۶ ساعت محتوای ویدیویی و حدود ۴۱ عنوان آموزشی مختلف بوده است. در ادامه این بخش، برخی از دوره‌های این مجموعه به طور خلاصه معرفی شده‌اند:

فیلم آموزش یادگیری ماشین Machine Learning با پایتون Python (طول مدت: ۱۰ ساعت، مدرس: مهندس سعید مظلومی راد): در این دوره آموزشی فرادرس ابتدا سعی شده است، بسته‌های شناخته شده پایتون معرفی و سپس کار با توابع آن‌ها آموزش داده شوند. در انتها نیز مباحث یادگیری ماشین همراه با مثال‌های متعدد در پایتون مورد بررسی قرار گرفته‌اند. برای مشاهده فیلم آموزش یادگیری ماشین Machine Learning با پایتون Python + کلیک کنید.
فیلم آموزش یادگیری عمیق با پایتون - تنسورفلو و کراس TensorFlow و Keras (طول مدت: ۲ ساعت و ۵۷ دقیقه، مدرس: دکتر سعید محققی): در این دوره آموزشی، تمرکز بر روی آموزش محبوب‌ترین ابزارهای نرم افزاری، پرکاربردترین کتابخانه‌های کدنویسی از جمله تنسورفلو و کراس و رایج‌ترین مدل‌ها و داده‌ها در زمینه یادگیری عمیق است. برای مشاهده فیلم آموزش یادگیری عمیق با پایتون - تنسورفلو و کراس TensorFlow و Keras + کلیک کنید.
فیلم آموزش یادگیری عمیق - شبکه های GAN با پایتون (طول مدت: ۵ ساعت و ۶ دقیقه، مدرس: دکتر عادل قاضی خانی): در فرادرس شبکه‌های GAN معمولی، شبکه‌های Deep Convolutional GAN ،Semi-Supervised GAN ،Conditional GAN و CycleGAN بررسی می‌شوند. علاوه بر این، قبل از ورود به حوزه شبکه‌های GAN، مفاهیم مقدماتی مورد نیاز یادگیری ماشین و شبکه‌های عصبی بیان شده است. در این آموزش از زبان پایتون برای برنامه نویسی شبکه‌های GAN استفاده می‌شود. برای مشاهده فیلم آموزش یادگیری عمیق - شبکه های GAN با پایتون + کلیک کنید.
فیلم آموزش پردازش زبان های طبیعی NLP در پایتون Python با پلتفرم NLTK (طول مدت: ۷ ساعت و ۱۲ دقیقه، مدرس: مهندس احسان یزدانی): در این دوره آموزشی، زبان برنامه نویسی پایتون برای پردازش زبان طبیعی و مهم‌ترین ابزار آن، یعنی NLTK آموزش داده شده است. برای مشاهده فیلم آموزش پردازش زبان های طبیعی NLP در پایتون Python با پلتفرم NLTK + کلیک کنید.
فیلم آموزش‌ کتابخانه scikit-learn در پایتون - الگوریتم های یادگیری ماشین (طول مدت: ۳ ساعت و ۵۷ دقیقه، مدرس: سید علی کلامی هریس): هدف این دوره آموزشی ویدویی، آموزش بخشی از الگوریتم‌های یادگیری ماشین موجود در کتابخانه scikit-learn پایتون است. برای مشاهده فیلم آموزش‌ کتابخانه scikit-learn در پایتون - الگوریتم های یادگیری ماشین + کلیک کنید.
آموزش شبکه های عصبی پیچشی CNN - مقدماتی (طول مدت: ۲ ساعت و ۱۲ دقیقه، مدرس: سایه کارگری): از آن‌جا که شبکه‌های عصبی پیچشی یکی از نیازهای اصلی علاقه‌مندان به پردازش تصویر و بینایی ماشین به حساب می‌آیند، فراگیری مفاهیم این شبکه‌ها از اهمیت بالایی برخوردار است و در این فرادرس به آموزش آن‌ها پرداخته می‌شود. برای مشاهده آموزش شبکه‌های عصبی پیچشی CNN - مقدماتی + کلیک کنید.

حال پس از معرفی مجموعه دوره‌های آموزش داده کاوی و یادگیری ماشین فرادرس، بخش بعدی مطلب «رگرسیون خطی در یادگیری ماشین» به بررسی برخی از مفروضات این الگوریتم، اختصاص دارد.

فرضیه های رگرسیون خطی در یادگیری ماشین

الگوریتم رگرسیون خطی دارای برخی از فرضیه‌ها و باورهایی است که مفاهیم بسیار ساده‌ای هستند و در ادامه این بخش مورد بررسی قرار می‌گیرند.

خطی بودن در الگوریتم رگرسیون خطی چیست ؟

این خصوصیت الگوریتم رگرسیون خطی، بیان می‌کند که متغیر وابسته Y باید به صورت خطی با متغیرهای مستقل ارتباط داشته باشند. این فرض با رسم نمودار پراکندگی بین متغیرها بررسی و نمایش داده می‌شود.

خطی و غیر خطی بودن نمودار پراکندگی در رگرسیون خطی در یادگیری ماشین

نرمال بودن در الگوریتم رگرسیون خطی چیست ؟

متغیرهای X و Y در الگوریتم رگرسیون خطی باید توزیع نرمالی داشته باشند. برای بررسی نرمال بودن داده‌ها و متغیرهای الگوریتم رگرسیون خطی می‌توان از روش‌های ترسیم هیستوگرام، KDE و Q-Q استفاده کرد. در ادامه نمودار هیستوگرام باقی‌مانده و «چندک» (Quantile) باقی‌مانده ارائه شده است.

هم واریانسی در الگوریتم رگرسیون خطی چیست ؟

در الگوریتم رگرسیون خطی، واریانس عبارت‌های دارای خطا باید ثابت باشد، به عبارت دیگر، نیاز است که گسترش باقی‌مانده برای همه متغیرهای X ثابت در نظر گرفته شود. این فرضیه را می‌توان با رسم نمودار باقی‌مانده بررسی کرد. اگر این فرضیه انجام نشود و رد شود، نقاط داده به صورت قیف در نمودار جمع می‌شوند و اگر فرضیه به درستی انجام گیرد، نقاط داده ثابت خواهند بود. در ادامه نمودارهای باقی‌مانده‌ها در شرایط مختلف برای الگوریتم رگرسیون خطی نمایش داده شده‌اند:

استقلال و غیر هم خطی چندگانه در الگوریتم رگرسیون خطی چیست ؟

فرضیه استقلال و غیر هم خطی چندگانه در الگوریتم رگرسیون خطی بیان می‌کند که متغیرها باید نسبت به یکدیگر مستقل باشند؛ به عبارت دیگر نباید بین متغیرهای مستقل «همبستگی» (Correlation) وجود داشته باشد. برای بررسی این موضوع می‌توان از «ماتریس همبستگی» (Correlation Matrix) یا معیار VIF استفاده کرد. اگر معیار VIF بزرگتر از ۵ باشد، متغیرها همبستگی بالایی دارند. در تصویر زیر همبستگی بالایی بین متغیرهای سطر x5 و x6 وجود دارد.

همبستگی متغیرها در الگوریتم رگرسیون خطی در یادگیری ماشین

رگرسیون خطی چندگانه (Multiple Linear Regression) — به زبان ساده

فیلم آموزش همبستگی و رگرسیون خطی در اس پی اس اس SPSS در فرادرس

نداشتن خود همبستگی در الگوریتم رگرسیون خطی چیست ؟

عبارت‌های خطا باید مستقل از یکدیگر باشند. خود همبستگی را می‌توان با استفاده از «آزمون دوربین واتسون» (Durbin Watson Test) بررسی کرد. فرضیه «تهی» (Null) فرض می‌کند که هیچ خود همبستگی در الگوریتم وجود ندارد. به طور کلی مقدار این آزمون ۰ تا ۴ است و اگر مقدار ۴ باشد، هیچ خود همبستگی وجود ندارد.

چگونه می توان بهترین خط برازش را در رگرسیون خطی پیدا کرد؟

زمانی که فرد با رگرسیون خطی در حال کار کردن است، مهم‌ترین هدف پیدا کردن بهترین خط برازش به حساب می‌آید. به عبارت دیگر، هدف یافتن خطی است که کمترین خطا را بین مقدارهای پیش‌بینی شده و مقدارهای واقعی داشته باشد. بنابراین بهترین خط برازش، خطی است که کمترین خطا را دارد. مقدارهای مختلف موجود برای وزن‌ها و ضرایب خط‌های $(a_0 \, a_1)$ باعث ایجاد خط‌های رگرسیون مختلفی می‌شود. بنابراین، نیاز است که بهترین مقدار برای $a_0$ و $a_1$ به منظور پیدا کردن مناسب‌ترین خط برازش محاسبه شود. از این رو، برای محاسبه این مقدار از «تابع هزینه» (Cost Function) استفاده می‌شود که در ادامه به آن پرداخته‌ایم.

تابع زیان یا تابع هزینه چیست؟

تابع هزینه یا همان تابع زیان به توسعه دهندگان این امکان را می‌دهد تا با استفاده از آن بهترین مقدار ممکن را برای $a_0$ و $a_1$ پیدا کنند و بهترین و مناسب‌ترین خط برازش را برای نقاط داده فراهم می‌کند. از آن‌جایی که مدل نیازمند بهترین مقدار برای $a_0$ و $a_1$ است، می‌توان این مسئله را به عنوان یک مسئله کمینه‌سازی در نظر گرفت و خطای بین مقدار واقعی و مقدار پیش‌بینی شده را به حداقل رساند.

توابع زیان (Loss Function) در یادگیری ماشین - به همراه کدهای پایتون

در تصویر زیر معادله ریاضی تابع هزینه نمایش داده شده است:

$minimize = \frac 1n sum_ {i=1} ^ {n} {(pred _i - y _i)}^2$

$J = \frac 1n sum_ {i=1} ^ {n} {(pred _i - y _i)}^2$

تابع فوق برای کمینه‌سازی خطا انتخاب می‌شود. برای محاسبه این مقدار میبینیم، اختلاف خطای بین مقدارهای واقعی و پیش‌بینی شده به توان ۲ رسانده شده‌اند، این مقدار برای تمام نقاط داده، محاسبه و باهم جمع می‌شوند و در نهایت مقدار به دست آمده، بر تعداد کل نقاط داده تقسیم خواهند شد. به عبارت دیگر، رابطه تابع هزینه میانگین مربع مقدار خطا برای همه نقاط داده را فراهم می‌کند. بنابراین، این تابع هزینه به عنوان تابع «میانگین مربع‌های خطا» (Mean Squared Error | MSE) نیز شناخته می‌شود. حال، با استفاده از این تابع MSE، مقادیر $a_0$ و $a_1$ طوری تغییر داده می‌شوند که مقدار MSE در حالت مینیمم قرار بگیرد.

بررسی معیارهای ارزیابی رگرسیون در پایتون — پیاده سازی + کدها

فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python – بخش یکم در فرادرس

می‌توان کدهای زبان برنامه نویسی «پایتون» (Python) تابع هزینه را به صورت زیر نوشت:

1def cost_function(radio, sales, weight, bias):
2    companies = len(radio)
3    total_error = 0.0
4    for i in range(companies):
5        total_error += (sales[i] - (weight*radio[i] + bias))**2
6    return total_error / companies

گرادیان کاهشی چیست؟

مفهوم دیگری که باید در رگرسیون خطی آن را درک کرد، «گرادیان کاهشی» (Gradient Descent) است. گرادیان کاهشی روشی برای به‌روزرسانی $a_0$ و $a_1$ برای کاهش مقدار تابع هزینه یا همان MSE به حساب می‌آید. ایده این روش به این صورت است که در ابتدا کار با مقادیری برای $a_0$ و $a_1$ شروع می‌شود و سپس کم کم این مقدار را باید تغییر داد تا مقدار تابع هزینه کاهش پیدا کند. به طور کلی گرادیان کاهشی امکان تغییر مقادیر را به توسعه دهندگان می‌دهد. در تصویر زیر تاًثیر انواع «نرخ یادگیری» (Learning Rate) روی دو نمودار مشابه نمایش داده شده است.

برای درک بهتر نرخ یادگیری، می‌توان گودالی شبیه به U تصور کرد و در بالاترین نقطه گودال ایستاد و هدف را رسیدن به انتهای گودال در نظر گرفت. برای رسیدن به انتهای گودال فقط باید تعداد معینی قدم برداشت. اگر فرد تصمیم بگیرید در هر بار فقط یک قدم بردارد، زمان زیادی برای رسیدن به انتهای گودال صرف می‌شود. اما اگر هر بار قدم بزرگ‌تری برداشت، احتمال این وجود دارد که زودتر به انتهای گودال رسید، اما احتمال دیگری نیز وجود دارد و آن هم این است که با برداشتن گام‌های بزرگ ممکن است نتوان در محل مورد نظر یعنی نقطه مینیمم توقف کرد و عبور از آن نقطه اتفاق بیوفتد.

در الگوریتم گرادیان کاهشی، تعداد قدم‌هایی که برداشته می‌شود، همان نرخ یادگیری هستند و این نرخ یادگیری مشخص می‌کند که الگوریتم باید با چه سرعتی به سمت مینیمم همگرا شود. گاهی اوقات تابع هزینه می‌تواند تابع غیر محدبی باشد که می‌توان در آن، در بخش مینیمم محلی قرار گرفت، اما برای الگوریتم رگرسیون خطی در یادگیری ماشین همیشه این تابع، محدب است. تصویر زیر تابع محدب و غیرمحدب را نشان می‌دهد.

تابع محدب و غیر مجدب در الگوریتم گرادیان کاهشی

حال باید به این موضوع پرداخت که چطور می‌توان با استفاده از گرادیان کاهشی، مقدارهای $a_0$ و $a_1$ را به‌روزرسانی کرد. برای به‌روزرسانی $a_0$ و $a_1$ مقدار گرادیان‌ها از تابع هزینه گرفته می‌شوند. برای پیدا کردن این مقادیر گرادیان‌ها، مشتق جزئی یا همان نسبی با توجه به $a_0$ و $a_1$ از تابع گرفته می‌شود. حال، برای درک این‌که چطور می‌توان این مشتق جزئی را محاسبه کرد، اثبات این موضوع در ادامه ارائه شده است:

$J = \frac 1n sum_ {i=1} ^ {n} {(pred _i - y _i)}^2$

$J = \frac 1n sum_ {i=1} ^ {n} {(a _0 + a _1 . x _i - y_ i)}^2$

$\frac {\partial J} {\partial a_0} = \frac 2n sum_ {i=1} ^ {n} (a_0 + a_1 . x _i - y _i) \Longrightarrow \frac {\partial J} {\partial a_0} = \frac 2n sum_ {i=1} ^ {n} (pred _i - y _i)$

$\frac {\partial J} {\partial a_0} = \frac 2n sum_ {i=1} ^ {n} (a_0 + a_1 . x _i - y _i). x_ i \Longrightarrow \frac {\partial J} {\partial a_0} = \frac 2n sum_ {i=1} ^ {n} (pred _i - y _i). x_ i$

رابطه نهایی ارائه شده برای مقدار گرادیان‌ها در تصویر زیر نمایش داده شده است:

$a_0 = a_0 - \alpha. \frac 2n sum_ {i=1} ^ {n} (pred _i - y _i)$

$a_1 = a_1 - \alpha. \frac 2n sum_ {i=1} ^ {n} (pred _i - y _i). x_ i$

مشتقات جزئی گرادیان‌ها برای به‌روزرسانی مقدار $a_0$ و $a_1$ استفاده می‌شوند. آلفا در معادله‌های بالا نشان‌دهنده نرخ یادگیری یا «فراپارامترهایی» (Hyperparameter) است که باید مشخص شوند. اگر مقدار نرخ یادگیری کم باشد، به مقدار تابع هزینه مینیمم نزدیک‌تر خواهد بود، اما زمان بیشتری برای رسیدن به این مقدار صرف می‌شود. همچنین، اگر مقدار نرخ یادگیری بالا باشد، تابع زودتر همگرا خواهد شد، اما ممکن است مقدار نهایی از مینیمم مورد نظر کمتر شود.

برای حل گرادیان کاهشی با استفاده از کدهای پایتون، نقاط داده الگوریتم با استفاده از وزن جدید و مقادیر بایاس تکرار می‌شوند و میانگین مشتقات جزئی محاسبه خواهند شد. نتایج گرادیان شیب تابع هزینه در موقعیت فعلی (یعنی وزن و بایاس) مسیری را نشان می‌دهد که باید با استفاده از آن تابع هزینه را کاهش داد (یعنی حرکت در جهت مخالف گرادیان). همچنین اندازه به‌روزرسانی با استفاده از نرخ یادگیری کنترل می‌شود. در ادامه کدهای پیاده‌سازی گرادیان کاهشی با پایتون نمایش داده شده‌اند.

1def update_weights(radio, sales, weight, bias, learning_rate):
2    weight_deriv = 0
3    bias_deriv = 0
4    companies = len(radio)
5
6    for i in range(companies):
7        # Calculate partial derivatives
8        # -2x(y - (mx + b))
9        weight_deriv += -2*radio[i] * (sales[i] - (weight*radio[i] + bias))
10
11        # -2(y - (mx + b))
12        bias_deriv += -2*(sales[i] - (weight*radio[i] + bias))
13
14    # We subtract because the derivatives point in direction of steepest ascent
15    weight -= (weight_deriv / companies) * learning_rate
16    bias -= (bias_deriv / companies) * learning_rate
17
18    return weight, bias

منظم سازی یا Regularization چیست؟

افزونه‌های گسترده زیادی برای آموزش مدل خطی به نام متدهای «Regularization» یا همان «منظم‌سازی» وجود دارند. این روش‌ها نیز برای به حداقل رساندن مجموعه مربعات خطاهای مدل در داده‌های آموزشی استفاده می‌شوند و معمولاً از روش «حداقل مربعات عادی» (Ordinary Least Squares) استفاده می‌کنند. وقتی بیش از یک ورودی وجود داشته باشد، می‌توان از روش حداقل مربعات عادی برای پیش‌بینی مقادیر ضرایب استفاده کرد. به عبارت دیگر، با استفاده از یک خط رگرسیون به دست آمده از طریق داده‌ها، فاصله هر نقطه داده تا خط رگرسیون محاسبه می‌شود، سپس توان ۲ یا همان مربع این فاصله محاسبه خواهد شد و پس از آن، تمام مربعات خطاها با یکدیگر جمع می‌شوند.

این کمیتی است که روش حداقل مربعات عادی قصد دارد آن را به حداقل برساند. یعنی این روش به دنبال به حداقل رساندن مجموع مربع باقیمانده است. همچنین این روش‌ها به دنبال کاهش پیچیدگی مدل با استفاده از تعداد یا اندازه مطلق مجموعه همه ضرایب در مدل هستند. دو مثال رایج و محبوب از روش‌های Regularization برای رگرسیون خطی در یادگیری ماشین در ادامه ارائه شده‌اند:

«رگرسیون لاسو» (Lasso Regression): در این روش از متد حداقل مربعات عادی برای به حداقل رساندن مجموع ضرایب مطلق استفاده می‌شود و این روش با نام «L1 regularization» شناخته شده است.
«رگرسیون ستیغی» (Ridge Regression): در این روش از متد حداقل مربعات عادی برای به حداقل رساندن مجموع مربعات ضرایب مطلق استفاده شده است و این روش به عنوان «L2 regularization» شناخته می‌شود.

این روش‌ها برای استفاده در زمانی مناسب هستند که «هم‌خطی» (Collinearity) در مقادیر ورودی وجود داشته باشد و حداقل مربعات عادی با داده‌های آموزشی دارای «بیش‌برازش» یا همان «Overfit» باشند.

هم خطی در مدل رگرسیونی — به زبان ساده

فیلم آموزش رگرسیون خطی و شبکه عصبی MLP در پایتون برای پیش بینی چربی بدن (رایگان) در فرادرس

آماده سازی داده ها برای رگرسیون خطی در یادگیری ماشین چگونه است؟

تحقیقات زیادی در رابطه با رگرسیون خطی در یادگیری ماشین انجام شده است و روش‌های بسیاری درباره نحوه ساختار استفاده از داده‌ها برای رسیدن به مدلی بهینه وجود دارند. به طور کلی رایج‌ترین روش پیاده‌سازی رگرسیون خطی، «حداقل مربعات عادی» به حساب می‌آید و می‌توان از قوانین آن استفاده بسیاری کرد. برخی از روش‌های آماده‌سازی داده‌ها در الگوریتم رگرسیون خطی در ادامه ارائه شده‌اند که می‌توان بر اساس نوع مسئله خود مناسب‌ترین روش را برای آماده‌سازی داده‌ها انتخاب کرد:

«فرضیه خطی» (Linear Assumption): در الگوریتم رگرسیون خطی فرض می‌شود که رابطه بین ورودی‌ها و خروجی‌ها به صورت خطی است. چیز دیگری نیز در این الگوریتم پشتیبانی نمی‌شود. زمانی که ویژگی‌های مدل زیاد هستند باید به این موضوع توجه شود و ممکن است نیاز باشد که داده‌های مدل را تبدیل کرد. برای مثال می‌توان تبدیل لگاریتم به تابع نمایی را در نظر گرفت.
«حذف نویز» (Remove Noise): در رگرسیون خطی فرض می‌شود که متغیرهای وروردی و خروجی نویزدار نیستند. روش‌های پاک‌سازی داده‌ها برای داشتن داده‌هایی بهتر و واضح مورد استفاده قرار می‌گیرند. این روش برای متغیرهای خروجی دارای اهمیت بالایی است و می‌توان در صورت امکان «مقادیر پرت» (Outlier) متغیر خروجی (y) را حذف کرد.
«حذف هم‌خطی» (Remove Collinearity): زمانی که در داده‌های ورودی همبستگی بالایی وجود داشته باشد، الگوریتم رگرسیون خطی دچار بیش‌برازش در داده‌ها می‌شود. برای رفع این مسئله می‌توان محاسبه همبستگی‌های دو به دو در داده‌های ورودی و حذف بیشترین همبستگی‌ها را در نظر گرفت.
«توزیع گوسی» (Gaussian Distribution): اگر ورودی و خروجی‌های مدل دارای توزیع گوسی باشند، رگرسیون خطی می‌تواند پیش‌بینی‌های قابل اعتمادتری را ارائه دهد. ممکن است بتوان با تبدیل‌هایی از جمله تبدیل لگاریتمی و BoxCox روی متغیرهای مدل خود، مزایایی را به دست آورد تا توزیع متغیرها بیشتر به شکل توزیع گوسی شوند.
«تغییر مقیاس ورودی‌ها» (Rescale Input): اگر متغیرهای ورودی مدل با استفاده از روش‌های «استانداردسازی» (Standardization) و «نرمال‌سازی» (Normalization) تغییر مقیاس داده شوند، الگوریتم رگرسیون خطی می‌تواند پیش‌بینی‌های قابل اعتمادتری را ارائه دهد.