مهمترین الگوریتم های یادگیری ماشین (به همراه کدهای پایتون و R) – بخش دوم: رگرسیون خطی


این الگوریتم برای برآورد مقادیر واقعی (هزینه ساعتی، تعداد تماس، فروش کل و ...) بر اساس متغیر یا متغیرهای پیوسته استفاده میشود. در این الگوریتم بین متغیرهای مستقل وابسته، رابطهای با استفاده از خطی که بیشترین برازش را دارد برقرار میشود. این خط با بهترین برازش، به نام خط رگرسیون شناخته شده است و با معادله خطی Y=a*X+b به دست میآید.
بهترین روش درک رگرسیون خطی یادآوری یکی از تجربههای دوران کودکی است. فرض کنید از یک کودک کلاس پنجم میخواهید اعضای کلاس را بر اساس وزنشان مرتب کند. او این کار را باید بدون این که وزنشان را بپرسد انجام دهد! فکر میکنید این کودک چه کار میکند؟ او احتمالاً به قد افراد نگاه میکند (تحلیل بصری) و آنها را با ترکیبی از پارامترهای قابل مشاهده مرتب میکند. این همان رگرسیون خطی در زندگی واقعی است! کودک به درستی درک کرده است که قد میتواند بر اساس رابطهای خاص که ظاهری شبیه معادله فوق دارد، با وزن همبسته باشد.
در این معادله:
- Y – متغیر وابسته
- a - شیب
- X – متغیر مستقل
- b – عرض از مبدأ
ضرایب a و b بر اساس اصل کمینهسازی مجموع تفاضل مربعات فاصله بین نقاط دادهای و خط رگرسیون به دست آمدهاند. به مثال زیر نگاه کنید. در این مثال بهترین خط متناسب، معادله خطی y=0.2811x+13.9 دارد. اینک با استفاده از این معادله میتوانیم با دانستن قد هر کس وزن او را بیابیم.
رگرسیون خطی به طور عمده دو نوع است: رگرسیون خطی ساده و رگرسیون خطی چندگانه. رگرسیون خطی ساده بر حسب متغیر مستقل مشخص میشود. و رگرسیون خطی چندگانه (همان طور که از نامش پیداست) بر حسب چند (بیش از 1) متغیر مستقل تعیین میشود. هنگام یافتن بهترین خط متناسب میتوانید یک رگرسیون چندجملهای یا خط منحنی نیز بیابید. و این خطوط به نام رگرسیونهای چندجملهای یا خط منحنی شناخته میشوند.
کد پایتون
کدهای پایتون بهصورت زیر است.
کد R
کدهای R بهصورت زیر است.
در بخش بعدی این سلسله آموزشها شما را با الگوریتم رگرسیون لجستیک آشنا خواهیم کرد.
اگر این نوشته برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای ریاضیات
- آموزش کاربرد رگرسیون و همبستگی در آمار استنباطی برای مدیریت و علوم انسانی
- مجموعه آموزشهای آمار، احتمالات و داده کاوی
- آموزش همبستگی و رگرسیون خطی در SPSS
- آموزش آمار استنباطی برای مدیریت و علوم انسانی
- رگرسیون خطی — مفهوم و محاسبات به زبان ساده
==
x_train=input_variables_values_training_datasets
y_train=target_variables_values_training_datasets
x_test=input_variables_values_test_datasets
این بخش از کد پایتون داره ارور میزنه چرا؟
به اين خاطر كه بايد ديتاست هاتون رو وارد كنيد همونجور كه نوشته نه اينا رو
سلام امید عزیز
البته اسامی متغیرها بر اساس قرارداد تعیین میشوند؛ اما ما نیز در این آموزش y را به عنوان متغیر وابسته تغییر دادیم.
ممنون از توجه شما.
تشکر بابت مطالب بسیار مفیدتون ، یه سوال ؟ بسیاری از سایتها y رو به عنوان متغیر وابسته مطرح کردن ولی شما x رو ، کدومشون درسته ؟