آموزش رگرسیون – مجموعه مقالات جامع وبلاگ فرادرس
مدل سازی، با استفاده از اطلاعاتی که دادهها به همراه دارند، کاری است که در بیشتر شاخههای هوشمصنوعی و بخصوص دادهکاوی به کار میرود. از سادهترین و همچنین موثرترین روشهای چنین امری «رگرسیون» (Regression) است که معمولا با استفاده از یک مدل خطی، رابطه بین «متغیرهای پاسخ» (Response Variable) و «متغیرهای توضیحی» (Exploratory Variables) را برقرار میکند. شایان ذکر است که گاهی به متغیرهای پاسخ، «متغیرهای وابسته» (Dependent Variable) و به متغیرهای توضیحی نیز «متغیرهای مستقل» (Independent Variable) یا متغیرهای پیشگو گفته میشود.
در وبلاگ فرادرس، آموزشها و مطالبی در زمینه تحلیل دادهها به کمک روشهای آماری منتشر شده، که به شیوههای مختلف رگرسیون اشاره دارند. برای آگاهی و اطلاع بیشتر در این زمینهها، این نوشتار، فهرستی از آن مطالب را به همراه خصوصیات هر یک از روشهای رگرسیونی یادآور میشود.
- رگرسیون خطی ساده که در آن به بررسی رابطه بین یک متغیر پاسخ با یک متغیر توضیحی پرداخته و مدل بین آنها را بوسیله معادله یک خط نشان میدهد.
- رگرسیون خطی چندگانه که در آن چند متغیر مستقل با یک متغیر پاسخ مدلبندی و ارتباطشان به صورت یک رابطه خطی برحسب پارامترها بررسی میشود.
- رگرسیون لجستیک که رابطه بین یک متغیر طبقهای، به عنوان متغیر وابسته، با چند متغیر مستقل را میسنجد. همچنین برای اجرای رگرسیون لجستیک در پایتون مطلب با همین عنوان در نوشتارهای فرادرس وجود دارد. همچنین در زمانی که متغیر وابسته دارای مقداری بیش از دو طبقه باشد، استفاده از رگرسیون چندجملهای لازم است. در یکی از مطالب فرادرس با عنوان رگرسیون لجستیک چند جمله ای (Multinomial Logistic Regression) — مفاهیم و کاربردها میتوانید در این مورد اطلاعاتی کسب کنید.
- رگرسیون خطی با متغیرهای طبقه ای در SPSS -- راهنمای گامبهگام که در آن به بررسی و نحوه ایجاد متغیرهای مجازی به منظور استفاده در رگرسیون خطی پرداخته میشود. برای اجرای این روش رگرسیونی از نرمافزار SPSS کمک گرفته شده است.
- رگرسیون غیرخطی که ممکن است به واسطه بعضی از تبدیلات، به رگرسیون خطی تبدیل شود نیز یکی از مطالبی است که ممکن است برای دانشجویان بخصوص در حوزه هوش مصنوعی جذاب باشد. در این مطلب به روش برآورد پارامترهای مدل رگرسیون غیرخطی به کمک زبان برنامهنویسی محاسباتی R پرداخته شده است.
همچنین مباحث پیشرفته رگرسیونی مرتبط با مدلسازی در زمانی که تعداد متغیرهای پیشگو بیش از مشاهدات باشند نیز در فهرست زیر جای گرفتهاند.
- رگرسیون چندگانه یکی از پرکاربردترین روشهای تحلیلهای خطی است. در نوشتاری با این موضوع برآورد پارامترها و آزمونهای مربوطه مورد بررسی قرار گرفته و به کمک مثالی نحوه انجام محاسبات مورد آموزش قرار گرفته است. برای انجام محاسبات رگرسیون چندگانه میتوان از نرمافزار SPSS نیز استفاده کرد. در نوشتار رگرسیون چندگانه در SPSS — راهنمای کاربردی این موضوع یادآوری و مورد بحث قرار گرفته است.
- هم خطی در مدل رگرسیونی که به بررسی وجود روابط خطی بین متغیرهای مستقل پرداخته و روشهای شناسایی آن را مورد کاوش قرار میدهد.
- رگرسیون «لاسو» (LASSO) که با لحاظ کردن یک تابع خطا در فضای L1 اقدام به برآوردهای مدل رگرسیونی میکند تا مدل دچار بیشبرازش نشود. این روش، با لحاظ کردن مجازات، نسبت به زیاد شدن تعداد پارامترها، مدل را تعدیل میکند.
- رگرسیون «لار» (LAR) که با استفاده از یک الگوریتم تکراری کار برآورد پارامترهای مدل رگرسیونی را انجام میدهد. در این روش با شرط کمترین زاویه بین بردارهای حاصل از برآورد هر مرحله با مرحله قبل، عمل برآوردیابی صورت میپذیرد.
- رگرسیون سیتغی (Ridge Regression) که در آن با استفاده از یک تابع جریمه، تعداد پارامترها و پیچیدگی مدل کنترل شده و مدلی با کمترین میزان همخطی بین متغیرهای مستقل ایجاد میشود.
- رگرسیون چندکی نیز به عنوان یکی از روشهای برآورد رگرسیونی به تازگی مورد توجه قرار گرفته است در مطلب با این موضوع، روشهای انجام این محاسبات با زبان برنامهنویسی پایتون مرور و برای مثالهایی پیادهسازی شده است.
- رگرسیون خطی و انجام محاسبات آن به روش گرادیان کاهشی نیز از مباحثی است که در نوشتارهای فرادرس به آن پرداخته شده است. خواندن این مطلب بخصوص برای کسانی که به رگرسیون و یادگیری ماشین علاقمند هستند توصیه میشود. برای انجام محاسبات در این زمینه از زبان برنامه نویسی پایتون استفاده شده است.
- روشهای رگرسیونی در R نیز در دو قسمت برای کسانی که در حوزه یادگیری ماشین فعالیت میکنند در مطالب فرادرس ارائه شده است. معرفی توابع لازم برای اجرای روشهای مختلف رگرسیونی در R از مواردی است که در این نوشتار قابل توجه است.
در بعضی از مطالب نیز به موضوعاتی مرتبط با رگرسیون پرداختهایم که مستقیما عمل مدلسازی در آنها صورت نگرفته، بلکه از مفهوم و یا شیوههای رگرسیونی برای حل بعضی از مسائل کمک گرفته شده است. عناوین این موضوعات نیز در ادامه در دسترس است.
- برازش مناسب، بیش برازش (Overfitting) و کم برازش (Underfitting) یکی از مفاهیم اصلی در مدلسازی، بخصوص در رگرسیون محسوب میشود در این مطلب به بررسی علتهای بروز بیشبرازش یا کمبرازش پرداختهایم و روشهای انتخاب مدل مناسب نیز معرفی شدهاند.
- برازش منحنی نیز یکی از روشهایی محسوب میشود که ممکن است با رگرسیون ارتباط داشته باشد. آگاهی از این روشها به درک عملکرد رگرسیون کمک خواهد کرد.
- ضریب همبستگی و انواع آن، مطلبی است که به منظور آشنایی خوانندگان با نحوه اندازهگیری شدت رابطه بین دو متغیر نوشته شده است. شیوه محاسبه و کاربردهای ضریب همبستگی در این نوشتار دیده میشود.
- ضریب همبستگی جزئی و نیمه جزئی در انتخاب مدل با تعداد متغیرهای مناسب و بهینه بسیار به کار گرفته میشود. این مطلب با توجه به این زمینه نوشته شده است. برای انجام محاسبات مربوطه ضریب همبستگی جزئی و نیمه جزئی، از نرمافزار SPSS کمک گرفته شده.
بعضی از مفاهیم و روشهای رگرسیونی با دیگر زمینههای تحلیل دادهها به صورت مشترک به کار گرفته میشوند. در فهرست زیر مطلبهای مرتبط با این موضوع قرار گرفتهاند.
- در مدل معادلات ساختاری (Structural Equation Modeling) — مفاهیم، روشها و کاربردها، به بررسی رابطه بین متغیرها پرداخته میشود. یکی از مهمترن تکنیکهای این روشها استفاده از انواع تجزیه و تحلیل واریانس است که البته در رگرسیون نیز کاربرد دارد.
- تحلیل واریانس (Anova) — مفاهیم و کاربردها، از تکنیک تجزیه پراکندگی یا تحلیل واریانس، به منظور انجام آزمون بین گروههای مختلف استفاده میکند. به همین منظور در رگرسیون نیز از این روش به منظور تجزیه پراکندگی کل به پراکندگی حاصل از مدل و خطا و مقایسه آنها برای تعیین و تشخیص مناسب بودن مدل رگرسیونی استفاده میشود.
البته در آموزشهای زیر، مطالبی که در بالا به آنها پرداختیم، به صورت ویدئویی و به تفصیل توضیح داده شدهاند که مشاهده آنها نیز به شما پیشنهاد میشوند:
- آموزشهای مرتبط با یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای داده کاوی یا Data Mining در متلب
- مجموعه آموزشهای مدل سازی، برازش و تخمین
- آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
- آموزش رگرسیون غیرخطی و لجستیک در تحلیل اطلاعات با SAS
- آموزش همبستگی و رگرسیون خطی در SPSS
- آموزش انتخاب ویژگی یا Feature Selection
^^