آمار , داده کاوی 798 بازدید

مدل سازی، با استفاده از اطلاعاتی که داده‌ها به همراه دارند، کاری است که در بیشتر شاخه‌های هوش‌مصنوعی و بخصوص داده‌کاوی به کار می‌رود. از ساده‌ترین و همچنین موثر‌ترین روش‌های چنین امری «رگرسیون» (Regression) است که معمولا با استفاده از یک مدل خطی، رابطه بین «متغیرهای پاسخ» (Response Variable) و «متغیرهای توضیحی» (Exploratory Variables) را برقرار می‌کند. شایان ذکر است که گاهی به متغیرهای پاسخ، «متغیرهای وابسته» (Dependent Variable) و به متغیرهای توضیحی نیز «متغیرهای مستقل» (Independent Variable) یا متغیرهای پیشگو گفته می‌شود.

در وبلاگ فرادرس، آموزش‌ها و مطالبی در زمینه تحلیل داده‌‌ها به کمک روش‌های آماری منتشر شده، که به شیوه‌های مختلف رگرسیون اشاره دارند. برای آگاهی و اطلاع بیشتر در این زمینه‌ها، این نوشتار، فهرستی از آن مطالب را به همراه خصوصیات هر یک از روش‌های رگرسیونی یادآور می‌شود.

  • رگرسیون خطی ساده که در آن به بررسی رابطه بین یک متغیر پاسخ با یک متغیر توضیحی پرداخته و مدل بین آن‌ها را بوسیله معادله یک خط نشان می‌دهد.
  • رگرسیون خطی چندگانه که در آن چند متغیر مستقل با یک متغیر پاسخ مدل‌بندی و ارتباطشان به صورت یک رابطه خطی برحسب پارامترها بررسی می‌شود.
  • رگرسیون لجستیک که رابطه بین یک متغیر طبقه‌ای، به عنوان متغیر وابسته، با چند متغیر مستقل را می‌سنجد. همچنین برای اجرای رگرسیون لجستیک در پایتون مطلب با همین عنوان در نوشتارهای فرادرس وجود دارد. همچنین در زمانی که متغیر وابسته دارای مقداری بیش از دو طبقه باشد، استفاده از رگرسیون چندجمله‌ای لازم است. در یکی از مطالب فرادرس با عنوان رگرسیون لجستیک چند جمله ای (Multinomial Logistic Regression) — مفاهیم و کاربردها می‌توانید در این مورد اطلاعاتی کسب کنید.
  • رگرسیون خطی با متغیرهای طبقه‌ ای در SPSS — راهنمای گام‌به‌گام که در آن به بررسی و نحوه ایجاد متغیرهای مجازی به منظور استفاده در رگرسیون خطی پرداخته می‌شود. برای اجرای این روش رگرسیونی از نرم‌افزار SPSS‌ کمک گرفته شده است.
  • رگرسیون غیرخطی که ممکن است به واسطه بعضی از تبدیلات، به رگرسیون خطی تبدیل شود نیز یکی از مطالبی است که ممکن است برای دانشجویان بخصوص در حوزه هوش مصنوعی جذاب باشد. در این مطلب به روش برآورد پارامترهای مدل رگرسیون غیرخطی به کمک زبان برنامه‌نویسی محاسباتی R پرداخته شده است.

همچنین مباحث پیشرفته رگرسیونی مرتبط با مدل‌سازی در زمانی که تعداد متغیرهای پیشگو بیش از مشاهدات باشند نیز در فهرست زیر جای گرفته‌اند.

  • رگرسیون چندگانه یکی از پرکاربردترین روش‌های تحلیل‌های خطی است. در نوشتاری با این موضوع برآورد پارامترها و آزمون‌های مربوطه مورد بررسی قرار گرفته و به کمک مثالی نحوه انجام محاسبات مورد آموزش قرار گرفته است. برای انجام محاسبات رگرسیون چندگانه می‌توان از نرم‌افزار SPSS‌ نیز استفاده کرد. در نوشتار رگرسیون چندگانه در SPSS — راهنمای کاربردی این موضوع یادآوری و مورد بحث قرار گرفته است.
  • هم خطی در مدل رگرسیونی که به بررسی وجود روابط خطی بین متغیرهای مستقل پرداخته و روش‌های شناسایی آن را مورد کاوش قرار می‌دهد.
  • رگرسیون «لاسو» (LASSO) که با لحاظ کردن یک تابع خطا در فضای L1 اقدام به برآوردهای مدل رگرسیونی می‌کند تا مدل دچار بیش‌برازش نشود. این روش، با لحاظ کردن مجازات، نسبت به زیاد شدن تعداد پارامترها، مدل را تعدیل می‌کند.
  • رگرسیون «لار» (LAR) که با استفاده از یک الگوریتم تکراری کار برآورد پارامترهای مدل رگرسیونی را انجام می‌دهد. در این روش با شرط کمترین زاویه بین بردارهای حاصل از برآورد هر مرحله با مرحله قبل، عمل برآوردیابی صورت می‌پذیرد.
  • رگرسیون سیتغی (Ridge Regression) که در آن با استفاده از یک تابع جریمه، تعداد پارامترها و پیچیدگی مدل کنترل شده و مدلی با کمترین میزان همخطی بین متغیرهای مستقل ایجاد می‌شود.
  • رگرسیون چندکی نیز به عنوان یکی از روش‌های برآورد رگرسیونی به تازگی مورد توجه قرار گرفته است در مطلب با این موضوع، روش‌های انجام این محاسبات با زبان برنامه‌نویسی پایتون مرور و برای مثال‌هایی پیاده‌سازی شده است.
  • رگرسیون خطی و انجام محاسبات آن به روش گرادیان کاهشی نیز از مباحثی است که در نوشتارهای فرادرس به آن پرداخته شده است. خواندن این مطلب بخصوص برای کسانی که به رگرسیون و یادگیری ماشین علاقمند هستند توصیه می‌شود. برای انجام محاسبات در این زمینه از زبان برنامه نویسی پایتون استفاده شده است.
  • روش‌های رگرسیونی در R نیز در دو قسمت برای کسانی که در حوزه یادگیری ماشین فعالیت می‌کنند در مطالب فرادرس ارائه شده است. معرفی توابع لازم برای اجرای روش‌های مختلف رگرسیونی در R از مواردی است که در این نوشتار قابل توجه است.

در بعضی از مطالب نیز به موضوعاتی مرتبط با رگرسیون پرداخته‌ایم که مستقیما عمل مدل‌سازی در آن‌ها صورت نگرفته، بلکه از مفهوم و یا شیوه‌های رگرسیونی برای حل بعضی از مسائل کمک گرفته‌ شده است. عناوین این موضوعات نیز در ادامه در دسترس است.

  • برازش مناسب، بیش برازش (Overfitting) و کم برازش (Underfitting) یکی از مفاهیم اصلی در مدل‌سازی، بخصوص در رگرسیون محسوب می‌شود در این مطلب به بررسی علت‌های بروز بیش‌برازش یا کم‌برازش پرداخته‌ایم و روش‌های انتخاب مدل مناسب نیز معرفی شده‌اند.
  • برازش منحنی نیز یکی از روش‌هایی محسوب می‌شود که ممکن است با رگرسیون ارتباط داشته باشد. آگاهی از این روش‌ها به درک عملکرد رگرسیون کمک خواهد کرد.
  • ضریب همبستگی و انواع آن، مطلبی است که به منظور آشنایی خوانندگان با نحوه اندازه‌گیری شدت رابطه بین دو متغیر نوشته شده است. شیوه محاسبه و کاربردهای ضریب همبستگی در این نوشتار دیده می‌شود.
  • ضریب همبستگی جزئی و نیمه جزئی در انتخاب مدل با تعداد متغیرهای مناسب و بهینه بسیار به کار گرفته می‌شود. این مطلب با توجه به این زمینه نوشته شده است. برای انجام محاسبات مربوطه ضریب همبستگی جزئی و نیمه جزئی، از نرم‌افزار SPSS کمک گرفته شده.

بعضی از مفاهیم و روش‌های رگرسیونی با دیگر زمینه‌های تحلیل داده‌ها به صورت مشترک به کار گرفته می‌شوند. در فهرست زیر مطلب‌های مرتبط با این موضوع قرار گرفته‌اند.

  • در مدل معادلات ساختاری (Structural Equation Modeling) — مفاهیم، روش‌ها و کاربردها، به بررسی رابطه بین متغیرها پرداخته می‌شود. یکی از مهم‌ترن تکنیک‌های این روش‌ها استفاده از انواع تجزیه و تحلیل واریانس است که البته در رگرسیون نیز کاربرد دارد.
  • تحلیل واریانس (Anova) — مفاهیم و کاربردها، از تکنیک تجزیه پراکندگی یا تحلیل واریانس، به منظور انجام آزمون بین گروه‌های مختلف استفاده می‌کند. به همین منظور در رگرسیون نیز از این روش به منظور تجزیه پراکندگی کل به پراکندگی حاصل از مدل و خطا و مقایسه آن‌ها برای تعیین و تشخیص مناسب بودن مدل رگرسیونی استفاده می‌شود.

البته در آموزش‌های زیر، مطالبی که در بالا به آن‌ها پرداختیم، به صورت ویدئویی و به تفصیل توضیح داده شده‌اند که مشاهده آن‌ها نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای 1 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *