مباحث آمار و احتمال برای یادگیری ماشین که به آن‌ها نیاز دارید + منابع یادگیری

۲۴۷۲

۱۴۰۴/۰۴/۸

۱۲ دقیقه

PDF

آموزش متنی جامع

همزمان با پیشرفت سریع تکنولوژی و نوآوری‌های بی‌سابقه، یادگیری ماشین و «هوش مصنوعی مولد» (Generative AI) بیش از هر زمان دیگری مورد توجه همگان قرار گرفته‌اند. دستاوردهایی که دیگر بخشی از زندگی روزمره انسان‌ها هستند و ما را قادر ساخته‌اند تا با بهره‌گیری از داده‌ها تصمیمات مهم‌تری را بسیار ساده‌تر اتخاذ کنیم. با این حال و اگرچه در جهانی مملو از تکنولوژی‌های بسیار پیشرفته قرار داریم، همچنان آمار و احتمال نقش کلیدی و مهمی ایفا می‌کند. در این مطلب از مجله فرادرس به شرح مباحث آمار و احتمال برای یادگیری ماشین می‌پردازیم و در هر بخش، منابعی را برای یادگیری اصولی به علاقه‌مندان این حوزه پیشنهاد می‌دهیم. موضوعی که همچنان زیربنای بسیاری از اکتشافات فنی و مهم روز است.

آنچه در این مطلب می‌آموزید:

یادگیری ماشین آماری و ارتباط آن با آمار و احتمال را درک می‌کنید.
نقش مفاهیم پایه آمار مانند واریانس و آزمون فرض را می‌شناسید.
با تکنیک‌های نمونه‌گیری و اعتبارسنجی متقابل آشنا می‌شوید.
کاربرد رگرسیون خطی و لجستیک در یادگیری ماشین را یاد می‌گیرید.
مفاهیم درخت تصمیم و جنگل تصادفی را می‌شناسید.
با الگوریتم‌های ماشین بردار پشتیبان و K-نزدیک‌ترین همسایه آشنا می‌شوید.

در این مطلب، با مفهوم یادگیری ماشین آماری آشنا می‌شویم و از ارتباط میان یادگیری ماشین و علم آمار می‌گوییم. سپس به بررسی نقش آمار و احتمال در یادگیری ماشین می‌پردازیم و در انتهای این مطلب از مجله فرادرس، برخی از تکنیک‌های محبوب آمار و احتمال برای یادگیری ماشین را معرفی می‌کنیم.

یادگیری ماشین آماری چیست؟

همان‌طور که از نام آن نیز مشخص است، «یادگیری ماشین آماری» (Statistical Machine Learning) به نقش آمار و احتمال در توسعه مدل‌هایی اشاره دارد که می‌توانند از داده‌ها یاد گرفته و سپس پیش‌بینی یا تصمیم‌گیری کنند. شاید تا به حال اصطلاحاتی همچون یادگیری «نظارت شده» (Supervised)، «نظارت نشده» (Unsupervised) و «نیمه نظارت شده» (Semi-Supervised) به گوش‌تان خورده باشد. رویکردهایی که به‌طور تمام و کمال بر پایه مباحث آماری توسعه یافته‌اند. به بیان ساده‌تر، یادگیری ماشین آماری ترکیبی از کارایی محاسباتی و سازگاری الگوریتم‌های یادگیری ماشین با اصول آماری همچون قابلیت مدل‌سازی است. بهره‌گیری از آمار و احتمال به ما این امکان را می‌دهد تا با استخراج الگوها و روابط میان داده‌ها، درک عمیق‌تری از دیتاست‌ها به‌دست آورده و در نتیجه اثربخشی الگوریتم‌های یادگیری ماشین را بالا ببریم.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

طراحی دو چرخه دنده به شکل دیجیتال که بیانگیر مفهوم یادگیری ماشین آماری است

ارتباط میان یادگیری ماشین و آمار و احتمال چیست؟

تا اینجا از اهمیت آمار و احتمال برای یادگیری ماشین گفتیم و می‌دانیم این حوزه از علم تا چه اندازه در شکل‌گیری مباحث پایه و اولیه نقش داشته است. در این بخش یاد می‌گیریم که اگرچه اهداف اصلی یادگیری ماشین و آمار و احتمال با یک‌دیگر در تفاوت هستند اما از طرفی و به‌خاطر روش‌های به‌کار گرفته شده در هر کدام، ارتباط نزدیکی میان آن‌ها وجود دارد. در یادگیری ماشین به‌جای معیارهایی مانند تفسیرپذیری، تمرکز بر قابلیت‌ها و نتایج حاصل از مدل یادگیری است. در مقابل، آمار و احتمال سعی دارد تا توضیحی برای چگونگی به‌دست آمدن پیش‌بینی‌ها و رفتار مدل‌های یادگیری ماشین ارائه دهد.

فیلم آموزش ریاضی برای یادگیری‌ ماشین با پایتون در فرادرس

کلیک کنید

پس می‌توان نتیجه گرفت که وقتی به عنوان دو حوزه متفاوت درباره یادگیری ماشین و آمار و احتمال صحبت می‌کنیم، این پیش‌فرض را پذیرفته‌ایم که هر کدام دیدگاه متفاوتی نسبت به مسئله‌ای یکسان دارند. مانند دو چرخ یک دوچرخه که بدون یک‌دیگر نمی‌توانند کار کنند. فعالان هر دو حوزه باید برای تعامل حقیقی و ارزشمند در مسائل، نسبت به کار یک‌دیگر آگاه باشند. در فهرست زیر به چند نکته دیگر برای رسیدن به درکی شفاف‌تر از رابطه میان آمار و یادگیری ماشین اشاره شده است:

رباتی در حال کدنویسی که ارتباط میان یادگیری ماشین و آمار و احتمال را نشان میدهد

هر دو حوزه خروجی را بر اساس ورودی‌های سیستم پیش‌بینی کرده یا تخمین می‌زنند.
بیشینه‌سازی تابع «درست‌نمایی» (Likelihood) حاصل از پارامترهای مدل در آمار و احتمال، معادل کمینه‌سازی تابع هزینه برای استخراج کارآمدترین پارامترها در یادگیری ماشین است.
تفاوتی میان یک فرضیه در آمار و قاعده پیش‌بینی در یادگیری ماشین وجود ندارد و هر دو باید با دقت بررسی شوند.
با افزایش حجم ورودی متناسب، هر دو حوزه برای دستیابی به خروجی دقیق‌تر و باکیفیت‌تر، داده‌ها را به مقادیر کمی متناظر تبدیل می‌کنند.

حالا و پس از آن‌که یاد گرفتیم نقش آمار و احتمال برای یادگیری ماشین چیست و چه ارتباطی میان این دو حوزه وجود دارد، ادامه این مطلب را به توضیح و بررسی نقش آمار و احتمال در یادگیری ماشین اختصاص می‌دهیم. همچنین مجله فرادرس مطلب کامل‌تری را درباره مفاهیم آماری در علم داده آماده کرده است که با مراجعه به لینک زیر می‌توانید آن را مطالعه کنید:

مطلب پیشنهادی:

مفهوم‌های اصلی آمار که تحلیل گران علم داده باید بدانند

شروع مطالعه

یادگیری آمار و احتمال با فرادرس

مجموعه فیلم های آموزش آمار و احتمالات فرادرس — برای دسترسی به مجموعه فیلم‌های آمار و احتمالات، روی تصویر کلیک کنید.

آمار و احتمال از جمله پایه‌ها و ملزومات اصلی در حوزه هوش مصنوعی و به‌طور ویژه یادگیری ماشین است. شاید بتوان بدون درک عمیق مفاهیم آماری نیز به طراحی و پیاده‌سازی مدل‌های یادگیری ماشین پرداخت اما با افزایش پیچیدگی‌های پروژه، اصلاح و ارزیابی روند کلی بسیار دشوار خواهد بود. اگر دانشجو هستید یا می‌خواهید در زمینه یادگیری ماشین فعالیت کنید، پلتفرم فرادرس مجموعه‌ای از فیلم‌های آموزشی آمار و احتمالات را از دروس دانشگاه تا کاربردی تهیه و منتشر کرده است که می‌تواند راهنمای جامع و بسیار خوبی از ابتدا تا انتهای مسیر حرفه‌ای برای شما باشد. برای مشاهده این مجموعه آموزشی بر روی لینک زیر کلیک کنید:

مجموعه فیلم‌های آموزش آمار و احتمالات فرادرس

نقش آمار و احتمال در یادگیری ماشین

وقتی از آمار و احتمال برای یادگیری ماشین صحبت می‌کنیم، در واقع به نقش حیاتی آمار در اصول اولیه یادگیری ماشین از ابزارها و تکینک‌ها گرفته تا ارزیابی و تفسیر داده‌ها اشاره داریم.

فیلم آموزش روش‌های کلاسیک در یادگیری‌ ماشین در فرادرس

کلیک کنید

در اصل، آمار و احتمال نقش بستری نظری را دارد که الگوریتم‌های یادگیری ماشین بر پایه آن ساخته شده‌اند. آمار و احتمال به ما اجازه می‌دهد داده‌ها و اطلاعات را جمع‌آوری، تجزیه و تحلیل، تفسیر و سازمان‌دهی کنیم. علمی که مجموعه‌ای از ابزارها را برای درک الگو، تصمیم‌گیری و پیش‌بینی مبتنی‌بر داده در اختیار ما قرار می‌دهد. فرض کنید دیتاست بزرگی با حجم زیاد از اطلاعات را در اختیار شما قرار داده‌اند. در چنین موقعیتی، بهره‌گیری از آمار و احتمال باعث می‌شود بتوان داده‌ها را خلاصه‌سازی کرد و درک بهتری از موجودیت‌های پیچیده به‌دست آورد.

از طرف دیگر، یادگیری ماشین ابزار قدرتمندی است که به کامپیوترها اجازه می‌دهد از داده‌ها یاد گرفته و بر اساس مشاهدات خود تصمیم‌گیری کنند. هدف نهایی در یادگیری ماشین، ساخت مدل‌هایی است که با گذشت زمان تطبیق پیدا کرده و دامنه آموخته‌های خود را به موضوعات بیشتری گسترش دهند. آمار و احتمال از جنبه‌های بسیاری در حفظ ساختار یادگیری ماشین تعامل دارد. برخی از این جنبه‌ها عبارت‌اند از:

لامپی با طرح یک مغز در آن که نشان دهنده نقش آمار و احتمال در یادگیری ماشین است

ساخت مدل‌های یادگیری ماشین: علم آمار اصول اولیه ساخت مدل‌ها در یادگیری ماشین را فراهم می‌کند. برای نمونه، در رگرسیون خطی از تکنیک آماری حداقل مربعات برای تخمین ضرایب یا همان پارامترهای مدل استفاده می‌شود.
تفسیر نتایج: مفاهیم آماری به ما این امکان را می‌دهند تا نتایج تولید شده به‌وسیله مدل‌های یادگیری ماشین را تفسیر کنیم. معیارهایی مانند مقدار احتمال یا p-value، «فاصله اطمینان»‌ (Confidence Interval) و R-squared باعث می‌شوند از دید آماری به عملکرد مدل‌های یادگیری نگاه کنیم.
اعتبارسنجی مدل: روش‌های آماری برای ارزیابی و اصلاح مدل‌های یادگیری ماشین ضروری هستند. به عنوان مثال روش‌هایی مانند «آزمون فرض آماری» (Statistical Hypothesis Testing)، «اعتبارسنجی متقابل» (Cross Validation) و «بوت‌استرپ» (Bootstrapping) از وقوع مشکلاتی مانند بیش‌برازش جلوگیری کرده و سنجش عملکرد مدل‌ها را تسهیل می‌کنند.
پایه‌گذاری تکنیک‌های پیشرفته: حتی برخی از الگوریتم‌های یادگیری ماشین پیچیده مانند شبکه‌های عصبی نیز مبانی آماری دارند. همچنین تکنیک‌های بهینه‌سازی مانند «گرادیان کاهشی» (Gradient Descent) که در فرایند آموزش مدل مورد استفاده قرار می‌گیرند از اصول آماری پیروی می‌کنند.

در نتیجه پایه آماری قوی نه تنها باعث ساخت و ارزیابی بهتر مدل‌های یادگیری می‌شود بلکه، کار تفسیر موثر خروجی‌ها را نیز راحت‌تر می‌سازد. در ادامه، برخی از مفاهیم آماری که ارتباط نزدیکی با یادگیری ماشین دارند را معرفی می‌کنیم.

احتمال

تئوری احتمال، مدل‌سازی عدم قطعیت و پیش‌بینی محاسباتی را ممکن ساخته و از همین جهت در میان مهم‌ترین مفاهیم آماری قرار دارد. مفهوم احتمال به ما کمک می‌کند تا میزان شباهت خروجی‌ها یا مقادیر عددی را محاسبه کنیم. البته که نباید از نقش توزیع‌های آماری در یادگیری ماشین غافل شد. توزیع گاوسی یا نرمال، «برنولی» (Bernoulli)، «پواسون» (Poisson) و نمایی برخی از رایج‌ترین توزیع‌های آماری هستند. برای تسلط کامل بر اصول و قوانین احتمالات، مجموعه فرادرس دوره‌ای را تحت عنوان فیلم آموزش تئوری احتمال تولید و تهیه کرده است که لینک آن در ادامه آورده شده است. این دوره جامع، مفاهیم پایه تئوری احتمال را به شیوه‌ای ساده و قابل فهم آموزش می‌دهد:

فیلم آموزش تئوری‌ احتمالات در فرادرس

کلیک کنید

آمار توصیفی

با استفاده از «آمار توصیفی» (Descriptive Statistics) درک عمیقی از ویژگی‌های یک دیتاست حاصل می‌شود. به این صورت که می‌توانیم علاوه‌بر خلاصه‌سازی، داده‌ها را به تصویر کشیده، الگوها و نمونه‌های پرت را شناسایی کنیم و به ارزیابی موثر نتایج بپردازیم. برای درک عمیق آمار توصیفی و کسب توانایی تحلیل داده‌ها، فیلم آموزشی آمار توصیفی فرادرس گزینه مناسبی برای شروع است. این دوره با استفاده از نرم‌افزار کاربردی StatPlus، مفاهیم آمار توصیفی را به روشی علمی و قابل درک مورد بررسی قرار می‌دهد. لینک دسترسی به این فیلم آموزشی رایگان در ادامه قرار داده شده است:

فیلم آموزش آمار توصیفی با StatPlus در فرادرس

کلیک کنید

سنجش شاخص های مرکزی

شاخص‌هایی همچون میانگین، میانه و نما نگرش ما را نسبت به نمونه داده‌های یک دیتاست تغییر می‌دهند. عمده استفاده چنین شاخص‌هایی در یادگیری ماشین و فرایند پیش‌پردازش داده است. به‌ویژه زمانی که قصد جایگذاری نمونه‌های گمشده یا تشخیص «مقادیر پرت» (Outliers) را داریم. همچنین در «مهندسی ویژگی» (Feature Engineering) و استخراج مقادیر داده پرتکرار یا معمولی اثرگذار نیز بسیار از شاخص‌های مرکزی استفاده می‌شود.

واریانس و انحراف معیار

از واریانس و انحراف معیار به عنوان دو شاخصی که میزان پراکندگی نقاط داده را تعیین می‌کنند یاد می‌شود. معیارهایی که در حقیقت نشانگر پیوستگی و پراکندگی داده‌ها در یادگیری ماشین هستند. از دیگر کاربردهای واریانس و انحراف معیار می‌توان به اهمیت آن‌ها در دو فرایند انتخاب ویژگی و «کاهش ابعاد» (Dimensionality Reduction) اشاره کرد. اگر قصد دارید بیشتر با اهمیت و کاربردهای مفاهیم آماری در حوزه داده کاوی و یادگیری ماشین آشنا شوید، فیلم آموزش مفاهیم آماری در داده کاوی فرادرس که در ادامه معرفی شده است، فرصت ویژه‌ای برای تسلط بر این مفاهیم کلیدی و کسب توانایی پیاده‌سازی آن‌ها در زبان برنامه نویسی پایتون است:

فیلم آموزش مفاهیم آماری در داده کاوی و پیاده سازی آن در پایتون Python در فرادرس

کلیک کنید

معیار گسترش

دامنه، «صدک» (Percentiles) و «دامنه میان چارکی» (Interquartile Range) همه نوعی معیار گسترشی هستند که ما را بیشتر با توزیع مقادیر داده آشنا می‌کنند. با توجه به قابلیت کشف و شناسایی نمونه‌های تاثیرگذار بر فرایند آموزش و پیش‌بینی نهایی مدل، چنین معیارهایی در تشخیص نمونه‌های پرت به‌کار گرفته می‌شوند. تبدیل و نرمال‌سازی داده‌ها از جمله دیگر کاربردهای هر معیار گسترش به‌شمار می‌روند.

نمونه‌گیری

آموزش مدل‌های یادگیری ماشین بر اساس داده‌های نمونه‌برداری شده صورت می‌گیرد. اگر در انتخاب نمونه‌ها با دقت عمل نشود، پایداری و اثربخشی مدل‌ها زیر سوال می‌رود. در حالت ایده‌آل، هدف در انتخاب نمونه‌های شاخص از مجموعه‌ای بزرگ خلاصه می‌شود. توسعه روش‌های مناسب نمونه‌گیری، از به‌کارگیری داده‌های متنوع و بدون سوگیری در آموزش مدل اطمینان حاصل کرده و نتایج قابل اعتمادتری را تضمین می‌کند. نمونه‌گیری صحیح و کنترل کیفیت داده‌ها از ملزومات اساسی در هر پروژه یادگیری ماشین به‌شمار می‌رود. فیلم آموزش روش‌های نمونه‌گیری داده فرادرس، شما را با انواع روش‌های نمونه‌گیری و نحوه کنترل کیفیت و تحلیل داده‌ها با نرم‌افزار Statgraphics آشنا می‌کند. در بخش زیر، لینک ثبت‌نام این دوره قرار داده شده است:

فیلم آموزش روش‌های نمونه‌گیری داده فرادرس

تخمین

روش‌های تخمینی از جهت تعیین پارامترهای ناشناخته بر اساس نمونه داده‌ها حائز اهمیت هستند. با بهره‌گیری از این روش‌ها می‌توانیم علاوه‌بر تخمین پارامترها، به ارزیابی عملکرد مدل پرداخته و نتایج حاصل از داده‌های جدید را پیش‌بینی کنیم. متداول‌ترین روش تخمین در یادگیری ماشین، روش تخمین «حداکثر درست‌نمایی» (Maximum Likelihood) نام دارد. در مسیر موفقیت پروژه‌های داده‌محور و به‌طور کلی یادگیری ماشین، مسلط بودن بر تئوری تخمین و همچنین تخمینگرهای کلاسیک از اهمیت بالایی برخوردار است. از همین جهت، پلتفرم فرادرس دور جامعی را با عنوان فیلم آموزش تئوری تخمین فراهم کرده است که با بهره‌گیری از آن می‌توانید مفاهیم اولیه تخمین را بسیار سریع‌تر یاد بگیرید. با گذراندن این دوره که لینک آن در ادامه قرار دارد، توانایی طراحی و استفاده از تخمینگرهای کلاسیک را نیز به‌دست خواهید آورد:

فیلم آموزش تئوری تخمین و تخمینگرهای کلاسیک در فرادرس

کلیک کنید

آزمون فرض آماری

در حقیقت، «آزمون فرض آماری» (Statistical Hypothesis Testing) روشی هدفمند برای ارزیابی شباهت‌ها و تفاوت‌ها در یادگیری ماشین است. با بهره‌گیری از این رویکرد می‌توان اعتبار فرضیات را مورد سنجش قرار داد، انواع مدل‌ها را با یک‌دیگر مقایسه و بر اساس شواهد موجود تصمیم‌گیری کرد. آزمون فرض آماری یکی از مهم‌ترین ابزارها در تحلیل داده و استنتاج آماری محسوب می‌شود. مجموعه فیلم‌های آموزشی آزمون فرض آماری فرادرس که در ادامه گنجانده شده است، شامل چندین دوره آموزشی جامع و فراگیر است که می‌توانید با بهره‌گیری از آن، انواع آزمون‌های فرض آماری را به‌صورت تخصصی و عملی یاد بگیرید:

مجموعه فیلم‌های آموزش آزمون فرض آماری فرادرس

اعتبارسنجی متقابل

از تکنیک آماری «اعتبارسنجی متقابل» (Cross Validation) برای ارزیابی عملکرد و «خطای تعمیم» (Generalization Error) الگوریتم‌های یادگیری استفاده می‌شود. مهم‌ترین دلیل بهره‌گیری از روش اعتبارسنجی متقابل، جلوگیری از وقوع مشکل بیش‌برازش است. وقتی مدل یادگیری ماشین عملکرد بسیار خوبی نسبت به نمونه‌های آموزشی از خود نشان دهد ولی در مقابل نمونه‌های جدید ضعیف عمل کند، می‌گوییم مدل بیش‌برازش شده است. روش اعتبارسنجی متقابل با تقسیم دیتاست به چندین زیرمجموعه متفاوت و تکرار دو فرایند آموزش و ارزیابی با ترکیب‌های مختلف، تخمین مطمئن‌تری را از عملکرد مدل در مقابل داده‌های از پیش دیده نشده نتیجه می‌دهد.

مجموعه فرادرس دوره‌ای را با عنوان فیلم آموزش انتخاب مدل‌های یادگیری ماشین تدارک دیده است که شما را به‌طور کامل با فرایند انتخاب مدل بهینه در پروژه‌های یادگیری ماشین آشنا می‌سازد. در بخشی از این دوره به‌طور عملی و کاربردی نحوه پیاده‌سازی اعتبارسنجی متقابل را به عنوان روشی برای ارزیابی مدل‌ها و انتخاب گزینه مناسب با زبان برنامه نویسی پایتون یاد می‌گیرید. اگر به این مبحث علاقه‌مند هستید، مشاهده این دوره را که لینک آن در زیر آورده شده است به شما پیشنهاد می‌کنیم:

فیلم آموزش انتخاب مدل‌های یادگیری‌ماشین در پایتون در فرادرس

کلیک کنید

تکنیک های محبوب آمار و احتمال برای یادگیری ماشین

پس از آشنایی با نقش آمار و احتمال در یادگیری ماشین، حال زمان خوبی است تا به معرفی تعدادی از محبوب‌ترین تکنیک‌های آمار و احتمال برای یادگیری ماشین بپردازیم. در ادامه این بخش از مطلب مجله فرادرس، علاوه‌بر شرح کاربردی‌ترین مدل‌های یادگیری ماشین و تاثیر علم آمار بر قابلیت‌های آن‌ها، دوره‌های جامعی را از پلتفرم فرادرس در قالب فیلم‌های آموزشی به شما پیشنهاد می‌دهیم.

فیلم آموزش پیش‌بینی نارسایی قلبی با یادگیری ماشین در پایتون در فرادرس

کلیک کنید

صفحه نمایش کامپیوتر با چندین خط کد بر روی آن که نشانگر تکنیک های آماری برای یادگیری ماشین است

رگرسیون خطی

به احتمال زیاد با عبارت رگرسیون خطی در دروس آمار و احتمال مواجه شده باشید. اما رگرسیون خطی موضوعی فراتر از تنها دروس دانشگاهی است و به عنوان الگوریتمی نظارت شده که رابطه میان یک متغیر وابسته و چند متغیر مستقل را کشف می‌کند شناخته می‌شود. تخمین مقدار پارامترها و ارزیابی روابط میان متغیرها از جمله مزایای بهره‌گیری از آمار و احتمال در الگوریتم‌های نظارت شده مانند رگرسیون خطی است.

اگر می‌خواهید اصول و مبانی رگرسیون خطی را طی یک دوره رایگان به‌طور سریع و کاربردی فرا بگیرید، مشاهده فیلم آموزشی رایگان رگرسیون خطی پلتفرم فرادرس را که لینک آن در ادامه قرار گرفته است به شما توصیه می‌کنیم:

فیلم آموزش رگرسیون خطی ساده در فرادرس

کلیک کنید

رگرسیون لجستیک

مانند نوع خطی، رگرسیون لجستیک نیز در دسته الگوریتم‌های طبقه‌بندی قرار دارد که احتمال خروجی‌های طبقه‌بندی شده را بر اساس متغیرهای مستقل تخمین می‌زند. توابع لجستیک وظیفه پیش‌بینی احتمال رخداد یک کلاس خاص را بر عهده دارند.

با مشاهده فیلم آموزش رگرسیون لجستیک فرادرس می‌توانید به شکلی جامع و سریع با این نوع از مدل‌ها آشنا شوید. در این دوره آموزشی رایگان، شما تمامی مفاهیم اولیه این الگوریتم در یادگیری ماشین را از مرز تصمیم گرفته تا چگونگی مقابله با مشکلاتی مانند بایاس و واریانس یاد می‌گیرد. برای دسترسی به این دوره آموزشی به لینک زیر مراجعه کنید:

فیلم آموزش رگرسیون لجستیک در یادگیری ماشین در فرادرس

کلیک کنید

درخت تصمیم

الگوریتم‌های متنوعی که از آمار و احتمال برای تقسیم داده بر اساس ویژگی‌ها استفاده کرده و ساختار درخت‌مانندی برای مسائل طبقه‌بندی یا رگرسیون تشکیل می‌دهند. بصری بودن، تفسیرپذیری و مدیریت داده‌های عددی و طبقه‌بندی شده از جمله ویژگی‌های الگوریتم «درخت تصمیم» (Decision Tree) به‌شمار می‌روند. در طول فرایند ساخت درخت، از معیارهای آماری همچون «ناخالصی جینی» (Gini Impurity) یا «بهره اطلاعاتی» (Information Gain) برای تقسیم داده‌ها استفاده می‌شود.

درخت تصمیم الگوریتمی پرکابرد و مفید در یادگیری ماشین است که بسیار در مسائل مختلف به‌کار گرفته می‌شود. ساختار درختی این الگوریتم از یک گره ریشه شروع شده و در ادامه، هر گره از درخت بر اساس ویژگی‌های داده به گره‌های بیشتری تقسیم می‌شود. برای یادگیری مفهوم درخت تصمیم با مثال‌های کاربردی، مجموعه فرادرس فیلم آموزشی را به‌طور رایگان در همین زمینه تهیه کرده است که با مراجعه به لینک زیر می‌توانید از آن بهره ببرید:

فیلم آموزش درخت تصمیم در یادگیری ماشین در فرادرس

کلیک کنید

جنگل تصادفی

الگوریتم «جنگل تصادفی» (Random Forest) یک روش «یادگیری جمعی» (Ensemble Learning) است که با ترکیب چند درخت تصمیم، دقت پیش‌بینی‌ها را افزایش می‌دهد. این الگوریتم از روش نمونه‌گیری برای انتخاب تصادفی چندین زیرمجموعه از ویژگی‌ها و داده‌ها برای ساخت درخت استفاده می‌کند. سپس پیش‌بینی همه درخت‌ها با یک‌دیگر جمع و پیش‌بینی نهایی حاصل می‌شود. جنگل تصادفی، یکنواختی میان داده‌ها را از بین برده و احتمال بیش‌برازش را کاهش می‌دهد. تنوعی که الگوریتم جنگل تصادفی به همراه دارد، باعث ایجاد مدلی مقاوم و کامل شده که توانایی شناسایی گستره وسیعی از الگوها را دارد. همچنین با کم شدن احتمال بیش‌برازش، قابلیت عمومی‌سازی مدل یادگیری نسبت به داده‌های جدید تضمین می‌شود.

با این حال، جنگل تصادفی تنها یکی از الگوریتم‌های مورد استفاده در پروژه‌های یادگیری ماشین است و شما می‌توانید در زمانی کوتاه و با مشاهده فیلم آموزشی رایگان یادگیری ماشین فرادرس که در ادامه معرفی شده است، نحوه پیاده‌سازی تعدادی از مهم‌ترین الگوریتم‌های این حوزه را از جمله جنگل تصادفی با زبان برنامه نویسی پایتون یاد بگیرید:

فیلم آموزش یادگیری ماشین با پایتون – سریع و آسان در ۱۸۰ دقیقه در فرادرس

کلیک کنید

ماشین بردار پشتیبان

از الگوریتم ماشین بردار پشتیبان یا به اصطلاح SVM در مسائل رگرسیون و طبقه‌بندی استفاده می‌شود. الگوریتم SVM با به‌کارگیری اصول آماری، مرزی میان گروه‌های مختلف داده تشکیل می‌دهد و تشخیص آن‌ها را از یک‌دیگر راحت‌تر می‌سازد. در نهایت نیز با بهینه‌سازی مرز میان داده‌ها، احتمال خطا کاهش و دقت خروجی‌ها افزایش می‌یابد.

مرز تصمیم در الگوریتم SVM — مثال الگوریتم SVM

K-نزدیک ترین همسایه

الگوریتمی ساده اما کارآمد که برای طبقه‌بندی نقاط داده بر اساس فاصله تا نزدیک‌ترین همسایه‌ها عمل می‌کند. الگوریتم K-نزدیک‌ترین همسایه یا همان KNN هم در مسائل طبقه‌بندی و هم رگرسیون کاربرد داشته و نیازی به آموزش ندارد. در این الگوریتم از شاخص‌های آماری برای تخمین فاصله میان نقاط داده و شناسایی نزدیک‌ترین همسایه‌ها کمک گرفته می‌شود. سپس رای اکثریتِ نزدیک‌ترین همسایه‌ها برای طبقه‌بندی و پیش‌بینی متغیر هدف، معیار قرار می‌گیرد.

نحوه کارکرد الگوریتم KNN — مثال الگوریتم KNN

تا اینجا با انواع مفاهیم و تکنیک‌های آماری در یادگیری ماشین آشنا شدیم و دوره‌های آموزشی مرتبطی را برای هر بخش معرفی کردیم. اگر به فکر شروع حرفه تخصصی خود در حوزه آمار و یادگیری ماشین هستید، پلتفرم فرادرس در دو بخش، فیلم‌های آموزشی جامعی را از مباحث مقدماتی تا پیشرفته تحت عنوان یادگیری ماشین و پیاده‌سازی در پایتون منتشر کرده است. این دوره‌ها از پایه‌ای‌ترین مباحث مانند معرفی انواع داده تا موضوعات پیچیده‌تری همچون الگوریتم‌های KNN، SVM و شبکه‌های عصبی را شامل می‌شوند. برای دسترسی به این فیلم‌های آموزشی می‌توانید به لینک‌هایی که در ادامه آورده شده است مراجعه کنید:

جمع‌بندی

همزمان با گذر از عصر تکنولوژی‌های پیشرفته و تصمیم‌گیری‌های داده‌محور، کسب دانشی پایه از آمار و احتمال برای ارتقا مهارت‌های یادگیری ماشین ضرورت داشته و بسیار ارزشمند است. در این مطلب از مجله فرادرس به اهمیت آمار و احتمال برای یادگیری ماشین پرداختیم و علاوه‌بر آشنایی با مفاهیم و تکنیک‌های رایج این حوزه، دوره‌های جامعی را نیز در قالب فیلم‌های آموزشی به شما معرفی کردیم. با عمیق شدن در مبانی آمار و احتمال، بهتر می‌توان به قابلیت‌های حقیقی یادگیری ماشین پی برد.

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۱ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

DataCamp

امیر حسین فقهی (+)

امیر حسین فقهی دانش‌آموخته کارشناسی ارشد مهندسی کامپیوتر است. از علاقه‌مندی‌های او، یادگیری ماشین و برنامه‌نویسی است و مطالب مرتبط با هوش مصنوعی و توسعه نرم‌افزار را در مجله فرادرس نگارش می‌کند.

مطالب مرتبط