یادگیری نظارت شده چیست؟ – به زبان ساده

فیلم آموزش یادگیری ماشین با پایتون – ماشین لرنینگ با Python

می‌توان هدف یادگیری نظارت شده را پیدا کردن یک تابع تخمینی دانست که الگوریتم‌های این رویکرد در طی روال آموزش بر اساس داده‌های آموزشی تابعی را پیدا می‌کنند که بهترین توصیف از نگاشت ویژگی‌ها به مقادیر هدف را ارائه می‌دهد (X -> y). در اکثر اوقات، الگوریتم‌های یادگیری ماشین نمی‌توانند تابع صحیحی را بیابند که همیشه مقادیر را به‌طور صحیح نگاشت کند زیرا این الگوریتم‌ها بر پایه یک سری فرضیات شکل می‌گیرند که نحوه یادگیری کامپیوتر از مسائل را توضیح می‌دهند و این فرضیه‌ها شامل یک سری بایاس (Bias) هستند.

بدین ترتیب، در حالت کلی می‌توان گفت در یادگیری نظارت شده، انسان به عنوان یک معلم در نظر گرفته می‌شود که به کامپیوتر یک سری داده آموزشی برچسب‌دار می‌دهد تا کامپیوتر بر اساس آن‌ها، رابطه بین مقادیر ورودی و خروجی را یاد بگیرد.

الگوریتم های نظارت شده چطور کار می کنند ؟

برای درک بهتر روال کار یادگیری الگوریتم‌های نظارت شده از یک مثال واضح کمک می‌گیریم. همان‌طور که گفتیم، برای آموزش الگوریتم‌های یادگیری نظارت شده به مجموعه‌ای از داده‌های برچسب‌دار احتیاج داریم. فرض کنید یک مجموعه تصاویر از اشکال هندسی داریم که داده‌های آموزشی ما هستند. برای هر یک از این تصاویر، برچسب آن‌ها را نیز مشخص کردیم. برچسب این مجموعه داده، شامل اسامی اشکال هندسی هستند.

پس از آماده‌سازی داده‌های آموزشی، از یک الگوریتم نظارت شده برای یادگیری رابطه بین داده‌های آموزشی و برچسب‌های آن‌ها استفاده می‌کنیم. پس از آموزش الگوریتم، از مدل نهایی می‌توانیم برای تشخیص برچسب داده‌های تست استفاده کنیم. داده‌های تست، داده‌هایی هستند که برچسب آن‌ها مشخص نیست و مدل آموزش دیده باید برچسب آن‌ها را بر اساس اطلاعات خود تعیین کند.

مراحل یادگیری الگوریتم های نظارت شده

می‌توان مراحل یادگیری الگوریتم‌های یادگیری نظارت شده را در چندین مرحله خلاصه کرد که در ادامه به این مراحل می‌پردازیم:

فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python – بخش یکم در فرادرس

با توجه به مسئله، نوع داده‌ها را تعیین کنید.
داده‌ها را جمع‌آوری و برچسب‌های آن‌ها را مشخص کنید.
داده‌ها را به سه بخش «داده آموزشی» (Training Data)، «داده‌های ارزیابی» (Validation Data) و «داده‌های تست» (Test Data) تقسیم کنید.
الگوریتم یادگیری نظارت شده مناسب را برای مسئله انتخاب کنید.
الگوریتم انتخاب شده را برای یادگیری مسئله بر روی داده‌های آموزشی اجرا و از داده‌های ارزیابی به منظور سنجش عملکر الگوریتم استفاده کنید.
پس از آموزش مدل، می‌توانید دقت عملکرد آن را بر روی داده‌های تست نیز بسنجید.

انواع مسائل یادگیری نظارت شده

از روش یادگیری نظارت شده برای حل دو نوع مسئله می‌توان استفاده کرد که در هر یک از این مسائل، نیاز به داده‌های آموزشی برچسب‌دار داریم. این دو نوع مسئله عبارت‌اند از:

مسائل «دسته‌بندی» (Classification) داده‌ها
مسائل «رگرسیون» (Regression)

در ادامه مطلب، به توضیح هر یک از این مسائل می‌پردازیم.

هدف از دسته بندی داده چیست؟

دسته‌بندی یکی از روش‌های یادگیری ماشین نظارت شده است که از آن برای تقسیم‌بندی داده‌ها در چند گروه از پیش تعیین شده توسط برنامه نویس و تحلیلگر داده استفاده می‌شود. می‌توان الگوریتم‌های یادگیری نظارت شده را برای پیش‌بینی مقادیر گسسته به کار برد. اگر این مقادیر شامل دو مقدار مانند مقادیر True و False و ۰ و ۱ یا Yes و No باشند، مسئله تعریف شده از نوع «دسته‌بندی باینری | دوتایی» (Binary Classification) است. چنانچه تعداد مقادیر هدف، بیش از دو تا باشند، مسئله تعریف شده از نوع مسائل «دسته‌بندی چند کلاسه» (Multiclass Classification) است.

فرض کنید مسئله‌ای داریم که می‌خواهیم بر اساس اطلاعات مشتریان بانک نظیر تاریخچه فعالیت‌ها، وام‌های دریافتی، مقدار سرمایه‌گذاری و مواردی از این قبیل تعیین کنیم آیا مشتری قصور در پرداخت بدهی خود خواهد داشت؟ این مسئله را می‌توانیم از نوع دسته‌بندی باینری در نظر بگیریم که پاسخ آن شامل دو مقدار Yes و No است. داده‌های آموزشی این مسئله شامل ویژگی‌ها و مقادیر هدف است:

ویژگی‌های داده آموزشی شامل اطلاعات مشتریان نظیر تاریخچه فعالیت‌ها، وام‌های دریافتی، مقدار سرمایه‌گذاری و اطلاعات دیگر است.
مقدار هدف، شامل مقادیر Yes و No است که مشخص می‌کند آیا مشتری قبلا در پرداخت بدهی خود قصور داشته است؟

مثالی از دسته بندی داده ها با استفاده از الگوریتم های با نظارت — مثالی از دسته‌بندی داده ها با استفاده از الگوریتم‌های با نظارت

از دیگر مثال‌های دسته‌بندی دودویی می‌توان به تشخیص ایمیل اسپم و ایمیل غیر اسپم اشاره کرد. الگوریتم یادگیری دسته‌بندی با استفاده از اطلاعاتی نظیر محتوای متن ایمیل، عنوان ایمیل و آدرس فرستنده و بررسی یک سری کلمات کلیدی در ایمیل مشخص می‌کند آیا ایمیل از نوع اسپم یا غیر اسپم است.

هدف از رگرسیون چیست ؟

رگرسیون شامل مسائلی از یادگیری نظارت شده است که مقادیر هدف آن‌ها از نوع پیوسته هستند. در این نوع مسائل، دست‌کم دو متغیر داریم که یکی از آن‌ها متغیر مستقل (ویژگی یا همان داده ورودی مدل) و دیگری متغیر وابسته (مقدار هدف یا خروجی مدل) است.

مسئله‌ای نظیر پیش‌بینی قیمت مسکن بر اساس مشخصات خانه مانند منطقه جغرافیایی، تعداد اتاق‌ها، پارکینگ و مواردی از این قبیل می‌تواند به عنوان مسئله رگرسیون تلقی شود. در این مثال، قیمت خانه متغیر وابسته و ویژگی‌های خانه، متغیرهای مستقل مسئله هستند.

تشخیص میزان رطوبت هوا نیز از دیگر مسائل رگرسیون محسوب می‌شود. می‌توان میزان رطوبت هوا را (به عنوان متغیر وابسته) بر اساس میزان دما (متغیر مستقل) پیش‌بینی کرد.

کاربرد روش های یادگیری نظارت شده

از روش‌های یادگیری ماشین با رویکرد با نظارت در طیف وسیعی از مسائل استفاده می‌شوند که در ادامه به برخی از آن‌ها اشاره می‌کنیم:

«مدیریت رابطه با مشتریان» (Customer Relationship Management | CRM): از روش‌های یادگیری ماشین نظارت شده در سیستم‌های CRM به منظور پیش‌بینی رفتار مشتریان استفاده می‌شوند. سازمان‌ها با کمک این الگوریتم‌ها می‌توانند سلایق و رفتار مشتریان را حدس بزنند و سطح رضایتمندی مشتری و در تبع آن، میزان سوددهی کسب و کار را بالا ببرند.
تشخیص کلاه‌برداری: الگوریتم‌های یادگیری با نظارت نقش مهمی در تشخیص کلاه‌برداری‌های مالی دارند. این مدل‌ها بر اساس داده‌های قدیمی، فعالیت‌ها و تراکنش‌های مشکوک مالی را شناسایی می‌کنند و بدین ترتیب با استفاده از آن‌ها می‌توان میزان جرائم مالی را به مراتب کاهش داد.
امتیازدهی اعتبار مشتریان بانک‌ها: بانک‌ها و موسسات مالی با کمک روش‌های یادگیری با نظارت می‌توانند خوش حسابی مشتریان خود را ارزیابی کنند و در مواردی نظیر تخصیص وام‌های مختلف به آن‌ها با دقت بیشتری تصمیم بگیرند.
«تحلیل احساسات» (Sentiment Analysis): صاحبان کسب و کار و مدیران سازمان‌ها می‌توانند از سیستم‌های تحلیل احساسات خودکار برای عقیده کاوی و تحلیل احساسات مخاطبان و مشتریان خود و پیشی گرفتن از سایر رقبای بازار جهانی استفاده کنند.
پردازش تصویر و تشخیص اشیا: مدل‌های یادگیری عمیق نظارت شده مانند «شبکه‌های عصبی پیچشی» (Convolutional Neural Networks | CNNs) و روش‌های یادگیری ماشین کاربرد مهمی در مسائل مرتبط با «بینایی ماشین» (Computer Vision) و پردازش تصاویر دارند. مسائلی نظیر تشخیص چهره، شناسایی محصولات و کنترل کیفیت در خط تولید کارخانه‌ها مواردی هستند که با روش‌های یادگیری نظارت شده قابل حل‌اند.
بازشناسی گفتار: از دیگر کاربردهای روش‌های یادگیری با نظارت می‌توان به بازشناسی گفتار و تبدیل گفتار به متن اشاره کرد. ابزارهایی نظیر دستیار صوتی هوشمند، پاسخ‌گویی خودکار تلفنی به مشتریان و ابزارهای تولیدکننده زیرنویس از جمله مثال‌هایی از بازشناسی گفتار هستند.
تشخیص بیماری: مدل‌های هوش مصنوعی نظارت شده را می‌توان بر روی تصاویر پزشکی زیادی نظیر تصاویر MRI و X-ray آموزش داد تا در تشخیص بیماری‌های مراجعه‌کنندگان نظیر سرطان به پزشکان کمک کنند. همچنین، برای درمان بیماران می‌توان بر اساس پیشینه بیماری و اطلاعات خاص هر بیمار، با کمک الگوریتم‌های یادگیری با نظارت راه درمان منحصربفردی را ارائه داد.
صنعت حمل و نقل: با کمک روش‌های یادگیری با نظارت و اطلاعاتی نظیر داده‌های مربوط به ترافیک و شرایط آب و هوا، می‌توان الگوی ترافیک سطح شهر را پیش‌بینی کرد و برنامه‌ریزی‌هایی را در این راستا انجام داد تا از میزان حجم ترافیک در سطح مسیرها کاسته شود. اتومبیل‌های خودران از دیگر سیستم‌هایی هستند که بر پایه الگوریتم‌های یادگیری با نظارت کار می‌کنند.

کاربردهای هوش مصنوعی – 20 کاربرد منحصر به فرد و جالب

فیلم آموزش یادگیری ماشین به زبان آر R در فرادرس

مزایای یادگیری نظارت شده

رویکرد یادگیری نظارت شده دارای مزیت‌های مختلفی است و در بسیاری از مسائل از الگوریتم‌های یادگیری این رویکرد استفاده می‌شود. در ادامه، به مهم‌ترین ویژگی‌های مثبت این رویکرد اشاره می‌کنیم:

پیش از آن که به پیاده‌سازی مدل‌های یادگیری نظارت شده بپردازیم، با توجه به اطلاعات مسئله، از دسته‌بندی داده‌ها اطلاعات دقیق داریم و می‌دانیم داده‌ها را بر اساس ویژگی‌هایشان در چه دسته‌هایی قرار می‌گیرند.
برای انواع کلاس‌های داده‌ها می‌توانیم دسته‌های مختلفی تعریف کنیم و محدودیتی برای تعداد کلاس‌های داده نداریم. هر چقدر تعداد کلاس‌های داده بیشتر باشد، داده‌ها را بر اساس اطلاعات جزئی‌تر و دقیق‌تر می‌توان دسته‌بندی کرد.
پس از اتمام مرحله آموزش مدل، نیازی به نگهداری داده‌های آموزشی در حافظه نیست.

مزایا و معایب الگوریتم های یادگیری نظارت شده

معایب یادگیری نظارت شده

با این که روش‌های یادگیری نظارت شده دارای ویژگی‌های مثبتی هستند و کاربرد زیادی در حل مسائل مختلف دارند، با این حال الگوریتم‌های این رویکرد دارای معایبی نیز هستند که در ادامه به آن‌ها می‌پردازیم:

روش یادگیری نظارت شده اطلاعات پنهان داده‌ها را همانند رویکرد یادگیری نظارت نشده به شما نمی‌دهد.
این الگوریتم‌ها نمی‌توانند داده‌ها را بر اساس کشف خودکار الگوهای داده‌ها، به‌طور خودکار در دسته‌های مختلف قرار دهند. دسته‌ها باید توسط برنامه نویس از قبل مشخص شده باشند.
اگر در مرحله تست، به الگوریتم‌های با نظارت داده‌ای به عنوان ورودی داده شود که بر اساس ویژگی‌هایش در هیچ یک از دسته‌های مدل نگنجد، مدل به اشتباه، آن داده را در یکی از دسته‌ها قرار می‌دهد. به عنوان مثال، فرض کنید مدل شما با مجموعه‌ای از تصاویر گربه و سگ آموزش داده شده است. اگر در زمان تست، تصویری از یک حیوان دیگر مانند زرافه را به مدل بدهیم، مدل به اشتباه این تصویر را در یکی از دو دسته گربه یا سگ قرار می‌دهد.
اگر در زمان آموزش، برای یکی از کلاس‌ها، داده آموزشی در اختیار نداشته باشیم و در زمان تست مدل، داده‌ای را از آن کلاس به عنوان ورودی به مدل بدهیم، ممکن است مدل نتواند کلاس داده را به‌درستی تشخص دهد. زیرا در زمان آموزش، داده‌ای برای آن کلاس در اختیار نداشته است تا بتواند ویژگی داده‌های آن دسته را نیز یاد بگیرد.
تهیه داده‌های مورد نیاز مدل‌های یادگیری با نظارت نیاز به هزینه زمانی و مالی زیاد دارد. اگر داده‌های آموزشی کمی برای این نوع مدل‌ها در اختیار داشته باشید، ممکن است برای حل مسئله به دقت مطلوب نرسید.
زمان محاسباتی الگوریتم‌های یادگیری با نظارت زیاد است. هر چقدر داده‌های آموزشی نیز بیشتر باشد، به مراتب، زمان پردازش و یادگیری الگوریتم‌ها نیز بیشتر خواهد شد.

الگوریتم های یادگیری نظارت شده برای دسته بندی

در این بخش از مطلب مجله فرادرس، به برخی از پرکاربردترین الگوریتم‌های یادگیری با نظارت می‌پردازیم که در ادامه، اسامی این الگوریتم‌ها را ملاحظه می‌کنید:

مسئله رگرسیون
- الگوریتم «رگرسیون خطی» (Linear Regression)
مسئله دسته‌بندی
- الگوریتم با نظارت «رگرسیون لجستیک» (Logistic Regression)
- مدل «درخت تصمیم» (Decision Tree)
- الگوریتم «K نزدیک‌ترین همسایگی» (K Nearest Neighbor)
- مدل «جنگل تصادفی» (Random Forest)

پیاده سازی الگوریتم های یادگیری ماشین با پایتون و R — به زبان ساده

در ادامه، به توضیح کاربرد هر یک از الگوریتم‌های ذکر شده در بالا می‌پردازیم و برای هر یک از آن‌ها مثالی از قطعه کدهای برنامه نویسی ارائه خواهیم کرد که با استفاده از زبان برنامه نویسی پایتون پیاده‌سازی شده‌اند.

الگوریتم یادگیری نظارت شده رگرسیون خطی

الگوریتم رگرسیون خطی، مدل ساده‌ای است که هدف آن یافتن بهترین رابطه خطی بین ویژگی‌های ورودی و متغیر هدف است. به عنوان مثال، فرض کنید یک مجموعه داده در مورد سن یک سری از افراد و حقوق دریافتی آن‌ها را در اختیار دارید. با استفاده از مدل رگرسیون خطی می‌توانید حقوق دریافتی افراد را بر اساس سن آن‌ها تعیین کنید.

الگوریتم رگرسیون خطی را می‌توان بر اساس تعداد متغیرهای مستقل و وابسته به دو نوع تقسیم‌بندی کرد. در مسائلی که تنها یک متغیر وابسته و یک متغیر مستقل داریم، از رگرسیون خطی ساده استفاده می‌کنیم. مسائلی که دارای چندین متغیر مستقل و چندین متغیر وابسته هستند، با الگوریتم رگرسیون خطی چندگانه قابل پیاده‌سازی هستند. درک این الگویتم و نحوه پیاده‌سازی آن ساده است و عملکرد خوبی برای داده‌های وابسته خطی دارد. چالش «بیش برازش» (Overfitting) از مهم‌ترین معایب این مدل محسوب می‌شود.

رگرسیون خطی در یادگیری ماشین — از صفر تا صد + کد

در ادامه، قطعه کدی از زبان برنامه نویسی پایتون را ملاحظه می‌کنید که برای پیاده‌سازی مسئله رگرسیون خطی ارائه شده است. در این قطعه کد، از یکی از دیتاست‌های کتابخانه Sklearn استفاده شده است که اطلاعات خانه‌های شهر بوستون و قیمت آن‌ها را شامل می‌شود. هدف از این مسئله، پیدا کردن رابطه خطی بین ویژگی‌های خانه‌ها و قیمت‌های آن‌ها است.

1import sklearn.datasets as datasets
2from sklearn.model_selection import train_test_split
3from sklearn.linear_model import LinearRegression
4import sklearn.metrics as metrics
5
6house = datasets.load_boston()
7
8print("The data shape of house is {}".format(house.data.shape))
9print("The number of feature in this data set is {}".format(
10    house.data.shape[1]))
11
12train_x, test_x, train_y, test_y = train_test_split(house.data,
13                                                    house.target,
14                                                    test_size=0.2,
15                                                    random_state=42)
16
17print("The first five samples {}".format(train_x[:5]))
18print("The first five targets {}".format(train_y[:5]))
19print("The number of samples in train set is {}".format(train_x.shape[0]))
20print("The number of samples in test set is {}".format(test_x.shape[0]))
21
22lr = LinearRegression()
23lr.fit(train_x, train_y)
24
25pred_y = lr.predict(test_x)
26print("The first five prediction {}".format(pred_y[:5]))
27print("The real first five labels {}".format(test_y[:5]))
28
29mse = metrics.mean_squared_error(test_y, pred_y)
30print("Mean Squared Error {}".format(mse))

خروجی قطعه کد بالا را در ادامه ملاحظه می‌کنید:

The data shape of house is (506, 13)
The number of feature in this data set is 13
The first five samples [[1.50234e+01 0.00000e+00 1.81000e+01 0.00000e+00 6.14000e-01 5.30400e+00
  9.73000e+01 2.10070e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.49480e+02
  2.49100e+01]
 [6.27390e-01 0.00000e+00 8.14000e+00 0.00000e+00 5.38000e-01 5.83400e+00
  5.65000e+01 4.49860e+00 4.00000e+00 3.07000e+02 2.10000e+01 3.95620e+02
  8.47000e+00]
 [3.46600e-02 3.50000e+01 6.06000e+00 0.00000e+00 4.37900e-01 6.03100e+00
  2.33000e+01 6.64070e+00 1.00000e+00 3.04000e+02 1.69000e+01 3.62250e+02
  7.83000e+00]
 [7.05042e+00 0.00000e+00 1.81000e+01 0.00000e+00 6.14000e-01 6.10300e+00
  8.51000e+01 2.02180e+00 2.40000e+01 6.66000e+02 2.02000e+01 2.52000e+00
  2.32900e+01]
 [7.25800e-01 0.00000e+00 8.14000e+00 0.00000e+00 5.38000e-01 5.72700e+00
  6.95000e+01 3.79650e+00 4.00000e+00 3.07000e+02 2.10000e+01 3.90950e+02
  1.12800e+01]]
The first five targets [12.  19.9 19.4 13.4 18.2]
The number of samples in train set is 404
The number of samples in test set is 102
The first five prediction [29.00108503 36.03180934 14.82255381 25.03889584 18.7617758 ]
The real first five labels [23.6 32.4 13.6 22.8 16.1]
Mean Squared Error 24.311426929693507

مدل یادگیری با نظارت رگرسیون لاجستیک

مدل رگرسیون لاجستیک یکی از مدل‌های رگرسیون محسوب می‌شود که می‌توان از آن برای مسائل دسته‌بندی دو کلاسه استفاده کرد. با استفاده از تابع احتمالاتی به کار رفته در این مدل، می‌توان میزان احتمال رخ‌داد داده‌ها در یکی از دو کلاس تعریف شده را مشخص کرد. مسائلی نظیر تشخیص ایمیل‌های اسپم و تحلیل احساسات بر اساس دو نظر مثبت و منفی با استفاده از رگرسیون لاجستیک قابل پیاده‌سازی هستند.

در ادامه، قطعه کدی از زبان برنامه نویسی پایتون را ملاحظه می‌کنید که برای پیاده‌سازی مسئله رگرسیون لاجستیک با رویکرد یادگیری نظارت شده ارائه شده است. در این قطعه کد، از یکی از دیتاست‌های کتابخانه Sklearn استفاده شده و هدف مسئله دسته‌بندی داده‌ها در دو کلاس مختلف است.

1#Importing the necessary libraries 
2import numpy as np
3from sklearn.datasets import load_wine 
4from sklearn.model_selection import train_test_split
5from sklearn.linear_model import LogisticRegression 
6from sklearn.metrics import confusion_matrix, accuracy_score 
7
8# Importing the dataset from the sklearn library into a local variable called dataset
9dataset = load_wine()
10
11# Splitting the data test into train 80% and test 20%.
12# x_train, y_train are training data and labels respectively 
13# x_test, y_test are testing data and labels respectively 
14x_train, x_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.20, random_state=15)
15
16# Making the logistic regression model
17logistic_model = LogisticRegression()
18
19# Training the model on the training data and labels
20logistic_model.fit(x_train, y_train)
21
22# Using the model to predict the labels of the test data
23y_pred = logistic_model.predict(x_test)
24
25# Evaluating the accuracy of the model using the sklearn functions
26accuracy = accuracy_score(y_test,y_pred)*100
27confusion_mat = confusion_matrix(y_test,y_pred)
28
29# Printing the results
30print("Accuracy is",accuracy)
31print("Confusion Matrix")
32print(confusion_mat)

خروجی دستورات بالا را در ادامه ملاحظه می‌کنید:

Accuracy is 94.44444444444444
Confusion Matrix
[[11  1  0]
 [ 0 12  0]
 [ 0  1 11]]

مدل یادگیری درخت تصمیم چیست؟

الگوریتم درخت تصمیم یکی از الگوریتم‌های احتمالاتی یادگیری ماشین با رویکرد نظارت شده است. ساختار این الگوریتم شبیه به درخت است و داده‌ها در هر سطح از شاخه‌های درخت بر اساس یک سری پرسش از هم تفکیک می‌شوند.

به عنوان مثال، اگر مجموعه‌ای از تصاویر پرندگان را در اختیار داشته باشید و بخواهید آن‌ها را بر اساس ویژگی ظاهری‌شان به دسته‌های مختلف تقسیم کنید، با استفاده از روش درخت تصمیم می‌توانید برای هر سطح از درخت پرسش‌هایی نظیر اندازه پرنده، توانایی پرواز کردن، توانایی شنا کردن و ویژگی‌هایی از این قبیل تعریف کنید تا بر اساس این پرسش‌ها، تصاویر در دسته‌های مجزا قرار بگیرند.

مدل درخت تصمیم بر خلاف سایر الگوریتم‌های یادگیری ماشین به داده‌های آموزشی زیادی احتیاج ندارند و درک روال کار این مدل ساده است. البته این مدل پایداری خوبی ندارد و با اعمال تغییر کوچک در داده‌های آموزشی، عملکرد مدل برای پیش‌بینی مقدار خروجی تا حد زیادی تغییر خواهد کرد. بیش برازش نیز از دیگر معایب این مدل یادگیری ماشین محسوب می‌شود.

درخت تصمیم با پایتون — راهنمای کاربردی

در ادامه، قطعه کدی از زبان برنامه نویسی پایتون را ملاحظه می‌کنید که برای پیاده‌سازی مسئله دسته‌بندی با استفاده از درخت تصمیم ارائه شده است. در این قطعه کد، از یکی از دیتاست‌های کتابخانه Sklearn استفاده شده است.

1# Load libraries
2import pandas as pd
3from sklearn.tree import DecisionTreeClassifier # Import Decision Tree Classifier
4from sklearn.model_selection import train_test_split # Import train_test_split function
5from sklearn import metrics #Import scikit-learn metrics module for accuracy calculation
6
7col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
8# load dataset
9pima = pd.read_csv("diabetes.csv", header=None, names=col_names)
10
11#split dataset in features and target variable
12feature_cols = ['pregnant', 'insulin', 'bmi', 'age','glucose','bp','pedigree']
13X = pima[feature_cols] # Features
14y = pima.label # Target variable
15
16# Split dataset into training set and test set
17X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1) # 70% training and 30% test
18
19# Create Decision Tree classifer object
20clf = DecisionTreeClassifier()
21
22# Train Decision Tree Classifer
23clf = clf.fit(X_train,y_train)
24
25#Predict the response for test dataset
26y_pred = clf.predict(X_test)
27
28# Model Accuracy, how often is the classifier correct?
29print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

خروجی مثال مسئله دسته‌بندی بالا را در ادامه ملاحظه می‌کنید:

Accuracy: 0.6753246753246753

الگوریتم یادگیری با نظارت K نزدیک ترین همسایه

الگوریتم یادگیری نظارت شده K نزدیک‌ترین همسایه مدلی است که بر پایه نمونه‌های آموزشی درباره کلاس داده‌های جدید تصمیم می‌گیرد. فرض کنید دیتاستی از اطلاعات مشتریان و سلایق خرید آن‌ها در اختیار دارید. با استفاده از این الگوریتم می‌توانید درباره سلیقه خرید مشتری جدید نیز آگاه شوید. این الگوریتم K تا از مشتریان موجود در دیتاست را انتخاب می‌کند که اطلاعاتشان مشابه با مشخصات مشتری جدید است و سپس کلاس آن‌ها را به عنوان کلاس مشتری جدید در نظر می‌گیرد.

پیاده سازی الگوریتم KNN با پایتون — راهنمای کاربردی