یادگیری ماشین با پایتون — به زبان ساده (+ دانلود فیلم آموزش گام به گام)

۱۳۷۷ بازدید

آخرین به‌روزرسانی: ۲۲ اسفند ۱۴۰۲

زمان مطالعه: ۳۶ دقیقه

یادگیری ماشین با پایتون — به زبان ساده (+ دانلود فیلم آموزش گام به گام)

با گسترش استفاده از «یادگیری ماشین» (Machine Learning) در صنایع گوناگون، نیاز به ابزاری که بتواند به فرد برای انجام فرایندهای مختلف کمک کند به امری حیاتی مبدل شده است. «زبان برنامه‌نویسی پایتون» (Python Programming Language)، یک ستاره درخشان در آسمان فناوری یادگیری ماشین است که اغلب، هم برای پروژه‌های تحقیقاتی و هم پروژه‌های عملیاتی، اولین انتخاب بسیاری از افراد محسوب می‌شود. بنابراین، فراگیری یادگیری ماشین با پایتون، بسیار ساده و البته لذت‌بخش است. در این مطلب، با یک بررسی موردی، به افرادی که به دنیای یادگیری ماشین علاقمند هستند نشان داده خواهد شد که چگونه می‌توانند یک مساله را از صفر تا صد با پایتون حل کنند.

فهرست مطالب این نوشته

یادگیری ماشین با پایتون

مقدمه‌ای بر یادگیری ماشین با پایتون

پروژه‌های یادگیری ماشین با پایتون

تشخیص افراد نجات یافته از کشتی تایتانیک

فیلم آموزشی یادگیری ماشین با پایتون

دانلود ویدیو

مقدمه‌ای بر یادگیری ماشین با پایتون

دلیل محبوبیت و استفاده زیاد از پایتون برای مسائل یادگیری ماشین در چیست؟ پایتون یکی از ساده‌ترین زبان‌های برنامه‌نویسی برای فراگیری محسوب می‌شود.

فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python – بخش یکم در فرادرس

کلیک کنید

در پروژه‌های یادگیری ماشین، معمولا نیاز به سرعت بخشیدن به فرایند است و با توجه به اینکه کارشناس داده می‌تواند به سرعت از زبان پایتون برای پروژه‌های عملی استفاده کند، نیازی به تخصیص زمان زیاد برای یادگیری زبان برنامه‌نویسی ندارد. برای کسب درک بهتری پیرامون میزان سادگی پایتون، به مثال زیر توجه کنید.

1for anything in the_list:
2    print(anything)

«نحو» (Syntax) زبان برنامه‌نویسی پایتون، به زبان انگلیسی (و در واقع زبان انسانی، نه زبان ماشین) بسیار نزدیک است؛ از دیگر ویژگی‌های این زبان می‌توان به عدم نیاز به استفاده از کروشه‌هایی که انسان را هنگام نوشتن برنامه گیج می‌کنند اشاره کرد. نقطه قوت دیگر پایتون، کتابخانه‌های متعددی است که برای انجام محاسبات، الگوریتم‌های یادگیری ماشین و دیگر فعالیت‌های لازم طی یک پروژه، دارد.

کتابخانه‌هایی که در ادامه بیان می‌شوند، از شاهکارهای پایتون هستند که به دانشمندان داده، کارشناسان یادگیری ماشین و دیگر افراد فعال در حوزه علم داده، برای تکمیل وظایف خودشان کمک می‌کنند. به طور کلی باید گفت که کتابخانه‌های متعدد و با توانمندی‌های قابل توجهی برای پایتون وجود دارند که استفاده از آن‌ها برای پروژه‌های یادگیری ماشین الزامی است.

پیش از ادامه این مبحث لازم است یادآور شویم که می‌توانید یادگیری ماشین در پایتون را با استفاده از مجموعه آموزش یادگیری ماشین در پایتون، مقدماتی تا پیشرفته فرادرس یاد بگیرید.

۱. نام‌پای (NumPy)

«نام‌پای» (Numpy)، یک کتابخانه معروف برای انجام تحلیل‌های عددی است. این کتابخانه به کاربر برای انجام کارهای متعدد از محاسبه میانه و توزیع داده‌ها گرفته تا پردازش آرایه‌های چندبُعدی کمک می‌کند.

فیلم آموزش کتابخانه های NumPy و Matplotlib در پایتون در فرادرس

کلیک کنید

۲. پانداس (Pandas)

برای پردازش یک فایل CSV، می‌توان از کتابخانه «پانداس» (Pandas) استفاده کرد. البته، در این راستا کاربر نیاز به پردازش چندین جدول و مشاهده آمارهای مربوط به آن‌ها دارد.

فیلم آموزش پانداس pandas برای تحلیل اطلاعات در پایتون در فرادرس

کلیک کنید

۳. مت‌پلات‌لیب (Matplotlib)

پس از آنکه کاربر داده‌ها را با بهره‌گیری از کتابخانه Pandas به صورت «دیتافریم» (Data Frame) ذخیره کرد، برای درک داده‌های موجود به برخی از روش‌های بصری‌سازی نیاز خواهد داشت. تصاویر، معمولا بهتر و گویاتر از خود داده‌ها هستند (به ویژه برای ذینفعان نهایی که ممکن است دارای تخصص‌های گوناگونی باشند و آمارهای عددی و تحلیل‌های متنی نمی‌توانند گزینه‌های خوبی برای ارائه خروجی به آن‌ها باشند). «مت‌پلات‌لیت» (Matplotlib)، کتابخانه‌ای قدرتمند برای بصری‌سازی داده‌ها است که می‌توان با بهره‌گیری از آن، نمودارهای گوناگون را ترسیم کرد.

فیلم آموزش کتابخانه Matplotlib برای ترسیم و بصری سازی داده ها در پایتون در فرادرس

کلیک کنید

۴. سیبورن (Seaborn)

این کتابخانه نیز ابزار دیگری است برای انجام بصری‌سازی‌ها، با این تفاوت که تمرکز بیشتری روی بصری‌سازی‌های آماری دارد. مواردی مانند «بافت‌نگار» (هیستوگرام | Histogram)، «نمودار دایره‌ای» (Pie Chart)، «منحنی‌ها» (Curves) و یا «جداول همبستگی» (Correlation Tables) از جمله مواردی هستند که با بهره‌گیری از این کتابخانه می‌توان آن‌ها را پیاده‌سازی کرد.

۵. سایکیت‌لِرن (Scikit-Learn)

کتابخانه «سایکیت‌لرن» (Scikit-Learn)، یکی از قدرتمندترین کتابخانه‌های یادگیری ماشین با پایتون است. این کتابخانه هر آنچه که برای پیاده‌سازی و بهبود الگوریتم‌های یادگیری ماشین مورد نیاز است را فراهم می‌کند.

۶. تنسورفلو (Tensorflow) و پای‌تورچ (Pytorch)

تنسورفلو (Tensorflow) و پای‌تورچ (Pytorch)، کتابخانه‌های رایگان و متن‌بازی (Open Source) هستند که کاربردهای گوناگونی را در یادگیری ماشین دارند. از این کتابخانه‌ها برای پیاده‌سازی‌های مربوط به «شبکه‌های عصبی» (Neural Networks) و به ویژه «یادگیری عمیق» (Deep Learning) و همچنین محاسبات «تانسورها» (Tensors) استفاده می‌شود.

پروژه‌های یادگیری ماشین با پایتون

قطعا، مطالعه صرف نمی‌تواند به فرد کمک کند که در زمینه کاری خود توانمند شود. افراد در هر زمینه‌ای که تمایل به کسب مهارت در آن داشته باشند، باید علاوه بر مطالعه و تحقیق، تمرین و پروژه‌های عملی داشته باشند و به کسب تجربه در آن حوزه بپردازند. در بحث یادگیری ماشین، مادامی که فرد در میان داده‌ها شیرجه نزند و با آن‌ها کار نکند، نمی‌تواند بر این حوزه تسلط کافی پیدا کند و بنابراین، نمی‌تواند پروژه‌ها یا فرصت‌های شغلی خوبی به دست بیاورد.

فیلم آموزش اصول ساخت پروژه یادگیری ماشین در فرادرس

کلیک کنید

«کگل» (Kaggle) پلتفرمی است که می‌توان با استفاده از آن، مستقیما به سراغ داده‌ها رفت و با آن‌ها کار کرد. در این سایت می‌توان با پروژه‌ها و مسائل گوناگون آشنا شد و به حل آن‌ها پرداخت. چیز دیگری که شاید اغوا کننده‌تر به نظر برسد این است که رقابت‌هایی که در کگل برگزار می‌شوند جوایز گوناگونی دارند و رقم جایزه برخی از آن‌ها به ۱۰۰,۰۰۰ دلار نیز می‌رسد. اما، مهم‌ترین مساله در این وهله (و در مرحله یادگیری) پول نیست، زیرا در صورتی که فرد به این حوزه مسلط باشد می‌تواند پروژه‌های متعددی با درآمدهای خوب و فرصت‌های شغلی با شرایط عالی پیدا کند. آنچه یک فرد تازه وارد در حوزه کار با داده به آن نیاز دارد، یادگیری و کسب تجربه است، البته لذت مسابقه دادن و برنده شدن جایزه را نمی‌توان انکار کرد. در ادامه، یک بررسی موردی انجام شده و طی آن یک مساله یادگیری ماشین با پایتون حل شده است.

تشخیص افراد نجات یافته از کشتی تایتانیک

در اینجا صحبت از کشتی تایتانیک معروف و حادثه‌ای است که برای آن رخ داد. در فاجعه تایتانیک که در سال ۱۹۱۲ رخ داد، ۱۵14 نفر از ۲۲۲۴ مسافر و خدمه این کشتی، جان خود را از دست دادند. رقابت کگل تایتانیک (و یا به عبارتی راهنمای آموزشی)، داده‌های حقیقی پیرامون این حادثه تلخ را در اختیار عموم قرار می‌دهد. وظیفه کاربر در این وهله آن است که از این داده‌ها برای پیش‌بینی این موضوع استفاده کند که آیا یک شخص خاص در این حادثه جان سالم به در برده است یا خیر.

فیلم آموزش یادگیری ماشین با پایتون – ماشین لرنینگ با Python در فرادرس

کلیک کنید

یادگیری ماشین با پایتون

پیش از عمیق شدن در داده‌های تایتانیک، ابتدا باید ابزارهای مورد نیاز برای حل مساله را نصب کرد. در گام اول، نیاز به نصب پایتون است. پایتون را می‌توان از وب‌سایت رسمی آن [+] دانلود و نصب کرد. برای آنکه نسخه‌ای از پایتون که توسط کاربر نصب می‌شود با نسخه جدید کتابخانه‌های پایتون سازگار باشد، توصیه می‌شود پایتون نسخه ۳.۶ به بالا نصب شود. پس از آن، باید کتابخانه‌های مورد نیاز را با pip نصب کرد. pip باید به طور خودکار، همراه با توزیعی از پایتون که کاربر دانلود کرده است، نصب شود. برای نصب مواردی که کاربر نیاز دارد با استفاده از pip، باید «ترمینال» (Terminal)، «خط فرمان» (Command Line) یا «پاورشل» (Powershell) را باز و دستورات زیر را وارد کرد.

1pip install numpy
2pip install pandas
3pip install matplotlib
4pip install seaborn
5pip install scikit-learn
6pip install jupyter

اکنون به نظر می‌رسد که مقدمات کار به خوبی آماده شده‌اند. همانطور که در کد بالا مشهود است، «ژوپیتر» (Jupyter) نیز نصب شده است. ژوپیتر یک نوت‌بوک محبوب است که می‌توان کدهای پایتون را در آن به صورت تعاملی نوشت. برای باز کردن ژوپیتر، تنها کافی است که در ترمینال، jupyter notebook را وارد کرد. پس از آن، یک صفحه مرورگر وب مانند تصویر زیر باز می‌شود.

یادگیری ماشین با پایتون

کد را می‌توان به صورت تعاملی درون مربع سبزرنگ نوشت و ارزیابی کرد. اکنون که همه ابزارها نصب شده‌اند، می‌توان به ادامه کار پرداخت.

اکتشاف داده

اولین گام برای کاوش، اکتشاف داده‌ها است. در همین راستا، نیاز به دانلود کردن داده‌های مورد استفاده در این مثال، از طریق صفحه مجموعه داده تایتانیک در کگل [+] وجود دارد. سپس، باید داده‌های استخراج شده را درون پوشه‌ای قرار داد که نوت‌بوک ژوپیتر آغاز شده است. در این مرحله، باید کتابخانه‌های لازم را «وارد» (ایمپورت) کرد.

1import numpy as np 
2import pandas as pd
3import matplotlib.pyplot as plt
4import seaborn as sns
5import warnings
6warnings.filterwarnings('ignore')
7%matplotlib inline

سپس، باید داده‌ها را بارگذاری کرد.

1train_df=pd.read_csv("train.csv")
2train_df.head()

خروجی، چیزی شبیه تصویر زیر خواهد بود.

یادگیری ماشین با پایتون

آنچه در تصویر بالا وجود دارد، نمونه‌ای از داده‌های مجموعه داده تایتانیک هستند. ستون‌های زیر در مجموعه داده وجود دارند.

PassengerId: شماره شناسایی مسافران
Survived: وضعیت زنده ماندن یا نماندن فرد
Pclass: کلاس خدماتی که فرد برای آن بلیط گرفته است. در اینجا، «۱» کلاس اقتصادی، «۲» کلاس تجاری و «۳» درجه یک است.
Name: نام مسافر
Gender: جنسیت مسافر
Age: سن مسافر
Sibsp یا siblings and spouses: تعداد اعضای خانواده (همسر، خواهران و برادران) مسافر در کشتی
Parch یا parents and children: تعداد والدین و فرزندان حاضر در کشتی (برای یک شخص حاضر در کشتی) مسافر
Ticket: جزئیات بلیط مسافر
Cabin: اطلاعات کابین مسافر، وجود NaN در این قسمت، به معنای ناشناخته است.
Embarked یا محل مسافرگیری: S برای ساوت‌همپتون (Southampton) و Q برای «کویینزتاون» (Queenstown) و C برای «شربورگ» (Cherbourg)

هنگام کاوش داده‌ها، معمولا «داده‌های ناموجود» یا «داده‌های گمشده» (Missing Data) پیدا می‌شوند. برای کشف این داده‌ها در مجموعه داده تایتانیک، از قطعه کد زیر استفاده شده است.

1def missingdata(data):
2    total = data.isnull().sum().sort_values(ascending = False)
3    percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False)
4    ms=pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
5    ms= ms[ms["Percent"] > 0]
6    f,ax =plt.subplots(figsize=(8,6))
7    plt.xticks(rotation='90')
8    fig=sns.barplot(ms.index, ms["Percent"],color="green",alpha=0.8)
9    plt.xlabel('Features', fontsize=15)
10    plt.ylabel('Percent of missing values', fontsize=15)
11    plt.title('Percent missing data by feature', fontsize=15)
12    return ms
13missingdata(train_df)

خروجی، تصویری مانند زیر خواهد بود.

کابین، سن و داده‌های محل مسافرگیری (محل سوار شدن مسافرها) دارای مقادیر ناموجود هستند. اطلاعات کابین، دارای مقادیر ناموجود بسیار زیادی است. برای چنین مقادیر ناموجودی (گم شده)، باید فکری کرد. به این فرایند، «پاکسازی داده‌ها» (Data Cleaning) گفته می‌شود.

پاک‌سازی داده‌ها

پیش‌پردازش داده‌ها بخش مهمی از فرایند «داده‌کاوی» (Data Cleaning) است. هنگامی که داده‌ها پاک‌سازی شد، می‌توان بدون نگرانی از هر چیزی، به گام بعدی رفت. یکی از گام‌های متداولی که طی فرایند پاکسازی داده‌ها برداشته می‌شود، «جایگذاری مقادیر ناموجود» است. هیچ قاعده مشخصی برای انجام این کار وجود ندارد و راهکارهای گوناگونی تاکنون برای آن ارائه شده‌اند که هر یک مزایب و معایب خود را دارند.

فیلم آموزش تجزیه و تحلیل و آماده سازی داده ها با پایتون Python در فرادرس

کلیک کنید

گاه می‌توان با آزمودن راهکارهای گوناگون و سنجش کارایی آن‌ها برای یک مساله خاص، بهتری رویکرد را برگزید. به عنوان یک قاعده سرانگشتی، این نکته را نباید فراموش کرد که برای داده‌های «طبقه‌ای» (Categorized)، تنها از «مُد» (Mode) و از میانه یا میانگین برای داده‌های پیوسته می‌توان استفاده کرد. با توجه به اینکه embarkation مقادیر طبقه‌ای دارد، از مد برای پیدا کردن مقادیر ناموجود آن استفاده می‌شود. همچنین، از میانه برای پر کردن مقادیر ناموجود Age استفاده می‌شود.

1train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace = True)
2train_df['Age'].fillna(train_df['Age'].median(), inplace = True)

مساله بعدی، حذف داده‌ها برای مواردی است که مقادیر ناموجود زیادی دارند. برای مثال، در این مجموعه داده، cabin دارای مقادیر ناموجود زیادی است. بنابراین، ستون آن به طور کامل حذف می‌شود (البته به طور کلی، راهکار حذف نمونه‌ها یا ویژگی‌هایی که دارای مقادیر از دست رفته هستند توصیه نمی‌شود. چون بدین شکل ممکن است اطلاعات مهمی از دست بروند. بنابراین، توصیه کلی آن است که از انجام چنین کاری حدالمقدور اجتناب شود).

1drop_column = ['Cabin']
2train_df.drop(drop_column, axis=1, inplace = True)

اکنون، می‌توان داده‌های پاکسازی شده را بررسی کرد.

1print('check the nan value in train data')
2print(train_df.isnull().sum())

مساله مقادیر ناموجود به خوبی حل شده و همانطور که در تصویر بالا نیز می‌توان مشاهده کرد هیچ داده ناموجودی پیدا نشده است. این یعنی داده‌ها پاک‌سازی شده‌اند.

مهندسی ویژگی‌ها

اکنون که داده‌ها پاک‌سازی شدند، گام بعدی که باید انجام شود «مهندسی ویژگی‌ها» (Feature Engineering) است. مهندسی ویژگی‌ها، روشی برای پیدا کردن مناسب‌ترین ویژگی‌ها یا داده‌ها برای حل مساله، از میان داده‌های کنونی موجود است. راهکارهای متعددی برای انجام این کار وجود دارند، البته بر فراز همه این روش‌ها، عقل سلیم است. در ادامه، نگاهی به داده‌های مسافرگیری انداخته می‌شود.

فیلم آموزش مبانی انتخاب ویژگی Feature Selection در داده کاوی در فرادرس

کلیک کنید

این بخش با S ،Q یا C پر شده‌اند. اغلب کتابخانه‌‌های پایتون، تنها قادر به پردازش اعداد و نوع داده‌های عددی هستند. بنابراین، برای حل این مشکل و تبدیل کردن داده‌های طبقه‌ای به عددی، نیاز به انجام کاری است که به آن روش کدبندی وان هات (One Hot Encoding) گفته می‌شود. با بهره‌گیری از این روش، یک ستون به سه ستون تبدیل می‌شود. این ستون‌ها Embarked_S ،Embarked_Q و Embarked_C نامیده شده‌اند و با مقادیر ۰ و ۱ پر می‌شوند . مقدار ۱ در یک فیلد بدین معنا است که فرد در آن بندر سوار شده و مقدار صفر یعنی در آن بندر سوار نشده است.

مثال‌های دیگر در همین رابطه، SibSp و Parch هستند. شاید هیچ چیز جالبی در این دو ستون وجود نداشته باشد، اما بدین شکل می‌توان فهمید خانواده‌هایی که در کشتی حضور داشتند چقدر بزرگ بوده‌اند. ممکن است به نظر برسد که اگر خانواده بزرگ‌تر بوده باشد، شانس نجات یافتن اعضای آن نیز بیشتر است. زیرا اعضای خانواده می‌توانند به یکدیگر کمک کنند. این در حالی است که افراد تنها، چنین شانسی ندارند. بنابراین، ستون دیگری ساخته می‌شود با عنوان family size که شامل sibsp + parch + 1 است (خود مسافران).

آخرین مورد، «ستون‌های دسته‌بندی» (bin columns) است. این روش برای ساخت دسته‌هایی از مقادیر، برای گروه‌بندی چندین چیز در کنار هم است. زیرا به نظر می‌رسد که متمایز کردن چیزهایی با مقادیر یکسان یا بسیار نزدیک به هم، دشوار باشد. برای مثال، برای کسانی که ۵ و ۶ سال دارند، آیا تفاوت قابل توجهی وجود دارد؟ یا در میان افرادی که ۴۵ و ۴۶ سال دارند، آیا تفاوت خاصی وجود دارد؟ به همین دلیل است که ستون‌های دسته‌ها (bin) ساخته می‌شوند. در اینجا، برای سن چهار دسته ساخت می‌شود که عبارتند از: بچه (۰ تا ۱۴ سال)، نوجوان (۱۴ تا ۲۰ سال)، بزرگسال (۲۰ تا ۴۰ سال) و کهنسال (بالای ۴۰ سال). کد لازم برای این کار در ادامه آمده است.

1all_data = train_df
2for dataset in all_data :
3    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
4import re
5# Define function to extract titles from passenger names
6def get_title(name):
7    title_search = re.search(' ([A-Za-z]+)\.', name)
8    # If the title exists, extract and return it.
9    if title_search:
10        return title_search.group(1)
11    return ""
12# Create a new feature Title, containing the titles of passenger names
13for dataset in all_data:
14    dataset['Title'] = dataset['Name'].apply(get_title)
15# Group all non-common titles into one single grouping "Rare"
16for dataset in all_data:
17    dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 
18                                                 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
19dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
20    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
21    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')
22for dataset in all_data:
23    dataset['Age_bin'] = pd.cut(dataset['Age'], bins=[0,14,20,40,120], labels=['Children','Teenage','Adult','Elder'])
24for dataset in all_data:
25    dataset['Fare_bin'] = pd.cut(dataset['Fare'], bins=[0,7.91,14.45,31,120], labels ['Low_fare','median_fare', 'Average_fare','high_fare'])
26                                                                                
27traindf=train_df
28for dataset in traindf:
29    drop_column = ['Age','Fare','Name','Ticket']
30    dataset.drop(drop_column, axis=1, inplace = True)
31drop_column = ['PassengerId']
32traindf.drop(drop_column, axis=1, inplace = True)
33traindf = pd.get_dummies(traindf, columns = ["Sex","Title","Age_bin","Embarked","Fare_bin"],
34                             prefix=["Sex","Title","Age_type","Em_type","Fare_type"])

اکنون که اقدامات لازم برای همه ویژگی‌ها به پایان رسید، همبستگی ویژگی‌ها به یکدیگر مورد بررسی قرار می‌گیرد.

1sns.heatmap(traindf.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
2fig=plt.gcf()
3fig.set_size_inches(20,12)
4plt.show()

همبستگی با مقدار ۱ بدین معنا است که ویژگی‌ها به شدت با یکدیگر هم‌بسته هستند و با مقدار ۱- بدین معنا است که به شکل منفی با هم هم‌بسته هستند. برای مثال، جنسیت زن و جنسیت مرد به طور منفی با هم هم‌بسته هستند، زیرا مسافران در یکی از این دو دسته قرار می‌گیرند. به جز ویژگی بیان شده، می‌توان مشاهده کرد که هیچ چیزی به شدت مرتبط به دیگری نیست، به جز مواردی که با مهندسی ویژگی‌ها ساخته شده بودند. این یعنی کار مهندسی ویژگی‌ها به درستی انجام شده است. پرسشی که در این وهله مطرح می‌شود این است که اگر یک ویژگی به شدت مرتبط به دیگری باشد، چه می‌شود؟ در پاسخ به این پرسش باید گفت که می‌توان یکی از آن‌ها را حذف کرد؛ زیرا اطلاعات جدیدی را به سیستم ارائه نمی‌کند. دلیل این امر، یکی بودن اطلاعات هر دو آن‌ها است.

مدل یادگیری ماشین با پایتون

اکنون، نقطه اوج کار از راه رسیده است. ساخت مدل یادگیری ماشین با پایتون.

1from sklearn.model_selection import train_test_split #for split the data
2from sklearn.metrics import accuracy_score  #for accuracy_score
3from sklearn.model_selection import KFold #for K-fold cross validation
4from sklearn.model_selection import cross_val_score #score evaluation
5from sklearn.model_selection import cross_val_predict #prediction
6from sklearn.metrics import confusion_matrix #for confusion matrix
7all_features = traindf.drop("Survived",axis=1)
8Targeted_feature = traindf["Survived"]
9X_train,X_test,y_train,y_test = train_test_split(all_features,Targeted_feature,test_size=0.3,random_state=42)
10X_train.shape,X_test.shape,y_train.shape,y_test.shape

برای ساخت مدل یادگیری ماشین با پایتون، می‌توان از الگوریتم‌های متعدد و متنوعی که در کتابخانه «سایکیت‌لِرن» وجود دارند، استفاده کرد. برخی از این الگوریتم‌ها در ادامه بیان شده‌اند.

رگرسیون لجستیک (Logistic Regression)
جنگل تصادفی (Random Forest)
ماشین بردار پشتیبان (Support Vector Machine | SVM)
K نزدیک‌ترین همسایگی (K Nearest Neighbor)
نایو بیز (Naive Bayes)
درخت تصمیم (Decision Trees)
آدابوست (AdaBoost)
تخصیص پنهان دیریکله (Latent Dirichlet Allocation | LDA)
گرادیان تقویتی (Gradient boosting)

شاید برای افراد تازه‌وارد گیج‌کننده باشد که کدام یک از این موارد را باید برگزیند و یا اینکه، در هر یک از این الگوریتم‌ها چه اتفاقی می‌افتد. در این وهله باید گفت که جای نگرانی نیست، همه این الگوریتم‌ها در کتابخانه سایکیت‌لرن، مانند یک جعبه سیاه می‌مانند و الزاما کاربر نیاز به دانستن اتفاقاتی که درون آن‌ها می‌افتد ندارد و کافی است الگوریتمی با کارایی مناسب برای این مساله را انتخاب کند. در اینجا، از الگوریتم جنگل تصادفی استفاده می‌شود.

1from sklearn.ensemble import RandomForestClassifier
2model = RandomForestClassifier(criterion='gini', n_estimators=700,
3                             min_samples_split=10,min_samples_leaf=1,
4                             max_features='auto',oob_score=True,
5                             random_state=1,n_jobs=-1)
6model.fit(X_train,y_train)
7prediction_rm=model.predict(X_test)
8print('--------------The Accuracy of the model----------------------------')
9print('The accuracy of the Random Forest Classifier is', round(accuracy_score(prediction_rm,y_test)*100,2))
10kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
11result_rm=cross_val_score(model,all_features,Targeted_feature,cv=10,scoring='accuracy')
12print('The cross validated score for Random Forest Classifier is:',round(result_rm.mean()*100,2))
13y_pred = cross_val_predict(model,all_features,Targeted_feature,cv=10)
14sns.heatmap(confusion_matrix(Targeted_feature,y_pred),annot=True,fmt='3.0f',cmap="summer")
15plt.title('Confusion_matrix', y=1.05, size=15)

یادگیری ماشین با پایتون

مدل، روی داده‌ها صحت ٪۸۳ را ارائه می‌کند. برای اولین بار خوب است. منظور از امتیاز حاصل از «اعتبارسنجی متقابل» (Cross-Validation)، امتیاز اعتبارسنجی متقابل K Fold است. K = 10 به این معنا است که داده‌ها به ۱۰ بخش تقسیم شده‌اند و میانگین همه امتیازهای محاسبه شده برای آن‌ها به عنوان میانگین کل ارائه شده است.

تنظیم دقیق

اکنون، گام‌های لازم برای پیاده‌سازی یک مدل یادگیری ماشین با پایتون، به پایان رسید. اما، یک گام مهم‌تر وجود دارد که می‌تواند منجر به بهبود نتایج خروجی شود: تنظیم دقیق. «تنظیم دقیق» (Fine Tuning)، به معنای پیدا کردن بهترین پارامتر برای الگوریتم‌های یادگیری ماشین است.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

در کد مربوط به جنگل تصادفی بالا که در زیر نشان داده شده، می‌توان تنظیماتی به منظور بهبود خروجی انجام داد.

1model = RandomForestClassifier(criterion='gini', n_estimators=700,
2                             min_samples_split=10,min_samples_leaf=1,
3                             max_features='auto',oob_score=True,
4                             random_state=1,n_jobs=-1)

پارامترهایی وجود دارد که باید تنظیم شوند. موارد موجود در کد بالا، تنظیمات پیش‌فرض هستند. کاربر می‌تواند پارامترها را به هر شکلی که تمایل داشته باشد، تغییر دهد. البته، این کار زمان زیادی می‌برد. جای نگرانی وجود ندارد، ابزاری با عنوان Grid Search وجود دارد که پارامترهای بهینه را به صورت خودکار پیدا می‌کند. جالب به نظر می‌رسد؟

1# Random Forest Classifier Parameters tunning 
2model = RandomForestClassifier()
3n_estim=range(100,1000,100)
4## Search grid for optimal parameters
5param_grid = {"n_estimators" :n_estim}
6model_rf = GridSearchCV(model,param_grid = param_grid, cv=5, scoring="accuracy", n_jobs= 4, verbose = 1)
7model_rf.fit(train_X,train_Y)
8# Best score
9print(model_rf.best_score_)
10#best estimator
11model_rf.best_estimator_

توصیه می‌شود افراد پس از مطالعه این مطلب و بررسی کدها، خود کلیه موارد را امتحان کرده و برای دریافت خروجی مناسب تلاش کنند.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

بر اساس رای ۰ نفر

آیا این مطلب برای شما مفید بود؟

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

منابع:

medium

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

۵ دیدگاه برای «یادگیری ماشین با پایتون — به زبان ساده (+ دانلود فیلم آموزش گام به گام)»

بدیهی

۲۱ دی، در ۱۴۰۱ ۱:۴۰ ب.ظ

ممنونم بخاطر آموزشهای بسیار خوب و مفیدتون.

پاسخ

آرمین

۰۶ اردیبهشت، در ۱۳۹۹ ۳:۲۳ ب.ظ

سلام مشکل بالا رو اوکی کردم
الان این خطا رو میده

TypeError Traceback (most recent call last)
in
5
6
—-> 7 dataset[‘FamilySize’] = dataset[‘SibSp’] + dataset[‘Parch’] + 1
8
9

TypeError: string indices must be integers

پاسخ

heny

۲۲ فروردین، در ۱۴۰۱ ۱:۰۹ ق.ظ

بجای دیتا ست ، all_data را بگذارید . درست میشه

ارمین

۰۶ اردیبهشت، در ۱۳۹۹ ۲:۳۴ ب.ظ

سلام این مشکل رو دارم

File “”, line 58
dataset[‘Title’] = dataset[‘Title’].replace(‘Mme’, ‘Mrs’)
^
IndentationError: unexpected indent

پاسخ

hjh

۱۷ فروردین، در ۱۳۹۹ ۱:۳۸ ب.ظ

سلام ممنونم از اموزش خوبتون من یک پیشنهاد دارم اگر ممکنه لطفا این کرش کورس یادگیری ماشین شرکت گوگل برای کارمندانش ارائه داده را به صورت قدم به قدم ترجمه کنید و در اینجا منتشر کنید.

با تشکر

پاسخ

نظر شما چیست؟