آموزش نصب کتابخانه های پایتون علم داده — راهنمای کاربردی
در این مطلب، آموزش نصب کتابخانه های پایتون علم داده به همراه توضیحات و مثالهایی از آنها، ارائه شده است. «زبان برنامهنویسی پایتون» (Python Programming Language) یکی از محبوبترین زبانهای برنامهنویسی طی سالهای اخیر محسوب میشود و به نظر میرسد که محبوبیت آن نیز روز به روز در حال افزایش است. دلایل گوناگونی پیرامون چرایی محبوبیت پایتون وجود دارد که یکی از مهمترین آنها کاربردهای پایتون در زمینه «علم داده» (Data Science) و «هوش مصنوعی» (Artificial Intelligence) است.
زبان برنامهنویسی پایتون، کتابخانههای متعددی برای محاسبات علمی، پردازش دادهها و «یادگیری ماشین» «Machine Learning» دارد. این کتابخانههای قدرتمند و با کارایی بالا، از اصلیترین مزایای رقابتی پایتون در مقایسه با زبانهایی مانند «گو» (Go) محسوب میشوند. در این مطلب، ده تا از مهمترین و کاربردیترین کتابخانههای علم داده پایتون به همراه روش نصب آنها معرفی شدهاند.
آموزش نصب کتابخانه های پایتون علم داده
در ادامه، ده کتابخانه پایتون مهم و بسیار کاربردی برای علم داده معرفی شدهاند. کاربرد هر یک از این کتابخانهها به طور کوتاه به همراه روش نصب آنها بیان شده است.
میسینگنو (MissingNo)
در مجموعه دادههای واقعی، معمولا مقادیر از دست رفته یا همان «مقادیر ناموجود» (Missing Values) زیادی وجود دارند. یکی از گامهای مهم طی «پیشپردازش» (Pre-Processing) دادهها، رسیدگی به مسئله مقادیر ناموجود و رفع آنها است. زیرا برای ساخت یک مدل علم داده یا یادگیری ماشین، «مجموعه داده» (Data Set) باید کامل باشد.
به همین دلیل، نیاز به روشهایی برای جایگذاری مقادیر ناموجود با مقادیر احتمالی است. اما پیش از انجام این کار، نیاز به کسب اطلاعات پیرامون چگونگی توزیع مقادیر ناموجود در مجموعه داده است. شایان ذکر است که مقادیر ناموجود را به صورت «NaN» که مخفف «Not a Number» است نمایش میدهند.
MissingNo مخفف عبارت Missing Number یا عدد ناموجود است. این کتابخانه، راهکار بسیار مناسبی برای بصریسازی توزیع مقادیر ناموجود است. این کتابخانه پایتون، با کتابخانه پایتون «پانداس» (Pandas) سازگار است. پس به طور خلاصه باید گفت که کتابخانه Missingno برای بصریسازی مقادیر ناموجود مورد استفاده قرار میگیرد.
نصب کتابخانه Missingno در پایتون و یک مثال
1!pip install missingno
2import missingno as msgn
3#read in data here
4msgn.matrix(data)
پلاتلی (Plotly)
«بصریسازی» (Visualization) دادهها یکی از گامهای مهم در فرایند «دادهکاوی» (Data Mining) است. ارائه خروجیهای قابل تفسیر و درک به ویژه برای ذینفعان پروژه، یکی از نکات مهمی است که طی بصریسازی دادهها باید به آن توجه داشت.
Plotly کتابخانه پایتون «متنباز» (Open Source) است که برای بصریسازی دادهها و در واقع، ترسیم نمودارها شامل نقشهها، نمودارهای سهبُعدی و دیگر انواع نمودارها مورد استفاده قرار میگیرد.
نصب کتابخانه plotly در پایتون و یک مثال
1import plotly.offline as py
2py.init_notebook_mode(connected=False)
3import plotly_express as px
4import cufflinks as cf
5cf.set_config_file(offline=True)
6#example line graph
7data.iplot(kind='line', title='Title, xTitle='Epoch',yTitle='Loss')
سلنیوم (Selenium)
سلنیوم، کتابخانه انقیادهای پایتون برای Selenium WebDriver است. از کتابخانه پایتون سلنیوم میتوان برای خودکارسازی تعاملهای مرورگر وب استفاده کرد.
نصب کتابخانه selenium در پایتون و یک مثال
1!pip install selenium
2from selenium import webdriver
3browser = webdriver.Chrome(executable_path='/Users/User/chromedriver')
4browser.get('https://xkcd.com/') # go to website
5go_to_random_commic_button = browser.find_element_by_partial_link_text('Random')
6browser.quit()
ژئوپانداس (Geopandas) و ژئوپای (Geopy)
کتابخانههای ژئوپانداس (Geopandas) و ژئوپای (Geopy) گزینههای بسیار مناسبی برای ترسیم نقشهها هستند. برای آشنایی بیشتر با این مبحث، مطالعه مطالب «ترسیم داده های جغرافیایی در پایتون — راهنمای جامع» و «آموزش پایتون: ساخت اپلیکیشن نقشه وب — به زبان ساده» توصیه میشود.
نصب کتابخانههای geopandas و geopy در پایتون
1!pip install geopandas
2!pip install geopy
3#You can make all sorts of different things with these!
پای ترنسلیتر (Py_translator)
از این کتابخانه برای ترجمه متن استفاده میشود. در مثالی که در قطعه کد زیر ارائه شده است، عبارت «!Hello World» از زبان انگلیسی به زبان فرانسه ترجمه و خروجی آن در یک فایل متنی به نام output.text ذخیره میشود.
هدف اصلی این کتابخانه، در دسترس بودن یک برنامه ساده برای ترجمه متن در ترمینال است. متن میتوان به صورت تعاملی یا با برنامهنویسی در محیط شل تولید شود. از طریق آرگومانهای خط فرمان، توصیفگرهای متن، خروجی ترجمه شده تولید میشود. این خروجی را همانطور که پیش از این نیز اشاره شد، میتوان در یک فایل خروجی گرفت و یا، در ترمینال نمایش داد.
نصب کتابخانههای py_translator در پایتون و یک مثال
1!pip install py_translator
2from py_translator import Translator
3
4translator = Translator()
5output = translator.translate('Hello World!', dest='fr')
6
7output.text
گرافویز (Graphviz)
Graphviz سرنامی برای Graph Visualization Software به معنای نرمافزار بصریسازی گراف است. Graphviz بستهای از ابزارهای متنباز است که از آن برای بصریسازی مدلهای درختی استفاده میشود.
نصب کتابخانههای graphviz در پایتون و یک مثال
1!pip install graphviz
2!brew install graphviz
3from sklearn.tree import export_graphviz
4#Make and fit model
5tree_file = export_graphviz(model, out_file=None,feature_names=X.columns)
6
7graphviz.Source(tree_file)
ژوپیترلب اسپلچکر (Jupyterlab_spellchecker)
این مورد، در حقیقت یک «افزونه» (Extension) برای ژوپیتر نوتبوک است. از این افزونه میتوان برای بررسی گرامری بخشی از متن استفاده کرد که نشانهگذاری (Markdown) شده است.
نصب افزونه jupyterlab_spellchecker در ژوپیتر لب
1!jupyter labextension install @ijmbarr/jupyterlab_spellchecker
انبی اکستنشنز (Nbextensions)
این مورد در حقیقت یک کتابخانه پایتون نیست و یک افزونه (Extension) محسوب میشود. این افزونه امکانات جالبی را برای کاربر در «ژوپیتر نوتبوک» (Jupyter Notebook) فراهم میکند که از جمله آنها میتوان به خودکارسازی یک جدول از محتوا، زیباسازی کد و کد فولدینگ اشاره کرد.
نصب افزونه Nbextensions در ژوپیتر نوتبوک
1!pip install jupyter_contrib_nbextensions
2!jupyter contrib nbextension install --user
3#enable the features you want from your jupyter homepage (an Nbextensions tab will appear as shown in the image)
توییتر اسکرپر (Twitter Scraper)
کتابخانه Twitter Scraper توییتها را بر اساس تاریخ، موقعیت مکانی، کلمات و دیگر موارد اسکرپ میکند. البته، باید ضمن استفاده از این کتابخانه توجه داشت که سقف زمانی را برای پیشگیری از بلاک شدن توسط توییتر، تعیین کرد.
نصب کتابخانه Twitter scraperدر پایتون و یک مثال
1!pip install twitterscraper
2from twitterscraper import query_tweets
3list_of_tweets = query_tweets("'Hello' OR 'Goodbye' ",
4 limit = 50_000
5 enddate = datetime.date(2019, 9, 1),
6 begindate = datetime.date(2014, 1, 1),
7 poolsize = 1)
ایمبالانسد لرن (Imbalanced-Learn)
این کتابخانه، دارای چندین روش نمونهبرداری خودکار برای متوازن کردن کلاسها است.
نصب کتابخانه Imbalanced-Learn در پایتون و یک مثال
1!pip install -U imbalanced-learn
اگر نوشته بالا برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای داده کاوی و یادگیری ماشین
- آموزش اصول و روشهای داده کاوی (Data Mining)
- مجموعه آموزشهای هوش مصنوعی
- ۱۳ کتابخانه یادگیری عمیق پایتون — راهنمای کاربردی
- ۸ کتابخانه یادگیری ماشین پایتون — راهنمای کاربردی
- ۱۰ کتابخانه پایتون علم داده — راهنمای کاربردی
- آموزش ساخت کتابخانه در پایتون – از صفر تا صد
^^