مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین
پرسشی که برای بسیاری از افراد مطرح میشود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه دادههای یادگیری ماشین با کیفیت و متنوع در حوزههای گوناگون برای یادگیری ماشین آورده شده است.
اما پیش از معرفی مجموعه دادهها، چند نکته که باید هنگام جستوجو و انتخاب مجموعه داده در نظر داشت مطابق آنچه در مطلبی از «دانشگاه کارنگی ملون» (Carnegie Mellon University) آمده در ادامه ذکر شدهاند.
- مجموعه داده نباید نامرتب باشد زیرا در این صورت پژوهشگر مجبور میشود زمان زیادی را به پاکسازی دادهها اختصاص دهد.
- یک مجموعه داده نباید تعداد زیادی سطر یا ستون داشته باشد، زیرا کار با آن دشوار میشود.
- هر چه دادهها تمیزتر باشند بهتر است، زیرا پاکسازی یک مجموعه داده بزرگ کاری بسیار زمانبر خواهد بود.
- یک پرسش جالب توجه باید وجود داشته باشد که به وسیله مجموعه داده بتوان به آن پاسخ داد.
پیدا کردن مجموعه داده
در ادامه روشهایی برای پیدا کردن مجموعه دادههای متنوع در زمینههای گوناگون بیان شده است.
Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه دادههای متنوع و جالب توجهی است که توسط مشارکتکنندگان گوناگون فراهم شدهاند. میتوان انواع مجموعه دادهها را از این قسمت (+) یافت. تنوع این مجموعه دادهها بسیار بالا است و حوزههای گوناگونی از دادههای بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل میشود.
مخزن یادگیری ماشین UCI (+): یکی از قدیمیترین منابع از مجموعه دادههای روی وب است که میتوان در آن به دنبال مجموعه دادههای جالب توجه گشت. با توجه به اینکه مجموعه دادهها با مشارکت کاربران تهیه شدهاند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آنها پاکسازی شده محسوب میشوند. امکان دانلود مجموعه دادهها از «UCI Machine Learning» به طور مستقیم و بدون ثبتنام وجود دارد.
VisualData (+): این وبسایت برای یافتن مجموعه دادههای «بینایی کامپیوتری» (computer vision) بر اساس دستهبندی است و کوئریهای قابل جستوجو را نیز میپذیرد.
مجموعه دادههای عمومی
در ادامه برخی از مجموعه دادههای عمومی در حوزههای گوناگون معرفی شدهاند.
مجموعه دادههای عمومی دولتی
Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم میکند. این دادهها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل میشوند. اغلب این دادهها نیازمند انجام پژوهشهای بیشتری هستند.
Food Environment Atlas (+): حاوی دادههایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار میدهد.
School system finances (+): یک بررسی موردی پیرامون سیستم مالی مدارس در ایالات متحده آمریکا است.
Chronic disease data (+): دادههایی پیرامون شاخصهای بیماریهای مزمن در سراسر ایالات متحده آمریکا را در بر میگیرد.
The US National Center for Education Statistics (+): حاوی دادههایی پیرامون موسسات آموزشی و جمعیتشناسی تحصیلی از ایالات متحده و دیگر نقاط جهان است.
The UK Data Service (+): بزرگترین مجموعه داده دربرگیرنده اطلاعات اجتماعی، اقتصادی و جمعیتی بریتانیا است.
Data USA (+): یک بصریسازی جامع از دادههای عمومی آمریکا است.
اقتصاد و مالی
Quandl (+): منبع خوبی برای دادههای اقتصادی و مالی است که برای ساخت مدلهایی جهت پیشبینی شاخصهای اقتصادی یا قیمت سهام مفید محسوب میشود.
World Bank Open Data (+): مجموعه دادههایی که اطلاعات جمعیت شناختی را در بر میگیرد و دارای تعداد قابل توجهی از شاخصهای توسعه و اقتصاد از سراسر جهان است.
IMF Data (+): «صندوق بینالمللی پول» (The International Monetary Fund) دادههای مالی بینالملل، نرخ بدهیها، ذخایر ارزی خارجی و قیمت کالاها را به صورت این مجموعه داده منتشر میکند.
Financial Times Market Data (+): اطلاعات به روز پیرامون بازارهای مالی از سراسر جهان شامل اندیسهای قیمتهای سهام، مبادلات کالاها و ارزهای خارجی را در بر میگیرد.
Google Trends (+): بررسی و تحلیل دادهها در جستوجوهای اینترنتی و ترند شدن موضوعات جدید در سراسر جهان را انجام میدهد.
American Economic Association (+): از جمله منابع خوب جهت یافتن اطلاعات اقتصاد کلان ایالات متحده به شمار میآید.
یادگیری ماشین
در ادامه مجموعه دادههایی که در حوزههای گوناگون یادگیری ماشین از جمله پردازش تصویر، تحلیل عواطف (پردازش متن)، پردازش زبان طبیعی، وسایل نقلیه خودران و اطلاعات بالینی مورد استفاده قرار میگیرند معرفی شدهاند.
تصویر
Labelme (+): مجموعه دادهای بزرگ از تصاویر دارای توضیحات است.
ImageNet (+): مجموعه دادهای از تصاویر برای الگوریتمهای جدید که دادههای آن بر اساس سلسهمراتب WordNet سازماندهی شدهاند و در آن هر گره حاوی صدها و هزاران تصویر در سلسلهمراتب خود است.
LSUN (+): مجموعه دادهای جهت درک صحنه با وظایف کمکی متعدد (تخمین قالب اتاقها، پیشبینی برجستگیها و دیگر موارد) است.
MS COCO (+): مجموعه دادهای برای درک کلی تصاویر و نوشتن توضیحات (به صورت کپشن) آنها است.
COIL100 (+): مجموعه دادهای شامل یکصد شی متفاوت که از زاوایای گوناگون طی چرخش ۳۶۰ درجه عکسبرداری شدهاند.
Visual Genome (+): یک پایگاه دانش همراه با جزئیات بصری بسیار دقیق با کپشنهایی که برای ۱۰۰۰۰۰ تصویر موجود هستند.
Google’s Open Images (+): مجموعهای از نُه میلیون URL به تصاویر «دارای توضیحات با برچسبهایی که در ۶۰۰۰ دسته قرار گرفتهاند» و تحت «گواهینامه کریِیتیو کامِنز» (Creative Commons) است.
Labelled Faces in the Wild (+): این مجموعه داده حاوی ۱۳۰۰۰ تصویر برچسبگذاری شده از چهره انسانها است که در توسعه کاربردهایی که منجر به تشخیص چهره میشوند مورد استفاده قرار میگیرد.
Stanford Dogs Dataset (+): این مجموعه حاوی ۲۰۵۸۰ تصویر، ۱۲۰ تگ و دستههای نژادهای آنها است.
Indoor Scene Recognition (+): یک مجموعه داده بسیار خاص و مفید است که دارای ۶۷ دسته فضای بسته و ۱۵۶۳۰ تصویر است.
تحلیل عواطف
Multidomain sentiment analysis dataset (+): یک مجموعه داده نسبتا مرتب شده است که نقد و بررسی کالاهای آمازون را دربرمیگیرد.
IMDB reviews (+): یک مجموعه داده نسبتا قدیمی برای دستهبندی دودویی عواطف است که شامل ۲۵۰۰۰ نقد و برررسی میشود.
Stanford Sentiment Treebank (+): مجموعه داده عواطف استاندارد به همراه توضیحات مربوط به آنها است.
Sentiment140 (+): یک مجموعه داده محبوب متشکل از ۱۶۰۰۰۰ توییت است که ایموجیهای آنها حذف شدهاند.
Twitter US Airline Sentiment (+): این مجموعه داده حاوی دادههای توییتر پیرامون خطوط هوایی ایالات متحده آمریکا است که به عنوان مثبت، منفی و خنثی دستهبندی شدهاند.
پردازش زبان طبیعی
HotspotQA Dataset (+): مجموعه داده پرسش و پاسخ دارای پرسشهای «مالتی-هاپ» (multi-hop) با نظارت قوی برای پشتیبانی حقایق به منظور قادر ساختن سیستمهای پرسش و پاسخ قابل توضیحتر است.
Enron Dataset (+): این مجموعه داده حاوی دادههای ایمیل از سطح مدیران ارشد «اِنرون» (Enron) است که در پوشههایی سازماندهی شدهاند.
Amazon Reviews (+): حاوی نزدیک به ۳۵ میلیون نقد و بررسی از ۱۸ سال توسعه آمازون است. دادهها شامل محصولات و اطلاعات کاربران، امتیازها و نقد و بررسیهای متنی (متن غنی | Plaintext) میشوند.
Google Books Ngrams (+): مجموعهای از کلمات «گوگل بوکس» (Google Books) است.
Blogger Corpus (+): مجموعهای از ۶۸۱۲۸۸ پست وبلاگ است که از «بلاگر» (blogger) (+) گردآوری شدهاند. هر بلاگ حاوی حداقل ۲۰۰ بار وقوع کلمات متداول انگلیسی است.
Wikipedia Links data (+): این مجموعه داده حاوی متن کامل ویکیپدیا است. مجموعه داده شامل بالغ بر ۱.۹ میلیارد کلمه از بیش از ۲ میلیون مقاله میشود. در این مجموعه داده میتوان با کلمه، عبارت یا بخشی از پاراگراف به جستوجو پرداخت.
Gutenberg eBooks List (+): این مجموعه داده حاوی لیست کتابهای «پروژه گوتنبرگ» (Project Gutenberg) همراه با توضیحات آنها است.
Hansards text chunks of Canadian Parliament (+): این مجموعه داده شامل ۱.۳ میلیون جفت متن از رکوردهای سی و ششمین پارلمان کانادا است.
Jeopardy (+): آرشیوی از بیش از ۲۰۰۰۰۰ پرسش مسابقه تلویزیونی «Jeopardy» است.
SMS Spam Collection in English (+): مجموعه دادهای شامل ۵۵۷۴ پیامک هرزنامه (اسپم) به زبان انگلیسی است.
Yelp Reviews (+): یک مجموعه داده باز منتشر شده توسط Yelp، حاوی بیش از ۵ میلیون نقد و بررسی است.
UCI’s Spambase (+): یک مجموعه داده بزرگ از ایمیلهای اسپم است که برای فیلترینگ اسپم مفید هستند.
خودرو خودران
Berkeley DeepDrive BDD100k (+): این مجموعه داده در حال حاضر بزرگترین مجموعه برای هوش مصنوعی خودران (self-driving AI) به شمار میآید. مجموعه مذکور حاوی بیش از ۱۰۰۰۰۰ ویدئوی ۱۱۰۰ ساعت تجربه رانندگی در زمانهای گوناگون روز و شرایطهای مختلف آبوهوایی است. تصاویر این مجموعه داده دارای توضیحات و متعلق به نواحی «نیویورک» (New York) و «سان فرانسیسکو» (San Francisco) هستند.
Baidu Apolloscapes (+): مجموعه دادهای بزرگ که ۲۶ آیتم معنایی گوناگون مانند ماشینها، دوچرخهها، عابرهای پیاده، ساختمانها و چراغهای خیابان را تعیین میکند.
Comma.ai (+): این مجموعه داده مربوط به بیش از ۷ ساعت رانندگی در بزرگراه است. جزئیاتی مانند سرعت خودرو، شتاب، زاویه فرمان و مختصات GPS در این مجموعه داده وجود دارند.
Oxford’s Robotic Car (+): بیش از ۱۰۰ تکرار از یک مسیر مشابه از آکسفورد بریتانیا که در طول یک سال ضبط شدهاند در این مجموعه موجود است. مجموعه داده مذکور حاوی ترکیبهای متفاوتی از هوا، ترافیک و عابرهای پیاده همراه با تغییرات بلند مدتی مانند راهسازی است.
Cityscape Dataset (+): یک مجموعه داده بزرگ که صحنههای خیابانهای شهری را در ۵۰ شهر مختلف ضبط کرده است.
CSSAD Dataset (+): این مجموعه داده برای درک و ناوبری وسایل نقلیه خودران مفید است. مجموعه داده مذکور به شدت روی جادههای موجود در جهان توسعه یافته، دارای انحراف است.
KUL Belgium Traffic Sign Dataset (+): دادههای این مجموعه بیش از ۱۰۰۰۰ علامت ترافیکی همراه با توضیحات هستند که از میان هزاران علامت ترافیکی به لحاظ فیزیکی متمایز از هم منطقه «فلاندر» (Flanders) در بلژیک گردآوری شدهاند.
MIT AGE Lab (+): نمونهای از بیش از هزار ساعت مجموعه دادههای رانندگی چند حسگری (multi-sensor) گردآوری شده در AgeLab است.
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets (+): این مجموعه داده شامل علائم ترافیکی، تشخیص وسیله نقلیه، چراغهای راهنمایی و الگوهای مسیریابی است.
Bosch Small Traffic Light Dataset (+): مجموعه دادهای برای چراغهای راهنمایی کوچک جهت انجام یادگیری عمیق است.
LaRa Traffic Light Recognition (+): مجموعه داده دیگری برای چراغهای راهنمایی که از پاریس گردآوری شدهاند.
WPI datasets (+): مجموعه دادههایی برای چراغهای راهنمایی، عابران پیاده و تشخیص خطوط (خطوط جاده) هستند.
بالینی
MIMIC-III (+): مجموعه داده باز توسعه یافته توسط آزمایشگاه MIT برای فیزیولوژی محاسباتی، شامل دادههای سلامت شناسایی نشده مرتبط با نزدیک به ۴۰۰۰۰ بیمار مراقبتهای ویژه است.
این مجموعه داده شامل اطلاعات جمعیتشناسی، علائم حیاتی، تستهای آزمایشگاهی، داروها و دیگر موارد میشود.
اگر این مطلب برایتان مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
- گنجینه آموزشهای برنامه نویسی پایتون (Python)
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامه نویسی متلب (MATLAB)
^^
عااااالی….واقعا متشکرم