پرسشی که برای بسیاری از افراد مطرح می‌شود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه داده‌های یادگیری ماشین با کیفیت و متنوع در حوزه‌های گوناگون برای یادگیری ماشین آورده شده است.

اما پیش از معرفی مجموعه داده‌ها، چند نکته که باید هنگام جست‌و‌جو و انتخاب مجموعه داده در نظر داشت مطابق آنچه در مطلبی از «دانشگاه کارنگی ملون» (Carnegie Mellon University) آمده در ادامه ذکر شده‌اند.

  • مجموعه داده نباید نامرتب باشد زیرا در این صورت پژوهشگر مجبور می‌شود زمان زیادی را به پاک‌سازی داده‌ها اختصاص دهد.
  • یک مجموعه داده نباید تعداد زیادی سطر یا ستون داشته باشد، زیرا کار با آن دشوار می‌شود.
  • هر چه داده‌ها تمیزتر باشند بهتر است، زیرا پاک‌سازی یک مجموعه داده بزرگ کاری بسیار زمان‌بر خواهد بود.
  • یک پرسش جالب توجه باید وجود داشته باشد که به وسیله مجموعه داده بتوان به آن پاسخ داد.

پیدا کردن مجموعه داده

در ادامه روش‌هایی برای پیدا کردن مجموعه داده‌های متنوع در زمینه‌های گوناگون بیان شده است.

Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه داده‌های متنوع و جالب توجهی است که توسط مشارکت‌کنندگان گوناگون فراهم شده‌اند. می‌توان انواع مجموعه داده‌ها را از این قسمت (+) یافت. تنوع این مجموعه داده‌ها بسیار بالا است و حوزه‌های گوناگونی از داده‌های بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل می‌شود.

مخزن یادگیری ماشین UCI (+): یکی از قدیمی‌ترین منابع از مجموعه داده‌های روی وب است که می‌توان در آن به دنبال مجموعه داده‌های جالب توجه گشت. با توجه به اینکه مجموعه داده‌ها با مشارکت کاربران تهیه شده‌اند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آن‌ها پاک‌سازی شده محسوب می‌شوند. امکان دانلود مجموعه داده‌ها از «UCI Machine Learning» به طور مستقیم و بدون ثبت‌نام وجود دارد.

VisualData (+): این وب‌سایت برای یافتن مجموعه داده‌های «بینایی کامپیوتری» (computer vision) بر اساس دسته‌بندی است و کوئری‌های قابل جست‌و‌جو را نیز می‌پذیرد.

مجموعه داده‌های عمومی

در ادامه برخی از مجموعه داده‌های عمومی در حوزه‌های گوناگون معرفی شده‌اند.

مجموعه‌ داده‌های عمومی دولتی

Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم می‌کند. این داده‌ها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل می‌شوند. اغلب این داده‌ها نیازمند انجام پژوهش‌های بیشتری هستند.

Food Environment Atlas (+): حاوی داده‌هایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار می‌دهد.

School system finances (+): یک بررسی موردی پیرامون سیستم مالی مدارس در ایالات متحده آمریکا است.

Chronic disease data (+): داده‌هایی پیرامون شاخص‌های بیماری‌های مزمن در سراسر ایالات متحده آمریکا را در بر می‌گیرد.

The US National Center for Education Statistics (+): حاوی داده‌هایی پیرامون موسسات آموزشی و جمعیت‌شناسی تحصیلی از ایالات متحده و دیگر نقاط جهان است.

The UK Data Service (+): بزرگترین مجموعه داده دربرگیرنده اطلاعات اجتماعی، اقتصادی و جمعیتی بریتانیا است.

Data USA (+): یک بصری‌سازی جامع از داده‌های عمومی آمریکا است.

اقتصاد و مالی

Quandl (+): منبع خوبی برای داده‌های اقتصادی و مالی است که برای ساخت مدل‌هایی جهت پیش‌بینی شاخص‌های اقتصادی یا قیمت سهام مفید محسوب می‌شود.

World Bank Open Data (+): مجموعه داده‌هایی که اطلاعات جمعیت شناختی را در بر می‌گیرد و دارای تعداد قابل توجهی از شاخص‌های توسعه و اقتصاد از سراسر جهان است.

IMF Data (+): «صندوق بین‌المللی پول» (The International Monetary Fund) داده‌های مالی بین‌الملل، نرخ بدهی‌ها، ذخایر ارزی خارجی و قیمت کالاها را به صورت این مجموعه داده منتشر می‌کند.

Financial Times Market Data (+): اطلاعات به روز پیرامون بازارهای مالی از سراسر جهان شامل اندیس‌های قیمت‌های سهام، مبادلات کالاها و ارزهای خارجی را در بر می‌گیرد.

Google Trends (+): بررسی و تحلیل داده‌ها در جست‌و‌جوهای اینترنتی و ترند شدن موضوعات جدید در سراسر جهان را انجام می‌دهد.

American Economic Association (+): از جمله منابع خوب جهت یافتن اطلاعات اقتصاد کلان ایالات متحده به شمار می‌آید.

یادگیری ماشین

در ادامه مجموعه داده‌هایی که در حوزه‌های گوناگون یادگیری ماشین از جمله پردازش تصویر، تحلیل عواطف (پردازش متن)، پردازش زبان طبیعی، وسایل نقلیه خودران و اطلاعات بالینی مورد استفاده قرار می‌گیرند معرفی شده‌اند.

تصویر

Labelme (+): مجموعه داده‌ای بزرگ از تصاویر دارای توضیحات است.

ImageNet (+): مجموعه داده‌ای از تصاویر برای الگوریتم‌های جدید که داده‌های آن بر اساس سلسه‌مراتب WordNet سازمان‌دهی شده‌اند و در آن هر گره حاوی صدها و هزاران تصویر در سلسله‌مراتب خود است.

LSUN (+): مجموعه داده‌ای جهت درک صحنه با وظایف کمکی متعدد (تخمین قالب اتاق‌ها، پیش‌بینی برجستگی‌ها و دیگر موارد) است.

MS COCO (+): مجموعه داده‌ای برای درک کلی تصاویر و نوشتن توضیحات (به صورت کپشن) آن‌ها است.

COIL100 (+): مجموعه داده‌ای شامل یکصد شی متفاوت که از زاوایای گوناگون طی چرخش 3۶۰ درجه عکس‌برداری شده‌اند.

Visual Genome (+): یک پایگاه دانش همراه با جزئیات بصری بسیار دقیق با کپشن‌هایی که برای 1۰۰۰۰۰ تصویر موجود هستند.

Google’s Open Images (+): مجموعه‌ای از نُه میلیون URL به تصاویر «دارای توضیحات با برچسب‌هایی که در ۶۰۰۰ دسته قرار گرفته‌اند» و تحت «گواهینامه کریِیتیو کامِنز» (Creative Commons) است.

Labelled Faces in the Wild (+): این مجموعه داده حاوی 13۰۰۰ تصویر برچسب‌گذاری شده از چهره انسان‌ها است که در توسعه کاربردهایی که منجر به تشخیص چهره می‌شوند مورد استفاده قرار می‌گیرد.

Stanford Dogs Dataset (+): این مجموعه حاوی 2۰۵۸۰ تصویر، 12۰ تگ و دسته‌های نژادهای آن‌ها است.

Indoor Scene Recognition (+): یک مجموعه داده بسیار خاص و مفید است که دارای ۶۷ دسته فضای بسته و 1۵۶3۰ تصویر است.

تحلیل عواطف

Multidomain sentiment analysis dataset (+): یک مجموعه داده نسبتا مرتب شده است که نقد و بررسی کالاهای آمازون را دربرمی‌گیرد.

IMDB reviews (+): یک مجموعه داده نسبتا قدیمی برای دسته‌بندی دودویی عواطف است که شامل 2۵۰۰۰ نقد و برررسی می‌شود.

Stanford Sentiment Treebank (+): مجموعه داده عواطف استاندارد به همراه توضیحات مربوط به آن‌ها است.

Sentiment140 (+): یک مجموعه داده محبوب متشکل از 1۶۰۰۰۰ توییت است که ایموجی‌های آن‌ها حذف شده‌اند.

Twitter US Airline Sentiment (+): این مجموعه داده حاوی داده‌های توییتر پیرامون خطوط هوایی ایالات متحده آمریکا است که به عنوان مثبت، منفی و خنثی دسته‌بندی شده‌اند.

پردازش زبان طبیعی

HotspotQA Dataset (+): مجموعه داده پرسش و پاسخ دارای پرسش‌های «مالتی-هاپ» (multi-hop) با نظارت قوی برای پشتیبانی حقایق به منظور قادر ساختن سیستم‌های پرسش و پاسخ قابل توضیح‌تر است.

Enron Dataset (+): این مجموعه داده حاوی داده‌های ایمیل از سطح مدیران ارشد «اِنرون» (Enron) است که در پوشه‌هایی سازمان‌دهی شده‌اند.

Amazon Reviews (+): حاوی نزدیک به 3۵ میلیون نقد و بررسی از 1۸ سال توسعه آمازون است. داده‌ها شامل محصولات و اطلاعات کاربران، امتیازها و نقد و بررسی‌های متنی (متن غنی | Plaintext) می‌شوند.

Google Books Ngrams (+): مجموعه‌ای از کلمات «گوگل بوکس» (Google Books) است.

Blogger Corpus (+): مجموعه‌ای از ۶۸12۸۸ پست وبلاگ است که از «بلاگر» (blogger) (+) گردآوری شده‌اند. هر بلاگ حاوی حداقل 2۰۰ بار وقوع کلمات متداول انگلیسی است.

Wikipedia Links data (+): این مجموعه داده حاوی متن کامل ویکی‌پدیا است. مجموعه داده شامل بالغ بر 1.۹ میلیارد کلمه از بیش از 2 میلیون مقاله می‌شود. در این مجموعه داده می‌توان با کلمه، عبارت یا بخشی از پاراگراف به جست‌و‌جو پرداخت.

Gutenberg eBooks List (+): این مجموعه داده حاوی لیست کتاب‌های «پروژه گوتنبرگ» (Project Gutenberg) همراه با توضیحات آن‌ها است.

Hansards text chunks of Canadian Parliament (+): این مجموعه داده شامل 1.3 میلیون جفت متن از رکوردهای سی و ششمین پارلمان کانادا است.

Jeopardy (+): آرشیوی از بیش از 2۰۰۰۰۰ پرسش مسابقه تلویزیونی «Jeopardy» است.

 SMS Spam Collection in English (+): مجموعه داده‌ای شامل ۵۵۷4 پیامک هرزنامه (اسپم) به زبان انگلیسی است.

Yelp Reviews (+): یک مجموعه داده باز منتشر شده توسط Yelp، حاوی بیش از ۵ میلیون نقد و بررسی است.

UCI’s Spambase (+): یک مجموعه داده بزرگ از ایمیل‌های اسپم است که برای فیلترینگ اسپم مفید هستند.

خودرو خودران

Berkeley DeepDrive BDD100k (+): این مجموعه داده در حال حاضر بزرگترین مجموعه برای هوش مصنوعی خودران (self-driving AI) به شمار می‌آید. مجموعه مذکور حاوی بیش از 1۰۰۰۰۰ ویدئوی 11۰۰ ساعت تجربه رانندگی در زمان‌های گوناگون روز و شرایط‌های مختلف آب‌و‌هوایی است. تصاویر این مجموعه داده دارای توضیحات و متعلق به نواحی «نیویورک» (New York) و «سان فرانسیسکو» (San Francisco) هستند.

Baidu Apolloscapes (+): مجموعه داده‌ای بزرگ که 2۶ آیتم معنایی گوناگون مانند ماشین‌ها، دوچرخه‌ها، عابرهای پیاده، ساختمان‌ها و چراغ‌های خیابان را تعیین می‌کند.

Comma.ai (+): این مجموعه داده مربوط به بیش از ۷ ساعت رانندگی در بزرگراه است. جزئیاتی مانند سرعت خودرو، شتاب، زاویه فرمان و مختصات GPS در این مجموعه داده وجود دارند.

Oxford’s Robotic Car (+): بیش از 1۰۰ تکرار از یک مسیر مشابه از آکسفورد بریتانیا که در طول یک سال ضبط شده‌اند در این مجموعه موجود است. مجموعه داده مذکور حاوی ترکیب‌های متفاوتی از هوا، ترافیک و عابرهای پیاده همراه با تغییرات بلند مدتی مانند راه‌سازی است.

Cityscape Dataset (+): یک مجموعه داده بزرگ که صحنه‌های خیابان‌های شهری را در ۵۰ شهر مختلف ضبط کرده است.

CSSAD Dataset (+): این مجموعه داده برای درک و ناوبری وسایل نقلیه خودران مفید است. مجموعه داده مذکور به شدت روی جاده‌های موجود در جهان توسعه یافته، دارای انحراف است.

KUL Belgium Traffic Sign Dataset (+): داده‌های این مجموعه بیش از 1۰۰۰۰ علامت ترافیکی همراه با توضیحات هستند که از میان هزاران علامت ترافیکی به لحاظ فیزیکی متمایز از هم منطقه «فلاندر» (Flanders) در بلژیک گردآوری شده‌اند.

MIT AGE Lab (+): نمونه‌ای از بیش از هزار ساعت مجموعه داده‌های رانندگی چند حسگری (multi-sensor) گردآوری شده در AgeLab است.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets (+): این مجموعه داده شامل علائم ترافیکی، تشخیص وسیله نقلیه، چراغ‌های راهنمایی و الگوهای مسیریابی است.

Bosch Small Traffic Light Dataset (+): مجموعه داده‌ای برای چراغ‌های راهنمایی کوچک جهت انجام یادگیری عمیق است.

LaRa Traffic Light Recognition (+): مجموعه داده دیگری برای چراغ‌های راهنمایی که از پاریس گردآوری شده‌اند.

WPI datasets (+): مجموعه داده‌هایی برای چراغ‌های راهنمایی، عابران پیاده و تشخیص خطوط (خطوط جاده) هستند.

بالینی

MIMIC-III (+): مجموعه داده باز توسعه یافته توسط آزمایشگاه MIT برای فیزیولوژی محاسباتی، شامل داده‌های سلامت شناسایی نشده مرتبط با نزدیک به 4۰۰۰۰ بیمار مراقبت‌های ویژه است. این مجموعه داده شامل اطلاعات جمعیت‌شناسی، علائم حیاتی، تست‌های آزمایشگاهی، داروها و دیگر موارد می‌شود.

اگر این مطلب برایتان مفید بوده است،‌ آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *