مجموعه داده های عمومی برای داده کاوی و هوش مصنوعی – راهنمای کاربردی


ساخت سیستمهای مبتنی بر «هوش مصنوعی» (Artificial Intelligence | AI) و «یادگیری ماشین» (Machine Learning) هیچگاه به اندازه امروز آسان نبوده است. وجود ابزارهای متنبازی مانند «تنسورفلو» (TensorFlow) (+)، «تورچ» (Torch) (+) و «اسپارک» (Spark) (+) و قدرت محاسباتی بسیار زیاد فراهم شده از طریق AWS (+)، «گوگل کلود» (Google Cloud) (+) یا دیگر ارائهدهندگان سرویسهای ابری، بدین معنا است که میتوان مدلهای فوقالعادهای را حتی روی لپتاپهای شخصی «آموزش» (Train) داد.
مجموعه داده های عمومی
در هیاهوی ایجاد شده برای هوش مصنوعی، یادگیری ماشین، «علم داده» (Data Science) و «دادهکاوی» (Data Mining)، قهرمان واقعی در پس نقابی در پشت صحنه قرار گرفته و چیزی نیست به جز «داده» (Data)! آنچه انقلاب اطلاعاتی کنونی را رقم زده و به پیش میراند دادهها هستند.
در حال حاضر حجم بسیار زیادی از دادههای برچسبگذاری شده (Labeled) و بدون برچسب (Unlabeled) موجودند که در اختیار تیمهای پژوهشی و شرکتهایی قرار دارند که فهمیدهاند دموکراتیزه کردن دادهها یک گام اساسی به منظور شتابدهی به هوش مصنوعی است.
اگرچه، اغلب محصولات حوزه هوش مصنوعی و یادگیری ماشین به شدت بر مجموعه دادههای اختصاصی تکیه دارند که به صورت عمومی منتشر نشدهاند. مطابق آنچه بیان شد، یک بخش مهم و سخت از کارهای این زمینه پیدا کردن مجموعه دادههای «عمومی» (Public | پابلیک) است که برای مورد آزمون قرار دادن یک مدل، ارزیابی و استقرار آن و تبدیل دادهها به دانش حیاتی هستند. این گام به نوعی مرحلهای پیشتر از گردآوری دادهها برای یک پروژه خاص محسوب میشود.
نکته شایان توجه آن است که کارایی خوب یک مدل یادگیری ماشین روی یک مجموعه داده خاص این تضمین را نمیدهد که سیستم یادگیری ماشین در همه سناریوهای جهان واقعی نیز عملکرد خوبی داشته باشد. اغلب فعالان حوزه هوش مصنوعی فراموش میکنند که سختترین قسمت ساخت یک راهکار هوش مصنوعی، الگوریم هوش مصنوعی نیست، بلکه گردآوری و برچسبگذاری دادهها است. مجموعه دادههای استاندارد برای ارزیابی و یا به عنوان نقطه شروع یک راهکار مناسب هستند. در این مطلب، لیستی از مجموعه دادههای باز (در دسترس عموم) معرفی شدهاند که در دنیای هوش مصنوعی نیاز بسیاری از افراد را پاسخ میدهند.
در این مطلب از چهار سرنام برای هر مجموعه داده استفاده شده است که هر یک در ادامه شرح داده شدهاند.
(ک) کلاسیک: موارد دارای این نشان برخی از محبوبترین و یا قدیمیترین مجموعه دادههای حوزه هوش مصنوعی هستند. سخت پیش میآید که پژوهشگر یا مهندس داده/یادگیری ماشین با این مجموعه دادهها آشنا نباشد.
(د) کارآمد: این نشان برای مجموعه دادههایی به کار میرود که در پاکسازی شدهترین حالت نزدیک به دادههای جهان واقعی قرار دارند. همچنین، این مجموعه دادهها اغلب به اندازه کافی کلی هستند تا هم در زمینه تولید و هم در دنیای تحقیق و توسعه مورد استفاده قرار بگیرند.
(آ) مبنای آکادمیک: مجموعه دادههای دارای این نشان به طور متداولی در جنبه آکادمیک یادگیری ماشین و هوش مصنوعی به عنوان بنچمارک یا مبنا مورد استفاده قرار میگیرند. افراد اغلب از این مجموعه دادهها برای اعتباربخشی به الگوریتمها استفاده میکنند.
(ق) قدیمی: این نشان برای مجموعه دادههایی به کار رفته که صرف نظر از مفید بودن یا نبودن، مدت زیادی است که وجود دارند.
بینایی ماشین
(آ) (ک) (ق) MNIST (+): یکی از پر استفادهترین مجموعه دادهها و شامل ارقام نوشته شده با دست خط افراد است که در مرکز تصویر فایلهای 25x25 قرار گرفتهاند. این مجموعه داده میتواند برای بررسی صحت عملکرد الگوریتم مناسب باشد.
(ک) (ق) CIFAR 10 & CIFAR 100 (+): مجموعه دادهای از از تصاویر رنگی 32x32 است که استفاده از آن دیگر متداول نیست. این مجموعه داده نیز برای بررسی صحت عملکرد الگوریتم گزینهای مناسب محسوب میشود.
(د) (آ) (ک) ImageNet (+): مجموعه دادهای از تصاویر برای الگوریتمهای جدید و دارای سلسله مراتبی مطابق با WordNet (+) است. در هر گره از سلسله مراتب این مجموعه داده، صدها و هزاران تصویر وجود دارد.
LSUN (+): درک صحنه با وظایف کمکی متعدد (تخمین طرح اتاق، پیشبینی برجستگی و دیگر موارد) و رقابتهای مرتبط با آن.
(آ) PASCAL VOC (+): بخشبندی/دستهبندی تصویر عمومی برای ساخت مدلهای جهان واقعی خیلی کاربردی نیست اما به عنوان مبنا بسیار خوب است.
(آ) SVHN (+): مجموعه دادهای از شماره منازل گردآوری شده از «گوگل استریت ویو» (Google Street View) است. این مجموعه چیزی شبیه MNIST است، با این تفاوت که دادهها از نظم کمتری برخوردار هستند.
MS COCO (+): یک مجموعه داده بزرگ برای بازشناسی، دستهبندی و کپشن نویسی تصاویر است. هر سال، رقابتهایی بر مبنای این مجموعه داده برگزار میشود و جوایزی به افرادی که بهترین مدلها را ارائه کرده باشند تعلق میگیرد.
(د) Visual Genome (+): پایگاه دانشی همراه با جزئیات بسیار زیاد و کپشنهای عمیق برای ۱۰۰۰۰۰ تصویر است.
(د) (آ) (ک) (ق) Labeled Faces in the Wild (+): مجموعه دادهای از تصاویر چهرهها است که برای مطالعه مشکل تشخیص چهره بدون محدودیت طراحی شده. این مجموعه داده شامل ۱۳۰۰۰ تصویر از چهرههایی است که از اینترنت گردآوری شدهاند. هر چهره با نام فردی که در عکس قرار دارد نامگذاری شده است. ۱۶۸۰ نفر از افرادی که عکس آنها در این مجموعه داده وجود دارد دارای دو یا تعداد بیشتری تصویر در مجموعه داده هستند. از این مجموعه داده برای آموزش داده سیستمهای تطبیق چهره استفاده میشود.
زبان طبیعی
(د) (آ) Text Classification Datasets (+): یک مجموعه گسترده ار ۸ مجموعه داده برای دستهبندی متن است. این موارد متداولترین مبناهای گزارش شده برای مبناهای دستهبندی متن جدید هستند. سایز نمونه ۱۲۰ K تا ۳.۶ M است و طیفی از مسائل دودویی تا ۱۴ کلاسی را دارا است. مجموعه دادههای این مجموعه از DBPedia، آمازون، Yelp، یاهو!، Sogou و AG هستند.
(د) (آ) WikiText (+): مجموعه داده مدلسازی زبانی و دارای بیش از ۱۰۰ میلیون «توکن» (Token) استخراج شده از مقالات خوب و برگزیده ویکیپدیا هستند. این مجموعه داده تحت گواهینامه «Creative Commons Attribution-ShareAlike» در دسترس و توسط «Salesforce MetaMind» ساخته شده است.
(د) Question Pairs (+): اولین مجموعه داده منتشر شده از Quora که حاوی برچسبهای مشابهت «معنایی» (Semantic) است.
(د) (آ) SQuAD (+): مجموعه داده بسیار مفید پرسش و پاسخ استنفورد که پاسخ هر پرسش در آن به صورت span یا بخشی از متن قرار گرفته است.
CMU Q/A Dataset (+): مجموعه دادهای از جفت پرسش و پاسخهای خلاصه تولید شده به صورت دستی با نرخ سختی تعیین شده بر اساس مقالات ویکیپدیا است.
(د) Maluuba Datasets (+): مجموعه داده پیچیده تولید شده توسط انسان برای پژوهشهای درک زبان طبیعی است.
(د) (آ) Billion Words (+): یک مجموعه داده بزرگ همه منظوره برای مدلسازی زبانی است. این مجموعه اغلب برای آموزش دادن ارائههای کلمات توزیع شده مانند «word2vec» یا «GloVe» به کار میرود.
(د) (آ) Common Crawl (+): این مجموعه داده شامل چندین پتابایت داده حاصل از ۸ سال خزش در وب ( Web Crawling) است. مجموعه مذکور شامل صفحات وب خام، فرادادهها (metadata) و متنهای استخراج شده است. دادههای Common Crawl در «Amazon Web Services’ Public Data Sets» و پلتفرم ابری آکادمیک در سرتاسر وب ذخیره شدهاند. دسترسی به این مجموعه داده رایگان است.
(آ) (ک) bAbi (+): مجموعه داده درک مطلب مصنوعی و پرسش و پاسخ تولید شده توسط « Facebook AI Research» است.
(آ) The Children’s Book Test (+): مبنایی برای جفتهای «پرسش+متن،پاسخ» که از کتابهای کودکان موجود در Project Gutenberg استخراج شدهاند است. این مجموعه داده برای پرسش و پاسخ، درک مطلب و برداشت خلاصه مفید محسوب میشود.
(آ) (ک) (ق) Stanford Sentiment Treebank (+): مجموعه داده احساسات استاندارد با حاشیهنویسیهای به خوبی دانهبندی شده در هر گره از درخت تجزیه هر جمله است.
(ک) (ق) 20 Newsgroups (+): یکی از مجموعه دادههای کلاسیک برای دستهبندی متن است که معمولا به عنوان بنچمارکی برای دستهبندی غنی یا اعتبارسنجی هر الگوریتم اندیسگذاری/بازیابی اطلاعات مورد استفاده قرار میگیرد.
(ک) (ق) Reuters (+): مجموعه داده قدیمی مبتنی بر دستهبندی غنی با متنهایی از سرویسهای خبری است. این مجموعه داده معمولا در آموزشها مورد استفاده قرار میگیرد.
(ک) (ق) IMDB (+): یک مجموعه داده قدیمی و نسبتا کوچک برای دستهبندی دودویی احساسات است. این مجموعه داده نسبت به مجموعه دادههای بنچمارک پیشین دارای دادههای بیشتری است. در مجموعه مذکور ۲۵۰۰۰ نقد و بررسی فیلمها با قطبش بالا به عنوان مجموعه تست و ۲۵۰۰۰ به عنوان آزمون (تست) وجود دارد.
(ک) (ق) UCI’s Spambase (+): مجموعه داده قدیمی و کلاسیک برای ایمیلهای اسپم از مخزن یادگیری ماشین UCI است. با توجه به جزئیات اینکه مجموعه داده چگونه پاکسازی شده، میتواند به عنوان مبنایی برای یادگیری فیلترینگ اسپم شخصیسازی شده مورد استفاده قرار بگیرد.
گفتار
اغلب مجموعه دادههای گفتار اختصاصی هستند. این دادهها ارزش زیادی را برای سازمان به همراه دارند. در عین حال، بیشتر مجموعه دادههای عمومی موجود در این حوزه قدیمی هستند.
(آ) (ق) 2000 HUB5 English (+): دادههای گفتار انگلیسی که اخیرا در مقاله «Deep Speech» (+) اثر «بیدو» (Baidu) مورد استفاده قرار گرفتهاند.
(آ) LibriSpeech (+): مجموعه داده کتابهای صوتی شامل متن و گفتار. نزدیک به ۵۰۰ ساعت گفتار تمییز از کتابهای صوتی گوناگون که توسط چند گوینده خوانده شده و بر اساس فصلهای کتاب سازماندهی شدهاند وجود دارد.
(آ) (ک) (ق) TIMIT (+): مجموعه داده بازشناسی گفتار برای زبان انگلیسی است.
(د) CHIME (+): مجموعه داده دارای نویز که در رقابتهای بازشناسی گفتار مورد استفاده قرار میگیرد. مجموعه داده مذکور شامل رکوردهای صوتی تمییز، واقعی و شبیهسازی شده است. در این مجموعه داده نزدیک به ۹۰۰۰ فایل رکورد شده از ۴ گوینده در ۴ موقعیت دارای نویز وجود دارد و شبیهسازی با ترکیب چند محیط بر فراز گفتار و پاکسازی رکوردهای غیر نویزی است.
TED-LIUM (+): رونویسهای صوتی از سخنرانیهای TED است. فایلهای صوتی ۱۴۹۵ سخنرانی TED با رونویس متنی کامل این رکوردها در این مجموعه داده وجود دارند.
سیستمهای توصیهگر و رتبهبندی
(ک) (ق) Netflix Challenge (+): این مجموعه داده متعلق به اولین چالش دادهای شبیه به Kaggle است. به دلیل مسائل حریم خصوصی، مجموعه داده مذکور به صورت غیر رسمی در دسترس همگان قرار دارد.
(د) (آ) (ک) MovieLens (+): سایزهای متنوعی از دادههای نقد و بررسی فیلمها است و معمولا برای مبنای «پالایش گروهی» (collaborative filtering) مورد استفاده قرار میگیرد.
Million Song Dataset (+): مجموعه داده بزرگ، متنباز (open source) و غنی از فراداده موجود در Kaggle است که میتواند برای افرادی که با سیستمهای توصیهگر ترکیبی کار میکنند مفید واقع شود.
(د) Last.fm (+): مجموعه داده توصیهگر موسیقی با دسترسی به همین شبکه اجتماعی (last.m) و دیگر فرادادههایی است که میتوانند برای سیستمهای ترکیبی مفید واقع شوند.
شبکهها و گرافها
(آ) Amazon Co-Purchasing (+) و Amazon Reviews (+): دادههای خزش شده از بخش «users who bought this also bought…» آمازون، و نقد و بررسیهای انجام شده برای محصولات موجود در این وبسایت است. این مجموعه داده برای آزمایش سیستمهای توصیهگر در شبکه خوب است.
Friendster Social Network Dataset (+): پیش از «پیوت» (Pivot) این وبسایت به عنوان یک سایت بازی، Friendster دادههای ناشناس شده را به شکل لیستهای دوستان 103,750,348 کاربر، منتشر کرد.
دادههای جغرافیایی
(د) (ک) OpenStreetMap (+): دادههای برداری از کره زمین با گواهینامه آزاد است. این مجموعه داده شامل نسخه قدیمیتر مجموعه داده TIGER ایالات متحده آمریکا محسوب میشود.
(د) Landsat8 (+): این مجموعه داده حاوی تصاویر ماهوارهای از کل کره زمین است و چند هفته یکبار به روز رسانی میشود.
(د) NEXRAD (+): اسکنهای رادار داپلر از شرایط اتمسفری ایالات متحده آمریکا است.
افراد اغلب فکر میکنند حل یک مساله روی یک مجموعه داده به معنای داشتن یک محصول کلی است. این در حالی است که همواره باید از یک مجموعه داده برای اعتبارسنجی اثبات مفهوم استفاده شود، اما نباید ساخت نمونه اولیه از محصول یا ارزیابی آن را فراموش کرد و همچنین باید چگونگی عملکرد محصول روی دادههای جدید، و جهانواقعیتر را سنجید. شرکتهای دادهمحور موفق معمولا از تواناییهای خود در گردآوری دادههای جدید و اختصاصی قدرت میگیرند که کارایی آنها را به شکل قابل دفاعی افزایش میدهد.
اگر این مطلب برایتان مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
- گنجینه آموزشهای برنامه نویسی پایتون (Python)
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامه نویسی متلب (MATLAB)
- درس هوش مصنوعی | مفاهیم پایه به زبان ساده — منابع، کتاب و فیلم آموزشی
^^