ساخت سیستم‌های مبتنی بر «هوش مصنوعی» (Artificial Intelligence | AI) و «یادگیری ماشین» (Machine Learning) هیچگاه به اندازه امروز آسان نبوده است. وجود ابزارهای متن‌بازی مانند «تنسورفلو» (TensorFlow) (+)، «تورچ» (Torch) (+) و «اسپارک» (Spark) (+) و قدرت محاسباتی بسیار زیاد فراهم شده از طریق AWS (+)، «گوگل کلود» (Google Cloud) (+) یا دیگر ارائه‌دهندگان سرویس‌های ابری، بدین معنا است که می‌توان مدل‌های فوق‌العاده‌ای را حتی روی لپ‌تاپ‌های شخصی «آموزش» (Train) داد.

اما در هیاهوی ایجاد شده برای هوش مصنوعی، یادگیری ماشین، «علم داده» (Data Science) و «داده‌کاوی» (Data Mining)، قهرمان واقعی در پس نقابی در پشت صحنه قرار گرفته و چیزی نیست به جز «داده» (Data)! آنچه انقلاب اطلاعاتی کنونی را رقم زده و به پیش می‌راند داده‌ها هستند. در حال حاضر حجم بسیار زیادی از داده‌های برچسب‌گذاری شده (Labeled) و بدون برچسب (Unlabeled) موجودند که در اختیار تیم‌های پژوهشی و شرکت‌هایی قرار دارند که فهمیده‌اند دموکراتیزه کردن داده‌ها یک گام اساسی به منظور شتاب‌دهی به هوش مصنوعی است.

اگرچه، اغلب محصولات حوزه هوش مصنوعی و یادگیری ماشین به شدت بر مجموعه داده‌های اختصاصی تکیه دارند که به صورت عمومی منتشر نشده‌اند. مطابق آنچه بیان شد، یک بخش مهم و سخت از کارهای این زمینه پیدا کردن مجموعه داده‌های «عمومی» (Public | پابلیک) است که برای مورد آزمون قرار دادن یک مدل، ارزیابی و استقرار آن و تبدیل داده‌ها به دانش حیاتی هستند. این گام به نوعی مرحله‌ای پیش‌تر از گردآوری داده‌ها برای یک پروژه خاص محسوب می‌شود.

نکته شایان توجه آن است که کارایی خوب یک مدل یادگیری ماشین روی یک مجموعه داده خاص این تضمین را نمی‌دهد که سیستم یادگیری ماشین در همه سناریوهای جهان واقعی نیز عملکرد خوبی داشته باشد. اغلب فعالان حوزه هوش مصنوعی فراموش می‌کنند که سخت‌ترین قسمت ساخت یک راهکار هوش مصنوعی، الگوریم هوش مصنوعی نیست، بلکه گردآوری و برچسب‌گذاری داده‌ها است. مجموعه داده‌های استاندارد برای ارزیابی و یا به عنوان نقطه شروع یک راهکار مناسب هستند. در این مطلب، لیستی از مجموعه داده‌های باز (در دسترس عموم) معرفی شده‌اند که در دنیای هوش مصنوعی نیاز بسیاری از افراد را پاسخ می‌دهند.

در این مطلب از چهار سرنام برای هر مجموعه داده استفاده شده است که هر یک در ادامه شرح داده شده‌اند.

(ک) کلاسیک: موارد دارای این نشان برخی از محبوب‌ترین و یا قدیمی‌ترین مجموعه داده‌های حوزه هوش مصنوعی هستند. سخت پیش می‌آید که پژوهشگر یا مهندس داده/یادگیری ماشین با این مجموعه داده‌ها آشنا نباشد.

(د) کارآمد: این نشان برای مجموعه داده‌هایی به کار می‌رود که در پاکسازی شده‌ترین حالت نزدیک به داده‌های جهان واقعی قرار دارند. همچنین، این مجموعه داده‌ها اغلب به اندازه کافی کلی هستند تا هم در زمینه تولید و هم در دنیای تحقیق و توسعه مورد استفاده قرار بگیرند.

(آ) مبنای آکادمیک: مجموعه داده‌های دارای این نشان به طور متداولی در جنبه آکادمیک یادگیری ماشین و هوش مصنوعی به عنوان بنچ‌مارک یا مبنا مورد استفاده قرار می‌گیرند. افراد اغلب از این مجموعه داده‌ها برای اعتباربخشی به الگوریتم‌ها استفاده می‌کنند.

(ق) قدیمی: این نشان برای مجموعه داده‌هایی به کار رفته که صرف نظر از مفید بودن یا نبودن، مدت زیادی است که وجود دارند.

بینایی ماشین

(آ) (ک)  (ق) MNIST (+): یکی از پر استفاده‌ترین مجموعه داده‌ها و شامل ارقام نوشته شده با دست خط افراد است که در مرکز تصویر فایل‌های 25×25 قرار گرفته‌اند. این مجموعه داده می‌تواند برای بررسی صحت عملکرد الگوریتم مناسب باشد.

(ک)  (ق) CIFAR 10 & CIFAR 100 (+): مجموعه داده‌ای از از تصاویر رنگی 32×32 است که استفاده از آن دیگر متداول نیست. این مجموعه داده نیز برای بررسی صحت عملکرد الگوریتم گزینه‌ای مناسب محسوب می‌شود.

(د) (آ)  (ک) ImageNet (+): مجموعه داده‌ای از تصاویر برای الگوریتم‌های جدید و دارای سلسله مراتبی مطابق با WordNet (+) است. در هر گره از سلسله مراتب این مجموعه داده، صدها و هزاران تصویر وجود دارد.

LSUN (+): درک صحنه با وظایف کمکی متعدد (تخمین طرح اتاق، پیش‌بینی برجستگی و دیگر موارد) و رقابت‌های مرتبط با آن.

(آ) PASCAL VOC (+): بخش‌بندی/دسته‌بندی تصویر عمومی برای ساخت مدل‌های جهان واقعی خیلی کاربردی نیست اما به عنوان مبنا بسیار خوب است.

(آ) SVHN (+): مجموعه داده‌ای از شماره منازل گردآوری شده از «گوگل استریت ویو» (Google Street View) است. این مجموعه چیزی شبیه MNIST است، با این تفاوت که داده‌ها از نظم کمتری برخوردار هستند.

MS COCO (+): یک مجموعه داده بزرگ برای بازشناسی، دسته‌بندی و کپشن نویسی تصاویر است. هر سال، رقابت‌هایی بر مبنای این مجموعه داده برگزار می‌شود و جوایزی به افرادی که بهترین مدل‌ها را ارائه کرده باشند تعلق می‌گیرد.

(د) Visual Genome (+): پایگاه دانشی همراه با جزئیات بسیار زیاد و کپشن‌های عمیق برای 1۰۰۰۰۰ تصویر است.

(د) (آ)  (ک)  (ق) Labeled Faces in the Wild (+): مجموعه داده‌ای از تصاویر چهره‌ها است که برای مطالعه مشکل تشخیص چهره بدون محدودیت طراحی شده. این مجموعه داده شامل 13۰۰۰ تصویر از چهره‌هایی است که از اینترنت گردآوری شده‌اند. هر چهره با نام فردی که در عکس قرار دارد نام‌گذاری شده است. 1۶۸۰ نفر از افرادی که عکس آن‌ها در این مجموعه داده وجود دارد دارای دو یا تعداد بیشتری تصویر در مجموعه داده هستند. از این مجموعه داده برای آموزش داده سیستم‌های تطبیق چهره استفاده می‌شود.

زبان طبیعی

(د) (آ) Text Classification Datasets (+): یک مجموعه گسترده ار ۸ مجموعه داده برای دسته‌بندی متن است. این موارد متداول‌ترین مبناهای گزارش شده برای مبناهای دسته‌بندی متن جدید هستند. سایز نمونه 12۰ K تا 3.۶ M است و طیفی از مسائل دودویی تا 14 کلاسی را دارا است. مجموعه داده‌های این مجموعه از DBPedia، آمازون، Yelp، یاهو!، Sogou و AG هستند.

(د) (آ) WikiText (+): مجموعه داده مدل‌سازی زبانی و دارای بیش از 1۰۰ میلیون «توکن» (Token) استخراج شده از مقالات خوب و برگزیده ویکیپدیا هستند. این مجموعه داده تحت گواهینامه «Creative Commons Attribution-ShareAlike» در دسترس و توسط «Salesforce MetaMind» ساخته شده است.

(د) Question Pairs (+): اولین مجموعه داده منتشر شده از Quora که حاوی برچسب‌های مشابهت «معنایی» (Semantic) است.

(د) (آ) SQuAD (+): مجموعه داده بسیار مفید پرسش و پاسخ استنفورد که پاسخ هر پرسش در آن به صورت span یا بخشی از متن قرار گرفته است.

CMU Q/A Dataset (+): مجموعه داده‌ای از جفت پرسش و پاسخ‌های خلاصه تولید شده به صورت دستی با نرخ سختی تعیین شده بر اساس مقالات ویکیپدیا است.

(د) Maluuba Datasets (+): مجموعه داده پیچیده تولید شده توسط انسان برای پژوهش‌های درک زبان طبیعی است.

(د) (آ) Billion Words (+): یک مجموعه داده بزرگ همه منظوره برای مدل‌سازی زبانی است. این مجموعه اغلب برای آموزش دادن ارائه‌های کلمات توزیع شده مانند «word2vec» یا «GloVe» به کار می‌رود.

(د) (آ) Common Crawl (+): این مجموعه داده شامل چندین پتابایت داده حاصل از ۸ سال خزش در وب ( Web Crawling) است. مجموعه مذکور شامل صفحات وب خام، فراداده‌ها (metadata) و متن‌های استخراج شده است. داده‌های Common Crawl در «Amazon Web Services’ Public Data Sets» و پلتفرم ابری آکادمیک در سرتاسر وب ذخیره شده‌اند. دسترسی به این مجموعه داده رایگان است.

(آ) (ک) bAbi (+): مجموعه داده درک مطلب مصنوعی و پرسش و پاسخ تولید شده توسط « Facebook AI Research» است.

(آ) The Children’s Book Test (+): مبنایی برای جفت‌های «پرسش+متن،پاسخ» که از کتاب‌های کودکان موجود در Project Gutenberg استخراج شده‌اند است. این مجموعه داده برای پرسش و پاسخ، درک مطلب و برداشت خلاصه مفید محسوب می‌شود.

(آ) (ک) (ق) Stanford Sentiment Treebank (+): مجموعه داده احساسات استاندارد با حاشیه‌نویسی‌های به خوبی دانه‌بندی شده در هر گره از درخت تجزیه هر جمله است.

(ک) (ق) 20 Newsgroups (+): یکی از مجموعه داده‌های کلاسیک برای دسته‌بندی متن است که معمولا به عنوان بنچ‌مارکی برای دسته‌بندی غنی یا اعتبارسنجی هر الگوریتم اندیس‌گذاری/بازیابی اطلاعات مورد استفاده قرار می‌گیرد.

(ک) (ق) Reuters (+): مجموعه داده قدیمی مبتنی بر دسته‌بندی غنی با متن‌هایی از سرویس‌های خبری است. این مجموعه داده معمولا در آموزش‌ها مورد استفاده قرار می‌گیرد.

(ک) (ق) IMDB (+): یک مجموعه داده قدیمی و نسبتا کوچک برای دسته‌بندی دودویی احساسات است. این مجموعه داده نسبت به مجموعه داده‌های بنچ‌مارک پیشین دارای داده‌های بیشتری است. در مجموعه مذکور 2۵۰۰۰ نقد و بررسی فیلم‌ها با قطبش بالا به عنوان مجموعه تست و 2۵۰۰۰ به عنوان آزمون (تست) وجود دارد.

(ک) (ق) UCI’s Spambase (+): مجموعه داده قدیمی و کلاسیک برای ایمیل‌های اسپم از مخزن یادگیری ماشین UCI است. با توجه به جزئیات اینکه مجموعه داده چگونه پاکسازی شده، می‌تواند به عنوان مبنایی برای یادگیری فیلترینگ اسپم شخصی‌سازی شده مورد استفاده قرار بگیرد.

گفتار

اغلب مجموعه داده‌های گفتار اختصاصی هستند. این داده‌ها ارزش زیادی را برای سازمان به همراه دارند. در عین حال، بیشتر مجموعه داده‌های عمومی موجود در این حوزه قدیمی هستند.

(آ) (ق) 2000 HUB5 English (+): داده‌های گفتار انگلیسی که اخیرا در مقاله «Deep Speech» (+) اثر «بیدو» (Baidu) مورد استفاده قرار گرفته‌اند.

(آ) LibriSpeech (+): مجموعه داده کتاب‌های صوتی شامل متن و گفتار. نزدیک به ۵۰۰ ساعت گفتار تمییز از کتاب‌های صوتی گوناگون که توسط چند گوینده خوانده شده و بر اساس فصل‌های کتاب سازمان‌دهی شده‌اند وجود دارد.

(آ)  (ک) (ق) TIMIT (+): مجموعه داده بازشناسی گفتار برای زبان انگلیسی است.

(د) CHIME (+): مجموعه داده دارای نویز که در رقابت‌های بازشناسی گفتار مورد استفاده قرار می‌گیرد. مجموعه داده مذکور شامل رکوردهای صوتی تمییز، واقعی و شبیه‌سازی شده است. در این مجموعه داده نزدیک به ۹۰۰۰ فایل رکورد شده از 4 گوینده در 4 موقعیت دارای نویز وجود دارد و شبیه‌سازی با ترکیب چند محیط بر فراز گفتار و پاک‌سازی رکوردهای غیر نویزی است.

TED-LIUM (+): رونویس‌های صوتی از سخنرانی‌های TED است. فایل‌های صوتی 14۹۵ سخنرانی TED با رونویس متنی کامل این رکوردها در این مجموعه داده وجود دارند.

سیستم‌های توصیه‌گر و رتبه‌بندی

(ک) (ق) Netflix Challenge (+): این مجموعه داده متعلق به اولین چالش داده‌ای شبیه به Kaggle است. به دلیل مسائل حریم خصوصی، مجموعه داده مذکور به صورت غیر رسمی در دسترس همگان قرار دارد.

(د) (آ) (ک) MovieLens (+): سایزهای متنوعی از داده‌های نقد و بررسی فیلم‌ها است و معمولا برای مبنای «پالایش گروهی» (collaborative filtering) مورد استفاده قرار می‌گیرد.

Million Song Dataset (+): مجموعه داده بزرگ، متن‌باز (open source) و غنی از فراداده موجود در Kaggle است که می‌تواند برای افرادی که با سیستم‌های توصیه‌گر ترکیبی کار می‌کنند مفید واقع شود.

(د) Last.fm (+): مجموعه داده توصیه‌گر موسیقی با دسترسی به همین شبکه اجتماعی (last.m) و دیگر فراداده‌هایی است که می‌توانند برای سیستم‌های ترکیبی مفید واقع شوند.

شبکه‌ها و گراف‌ها

(آ) Amazon Co-Purchasing (+) و Amazon Reviews (+): داده‌های خزش شده از بخش «users who bought this also bought…» آمازون، و نقد و بررسی‌های انجام شده برای محصولات موجود در این وب‌سایت است. این مجموعه داده برای آزمایش سیستم‌های توصیه‌گر در شبکه خوب است.

Friendster Social Network Dataset (+): پیش از «پیوت» (Pivot) این وب‌سایت به عنوان یک سایت بازی، Friendster داده‌های ناشناس شده را به شکل لیست‌های دوستان 103,750,348 کاربر، منتشر کرد.

داده‌های جغرافیایی

(د) (ک) OpenStreetMap (+): داده‌های برداری از کره زمین با گواهینامه آزاد است. این مجموعه داده شامل نسخه قدیمی‌تر مجموعه داده TIGER ایالات متحده آمریکا محسوب می‌شود.

(د) Landsat8 (+): این مجموعه داده حاوی تصاویر ماهواره‌ای از کل کره زمین است و چند هفته یکبار به روز رسانی می‌شود.

(د) NEXRAD (+): اسکن‌های رادار داپلر از شرایط اتمسفری ایالات متحده آمریکا است.

افراد اغلب فکر می‌کنند حل یک مساله روی یک مجموعه داده به معنای داشتن یک محصول کلی است. این در حالی است که همواره باید از یک مجموعه داده برای اعتبارسنجی اثبات مفهوم استفاده شود، اما نباید ساخت نمونه اولیه از محصول یا ارزیابی آن را فراموش کرد و همچنین باید چگونگی عملکرد محصول روی داده‌های جدید، و جهان‌واقعی‌تر را سنجید. شرکت‌های داده‌محور موفق معمولا از توانایی‌های خود در گردآوری داده‌های جدید و اختصاصی قدرت می‌گیرند که کارایی آن‌ها را به شکل قابل دفاعی افزایش می‌دهد.

اگر این مطلب برایتان مفید بوده است،‌ آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *