مسائل «داده‌کاوی» (Data Mining) و «یادگیری ماشین» (Machine Learning)، دارای انواع گوناگونی، شامل «یادگیری نظارت شده» (Supervised Learning) و «یادگیری نظارت نشده» (َUnsupervised Learning) هستند. در مسائل یادگیری نظارت شده، مجموعه داده‌ها دارای برچسب (ستون خروجی در پایگاه داده) هستند. پرسشی که برای برخی افراد ممکن است پیش بیاید، آن است که آیا در صورتی که مجموعه داده فاقد برچسب باشد، می‌توان از آن برای حل مساله به عنوان یک مساله «دسته‌بندی» (Classification) استفاده کرد. دکتر «سید مصطفی کلامی هریس»، در پادکستی که در ادامه آمده، به این پرسش به طور مشروح پاسخ داده است. نسخه متنی این پادکست نیز در همین مطلب قرار دارد. البته، منبع اصلی همچنان فایل صوتی محسوب می‌شود.

پادکست پیرامون داده کاوی در مجموعه داده فاقد برچسب

ذخیره کردن این فایل صوتی: لینک دانلود

نسخه نوشتاری

یکی از دوستان پرسشی را مطرح کردند با این مضمون که، یک مساله از نوع «دسته‌بندی» (Classification) نیست؛ یعنی داده‌های موجود (در مجموعه داده) به صورت طبقه‌بندی شده و یا در واقع، دارای برچسب (Label) نیستند. آیا می‌توان چنین مساله‌ای را که مجموعه داده آن فاقد برچسب است به صورت یک مساله دسته‌بندی مدل کرد و با «دسته‌بند» (Classifier) آن را حل کرد. همچنین، اگر امکان انجام این کار وجود دارد، به چه صورت باید آن را انجام داد. در پاسخ به این پرسش باید گفت که نمی‌شود چنین کاری را انجام داد. زیرا، در مسائل دسته‌بندی نیاز به برچسب وجود دارد. می‌توان برچسب‌ها را در یک مساله که مجموعه داده آن دارای برچسب است نادیده گرفت و مساله را حل کرد، اما وقتی هیچ برچسبی در کار نیست چطور می‌توان مساله را به صورت دسته‌بندی حل کرد. در این شرایط، فرد باید با یک متخصص (Domain Expert) گفتگو کند و از او برای برچسب‌گذاری داده‌های موجود کمک بگیرد.

برای مثال، اگر یک سری نوار قلب و یا نوار مغز وجود دارد که کاربر قصد انجام داده‌کاوی با داده‌های آن‌ها را دارد، باید آن‌ها را در اختیار یک (یا چند) پزشک متخصص آن حوزه قرار دهد، تا متخصص مشخص کند که دارنده یک نوار قلب یا نوار مغز دارای بیماری هست یا خیر و در واقع بدین صورت، داده‌ها را برچسب‌گذاری کند. البته، می‌توان به صورت «دودویی» (Binary) (فرد بیمار هست/نیست و در واقع وجود فقط دو دسته) نباشد و چندین دسته وجود داشته باشد. مثلا، متخصص، داده‌ها (نوار قلب یا نوار مغز) را در دسته‌های کم خطر، پر خطر و فاقد خطر قرار دهد (و در واقع بدین شکل، داده‌ها با نظر متخصص دامنه برچسب‌گذاری شوند). این کار یعنی به «پایگاه داده» (Data Base) یک ستون خروجی اضافه شود.

چنین کاری اگر انجام بشود، طبیعتا می‌توان مساله موجود را با استفاده از این مجموعه داده به عنوان یک مساله دسته‌بندی حل کرد. اما اگر با استفاده از نظر متخصص، داده‌ها برچسب‌گذاری نشوند، امکان انجام این کار وجود ندارد. زیرا خودآموزی که وجود ندارد و نهایتا بهترین کاری که می‌توان با چنین مجموعه داده فاقد برچسبی انجام داد، «خوشه‌بندی» (Clustering) یا در واقع دسته‌بندی خودکار است. این یعنی دسته‌بندی سر خود یا همان خوشه‌بندی. این نهایتا کاری است که می‌توان با پایگاه داده فاقد برچسب و یا در واقع فاقد خروجی انجام داد.

شناخت انواع مسائل موجود در داده‌کاوی بسیار حائز اهمیت است و فرد باید با این انواع آشنایی داشته باشد. واقعیت این است که این مباحث تزئینی نیستند. مطالبی که در دوره یادگیری ماشین، «شبکه عصبی» (Artificial Neural Networks) و یا دوره داده‌کاوی به آن‌ها اشاره شده مباحث تزئینی نیستند که صرفا با بیان یک سری مقدمات بتوان از آن‌ها عبور کرد. نه؛ شناخت نوع مسائل و آگاهی از اینکه هر مساله‌ای را از کدام زاویه می توان حل کرد حائز اهمیت است. به همین دلیل است که در دوره‌های آموزشی فرادرس هم به این موارد پرداخته‌ام و خواهم پرداخت. سعی می‌کنم یک چکیده‌هایی را هم ضبط کرده و در اختیار دوستان قرار بدهم. ولی به عنوان یک جمع‌بندی باید بگویم که یک مساله از نوع دسته‌بندی را می‌توان به مساله خوشه‌بندی تبدیل کرد، ولی عکس آن صادق نیست. زیرا می‌توان داده‌ها را نادیده گرفت ولی نمی‌توان اطلاعات را خلق کرد؛ اگر امکان انجام چنین کاری وجود داشت، بشر دیگر نیازی به هوش مصنوعی نداشت. امیدوارم این توضیحات برای شما کافی بوده باشد.

برای دانلود کردن و شنیدن دیگر پادکست‌های دکتر سید مصطفی کلامی هریس در مجله فرادرس، روی این لینک [+] کلیک کنید.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

بر اساس رای 1 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *