داده کاوی در مجموعه داده فاقد برچسب – پادکست پرسش و پاسخ


مسائل «دادهکاوی» (Data Mining) و «یادگیری ماشین» (Machine Learning)، دارای انواع گوناگونی، شامل «یادگیری نظارت شده» (Supervised Learning) و «یادگیری نظارت نشده» (َUnsupervised Learning) هستند. در مسائل یادگیری نظارت شده، مجموعه دادهها دارای برچسب (ستون خروجی در پایگاه داده) هستند. پرسشی که برای برخی افراد ممکن است پیش بیاید، آن است که آیا در صورتی که مجموعه داده فاقد برچسب باشد، میتوان از آن برای حل مساله به عنوان یک مساله «دستهبندی» (Classification) استفاده کرد. دکتر «سید مصطفی کلامی هریس»، در پادکستی که در ادامه آمده، به این پرسش به طور مشروح پاسخ داده است. نسخه متنی این پادکست نیز در همین مطلب قرار دارد. البته، منبع اصلی همچنان فایل صوتی محسوب میشود.
پادکست پیرامون داده کاوی در مجموعه داده فاقد برچسب
ذخیره کردن این فایل صوتی: لینک دانلود
نسخه نوشتاری
یکی از دوستان پرسشی را مطرح کردند با این مضمون که، یک مساله از نوع «دستهبندی» (Classification) نیست؛ یعنی دادههای موجود (در مجموعه داده) به صورت طبقهبندی شده و یا در واقع، دارای برچسب (Label) نیستند. آیا میتوان چنین مسالهای را که مجموعه داده آن فاقد برچسب است به صورت یک مساله دستهبندی مدل کرد و با «دستهبند» (Classifier) آن را حل کرد. همچنین، اگر امکان انجام این کار وجود دارد، به چه صورت باید آن را انجام داد. در پاسخ به این پرسش باید گفت که نمیشود چنین کاری را انجام داد.
زیرا، در مسائل دستهبندی نیاز به برچسب وجود دارد. میتوان برچسبها را در یک مساله که مجموعه داده آن دارای برچسب است نادیده گرفت و مساله را حل کرد، اما وقتی هیچ برچسبی در کار نیست چطور میتوان مساله را به صورت دستهبندی حل کرد. در این شرایط، فرد باید با یک متخصص (Domain Expert) گفتگو کند و از او برای برچسبگذاری دادههای موجود کمک بگیرد.
برای مثال، اگر یک سری نوار قلب و یا نوار مغز وجود دارد که کاربر قصد انجام دادهکاوی با دادههای آنها را دارد، باید آنها را در اختیار یک (یا چند) پزشک متخصص آن حوزه قرار دهد، تا متخصص مشخص کند که دارنده یک نوار قلب یا نوار مغز دارای بیماری هست یا خیر و در واقع بدین صورت، دادهها را برچسبگذاری کند. البته، میتوان به صورت «دودویی» (Binary) (فرد بیمار هست/نیست و در واقع وجود فقط دو دسته) نباشد و چندین دسته وجود داشته باشد. مثلا، متخصص، دادهها (نوار قلب یا نوار مغز) را در دستههای کم خطر، پر خطر و فاقد خطر قرار دهد (و در واقع بدین شکل، دادهها با نظر متخصص دامنه برچسبگذاری شوند). این کار یعنی به «پایگاه داده» (Data Base) یک ستون خروجی اضافه شود.
چنین کاری اگر انجام بشود، طبیعتا میتوان مساله موجود را با استفاده از این مجموعه داده به عنوان یک مساله دستهبندی حل کرد. اما اگر با استفاده از نظر متخصص، دادهها برچسبگذاری نشوند، امکان انجام این کار وجود ندارد. زیرا خودآموزی که وجود ندارد و نهایتا بهترین کاری که میتوان با چنین مجموعه داده فاقد برچسبی انجام داد، «خوشهبندی» (Clustering) یا در واقع دستهبندی خودکار است. این یعنی دستهبندی سر خود یا همان خوشهبندی. این نهایتا کاری است که میتوان با پایگاه داده فاقد برچسب و یا در واقع فاقد خروجی انجام داد.
شناخت انواع مسائل موجود در دادهکاوی بسیار حائز اهمیت است و فرد باید با این انواع آشنایی داشته باشد. واقعیت این است که این مباحث تزئینی نیستند. مطالبی که در دوره یادگیری ماشین، «شبکه عصبی» (Artificial Neural Networks) و یا دوره دادهکاوی به آنها اشاره شده مباحث تزئینی نیستند که صرفا با بیان یک سری مقدمات بتوان از آنها عبور کرد. نه؛ شناخت نوع مسائل و آگاهی از اینکه هر مسالهای را از کدام زاویه می توان حل کرد حائز اهمیت است. به همین دلیل است که در دورههای آموزشی فرادرس هم به این موارد پرداختهام و خواهم پرداخت. سعی میکنم یک چکیدههایی را هم ضبط کرده و در اختیار دوستان قرار بدهم. ولی به عنوان یک جمعبندی باید بگویم که یک مساله از نوع دستهبندی را میتوان به مساله خوشهبندی تبدیل کرد، ولی عکس آن صادق نیست. زیرا میتوان دادهها را نادیده گرفت ولی نمیتوان اطلاعات را خلق کرد؛ اگر امکان انجام چنین کاری وجود داشت، بشر دیگر نیازی به هوش مصنوعی نداشت. امیدوارم این توضیحات برای شما کافی بوده باشد.
برای دانلود کردن و شنیدن دیگر پادکستهای دکتر سید مصطفی کلامی هریس در مجله فرادرس، روی این لینک [+] کلیک کنید.
اگر نوشته بالا برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای دادهکاوی و یادگیری ماشین
- آموزش دادهکاوی یا Data Mining در متلب
- مجموعه آموزشهای هوش مصنوعی
- آموزش شبکههای عصبی مصنوعی در متلب
- آموزش طبقهبندی و بازشناسی الگو با شبکههای عصبی LVQ در متلب
^^