داده کاوی، هوش مصنوعی ۲۷۳۸ بازدید

افراد علاقمند به داده‌کاوی و حتی افرادی که در این زمینه در حال فعالیت هستند، نیاز به آشنایی با لغات و اصطلاحات تخصصی این حوزه دارند. یکی از مباحث مهم و کاربردی در داده‌کاوی «تحلیل خوشه» (cluster analysis) است. در این مطلب، اصطلاحات مرتبط با مبحث خوشه‌بندی (Clustering) و تعاریف آن‌ها ارائه شده است.

خوشه‌بندی روشی برای تحلیل داده‌ها است که نقاط داده را به منظور «بیشینه کردن مشابهت درون گروهی و کمینه کردن مشابهت برون گروهی»، بدون استفاده از برچسب‌های (Label) از پیش تعیین شده برای نقاط (یادگیری نظارت نشده)، گروه‌بندی می‌کند (این تعریف توسط ژیاوی هان و همکاران در کتاب «داده‌کاوی، مفاهیم و روش‌ها» ارائه شده است). در ادامه، کلمات کلیدی مورد استفاده برای روش‌های متداول خوشه‌بندی و تعاریف آن‌ها ارائه شده است.

خوشه‌بندی
خوشه‌های گوناگون به رنگ‌های مختلف

انتخاب ویژگی

انتخاب ویژگی (Feature selection) یک مرحله «پیش پردازش» (preprocessing) داده‌ها است که در آن ویژگی‌های دارای افزونگی و ویژگی‌های نامرتبط هرس می‌شوند تا کیفیت خوشه‌بندی ارتقا پیدا کند. انتخاب ویژگی را می‌توان به طور مستقیم با الگوریتم خوشه‌بندی یکپارچه کرد.

الگوریتم امید ریاضی-بیشینه‌سازی

الگوریتم امید ریاضی-بیشینه‌سازی (Expectation Maximization | EM) برای برآورد پارامترهای یک فرم خاص مفروض از مدل تولیدی داده‌ها استفاده می‌شود (برای مثال مدل آمیخته گاوسی).

روش‌های خوشه‌بندی مبتنی بر فاصله

k-Means (یا K-میانگین)، روشی برای خوشه‌بندی با استفاده از فاصله است. این روش احتمالا شناخته شده‌ترین الگوریتم خوشه‌بندی محسوب می‌شود. الگوریتم k-Means به دلیل سادگی به‌طور گسترده در پیاده‌سازی‌های عملی مورد استفاده قرار می‌گیرد. در این الگوریتم معمولا از فاصله اقلیدسی برای محاسبه فاصله بین نقاط داده استفاده می‌شود. بخش‌بندی داده‌ها در خوشه‌بندی، با توجه به میانگین هر خوشه صورت می‌پذیرد.

k-medians (یا K-میانه)، مشابهت زیادی به الگوریتم k-Means دارد اما در این روش از «میانه» به جای «میانگین» برای هر بُعد استفاده می‌شود. این رویکرد نسبت به نویز و دورافتادگی مقاوم‌تر است، زیرا میانه معمولا حساسیت کمتری به مقادیر بسیار بزرگ (یا بسیار کوچک) موجود در میان داده‌ها دارد.

روش‌های مبتنی بر چگالی و شبکه

این روش‌ها در تلاش برای جست‌و‌جوی فضای داده در سطح بالایی از «دانه‌بندی» (granularity) هستند. بدین ترتیب، می‌توان از این روش‌ها برای بازسازی شکل کلی توزیع داده‌ها استفاده کرد. الگوریتم‌های DBSCAN و STING دو نمونه کلاسیک از روش‌های مبتنی بر چگالی و شبکه هستند.

در روش‌های مبتنی بر چگالی (density-based methods)، خوشه‌ها مناطقی با چگالی بیشتر هستند (نقاط داده متراکم‌تر) که با نواحی دارای چگالی کم‌تر (تراکم داده کم) از هم جدا شده‌اند. در این روش‌ها، نقاطی که در یک محدوده معین (یک شعاع همسایگی خاص) از هم قرار دارند در یک خوشه قرار می‌گیرند. در روش‌های مبتنی بر چگالی، معمولا یک حداقل چگالی در نظر گرفته می‌شود و در نواحی که این حداقل رعایت شده، خوشه‌بندی انجام می‌شود. این روش‌ها ذاتا برای فضای پیوسته تعریف شده‌اند، بنابراین استفاده از آن‌ها با انواع داده دلخواه، برای مثال سری‌های زمانی، بدون بهره‌گیری از تبدیل‌های خاص کار دشواری خواهد بود.

روش‌های مبتنی بر شبکه (Grid-based methods)، دسته خاصی از روش‌های مبتنی بر چگالی هستند که در آن‌ها هر منطقه مجزا در فضای داده که جست‌و‌جو می‌شود، در ساختار شبکه مانندی قرار می‌گیرد.

DBSCAN
الگوریتم DBSCAN می‌تواند خوشه‌هایی که به طور خطی قابل جداسازی نیستند را پیدا کند. این الگوریتم در چنین مواردی بهتر از روش‌های K میانه و مدل آمیخته گاوسی کار می‌کند.

تجزیه ماتریس‌ها

«تجزیه ماتریس‌ها» (Matrix Factorization) برای داده‌هایی مورد استفاده قرار می‌گیرد که به صورت «ماتریس‌های خلوت/اسپارس غیرمنفی» (sparse nonnegative matrices) ارائه شده باشند. به این کار Co-Clustering نیز گفته می‌شود که طی آن سطرها و ستون‌های ماتریس‌ها به طور همزمان خوشه‌بندی می‌شوند.

روش‌های طیفی

«روش‌های طیفی» (spectral methods) از ماتریس فاصله یا مشابهت داده‌ها به جای کار کردن با نقاط داده یا ابعاد اصلی استفاده می‌کند. این روش‌ها می‌توانند وظیفه قرار دادن داده‌ها در فضای اقلیدسی را همزمان با کاهش ابعاد آن‌ها انجام دهند. از این رو، روش‌های طیفی برای خوشه‌بندی اشیا دلخواه مانند مجموعه گره‌ها (Nodes) در گراف‌ها مورد استفاده قرار می‌گیرند.

روش‌های مبتنی بر گراف

روش‌های طیفی را می‌توان به عنوان «روش‌های مبتنی بر گراف» (Graph-based Techniques) به حساب آورد که برای خوشه‌بندی هر نوعی از داده‌ها با تبدیل آن‌ها به «ماتریس مشابهت» (similarity matrix) در یک ساختار شبکه‌ای مورد استفاده قرار می‌گیرند. شباهت زیادی بین انتخاب‌های متعدد موجود برای ساخت ماتریس مشابهت وجود دارد. برخی از آن‌ها، از انواع ساده‌تر «گراف‌های K-نزدیک‌ترین همسایگی» (k-nearest neighbor graph) یا گراف‌های دودویی (binary graph) استفاده می‌کنند که در آن‌ها فاصله کمتر از یک آستانه داده شده است.

سناریو جریان (خوشه‌بندی جریان داده‌ها)

سناریو جریان، انباشت مداوم داده‌ها در طول زمان است. این امر به دلیل مسائل تحلیل زمان واقعی و مقیاس‌پذیری، منجر به ایجاد چالش‌های گوناگونی می‌شود.

خوشه‌بندی یکی از روش‌های پر کاربرد در داده‌کاوی است. از این روش برای «دسته‌بندی مشتریان» (customer segmentation)، «بازاریابی هدفمند» (target marketing)، و خلاصه‌سازی داده‌ها استفاده می‌شود. در پژوهش‌های انجام گرفته در این حوزه، روش‌ها و کاربردهای متعددی برای خوشه‌بندی ارائه شده است. «روش‌های احتمالاتی» (Probabilistic methods)، «روش‌های مبتنی بر فاصله» (distance-based methods)، «روش‌های مبتنی بر چگالی» (density-based methods)، «روش‌های مبتنی بر شبکه» (grid-based methods)، «روش‌های تجزیه به عامل‌ها» (factorization techniques) و «روش‌های طیفی» (spectral methods)، از جمله روش‌های متداول خوشه‌بندی هستند. یکپارچه‌سازی روش‌های انتخاب ویژگی/کاهش ابعاد با روش‌های خوشه‌بندی اغلب در فرآیند تحلیل خوشه به وقوع می‌پیوندد.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

^^

بر اساس رای ۶ نفر
آیا این مطلب برای شما مفید بود؟
شما قبلا رای داده‌اید!
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.