اصطلاحات کاربردی خوشهبندی – به زبان ساده


افراد علاقمند به دادهکاوی و حتی افرادی که در این زمینه در حال فعالیت هستند، نیاز به آشنایی با لغات و اصطلاحات تخصصی این حوزه دارند. یکی از مباحث مهم و کاربردی در دادهکاوی «تحلیل خوشه» (cluster analysis) است. در این مطلب، اصطلاحات مرتبط با مبحث خوشهبندی (Clustering) و تعاریف آنها ارائه شده است.
خوشهبندی روشی برای تحلیل دادهها است که نقاط داده را به منظور «بیشینه کردن مشابهت درون گروهی و کمینه کردن مشابهت برون گروهی»، بدون استفاده از برچسبهای (Label) از پیش تعیین شده برای نقاط (یادگیری نظارت نشده)، گروهبندی میکند (این تعریف توسط ژیاوی هان و همکاران در کتاب «دادهکاوی، مفاهیم و روشها» ارائه شده است). در ادامه، کلمات کلیدی مورد استفاده برای روشهای متداول خوشهبندی و تعاریف آنها ارائه شده است.

انتخاب ویژگی
انتخاب ویژگی (Feature selection) یک مرحله «پیش پردازش» (preprocessing) دادهها است که در آن ویژگیهای دارای افزونگی و ویژگیهای نامرتبط هرس میشوند تا کیفیت خوشهبندی ارتقا پیدا کند. انتخاب ویژگی را میتوان به طور مستقیم با الگوریتم خوشهبندی یکپارچه کرد.
الگوریتم امید ریاضی-بیشینهسازی
الگوریتم امید ریاضی-بیشینهسازی (Expectation Maximization | EM) برای برآورد پارامترهای یک فرم خاص مفروض از مدل تولیدی دادهها استفاده میشود (برای مثال مدل آمیخته گاوسی).
روشهای خوشهبندی مبتنی بر فاصله
k-Means (یا K-میانگین)، روشی برای خوشهبندی با استفاده از فاصله است. این روش احتمالا شناخته شدهترین الگوریتم خوشهبندی محسوب میشود. الگوریتم k-Means به دلیل سادگی بهطور گسترده در پیادهسازیهای عملی مورد استفاده قرار میگیرد. در این الگوریتم معمولا از فاصله اقلیدسی برای محاسبه فاصله بین نقاط داده استفاده میشود. بخشبندی دادهها در خوشهبندی، با توجه به میانگین هر خوشه صورت میپذیرد.
k-medians (یا K-میانه)، مشابهت زیادی به الگوریتم k-Means دارد اما در این روش از «میانه» به جای «میانگین» برای هر بُعد استفاده میشود. این رویکرد نسبت به نویز و دورافتادگی مقاومتر است، زیرا میانه معمولا حساسیت کمتری به مقادیر بسیار بزرگ (یا بسیار کوچک) موجود در میان دادهها دارد.
روشهای مبتنی بر چگالی و شبکه
این روشها در تلاش برای جستوجوی فضای داده در سطح بالایی از «دانهبندی» (granularity) هستند. بدین ترتیب، میتوان از این روشها برای بازسازی شکل کلی توزیع دادهها استفاده کرد. الگوریتمهای DBSCAN و STING دو نمونه کلاسیک از روشهای مبتنی بر چگالی و شبکه هستند.
در روشهای مبتنی بر چگالی (density-based methods)، خوشهها مناطقی با چگالی بیشتر هستند (نقاط داده متراکمتر) که با نواحی دارای چگالی کمتر (تراکم داده کم) از هم جدا شدهاند. در این روشها، نقاطی که در یک محدوده معین (یک شعاع همسایگی خاص) از هم قرار دارند در یک خوشه قرار میگیرند. در روشهای مبتنی بر چگالی، معمولا یک حداقل چگالی در نظر گرفته میشود و در نواحی که این حداقل رعایت شده، خوشهبندی انجام میشود. این روشها ذاتا برای فضای پیوسته تعریف شدهاند، بنابراین استفاده از آنها با انواع داده دلخواه، برای مثال سریهای زمانی، بدون بهرهگیری از تبدیلهای خاص کار دشواری خواهد بود.
روشهای مبتنی بر شبکه (Grid-based methods)، دسته خاصی از روشهای مبتنی بر چگالی هستند که در آنها هر منطقه مجزا در فضای داده که جستوجو میشود، در ساختار شبکه مانندی قرار میگیرد.

تجزیه ماتریسها
«تجزیه ماتریسها» (Matrix Factorization) برای دادههایی مورد استفاده قرار میگیرد که به صورت «ماتریسهای خلوت/اسپارس غیرمنفی» (sparse nonnegative matrices) ارائه شده باشند. به این کار Co-Clustering نیز گفته میشود که طی آن سطرها و ستونهای ماتریسها به طور همزمان خوشهبندی میشوند.
روشهای طیفی
«روشهای طیفی» (spectral methods) از ماتریس فاصله یا مشابهت دادهها به جای کار کردن با نقاط داده یا ابعاد اصلی استفاده میکند. این روشها میتوانند وظیفه قرار دادن دادهها در فضای اقلیدسی را همزمان با کاهش ابعاد آنها انجام دهند. از این رو، روشهای طیفی برای خوشهبندی اشیا دلخواه مانند مجموعه گرهها (Nodes) در گرافها مورد استفاده قرار میگیرند.
روشهای مبتنی بر گراف
روشهای طیفی را میتوان به عنوان «روشهای مبتنی بر گراف» (Graph-based Techniques) به حساب آورد که برای خوشهبندی هر نوعی از دادهها با تبدیل آنها به «ماتریس مشابهت» (similarity matrix) در یک ساختار شبکهای مورد استفاده قرار میگیرند. شباهت زیادی بین انتخابهای متعدد موجود برای ساخت ماتریس مشابهت وجود دارد. برخی از آنها، از انواع سادهتر «گرافهای K-نزدیکترین همسایگی» (k-nearest neighbor graph) یا گرافهای دودویی (binary graph) استفاده میکنند که در آنها فاصله کمتر از یک آستانه داده شده است.
سناریو جریان (خوشهبندی جریان دادهها)
سناریو جریان، انباشت مداوم دادهها در طول زمان است. این امر به دلیل مسائل تحلیل زمان واقعی و مقیاسپذیری، منجر به ایجاد چالشهای گوناگونی میشود.
خوشهبندی یکی از روشهای پر کاربرد در دادهکاوی است. از این روش برای «دستهبندی مشتریان» (customer segmentation)، «بازاریابی هدفمند» (target marketing)، و خلاصهسازی دادهها استفاده میشود. در پژوهشهای انجام گرفته در این حوزه، روشها و کاربردهای متعددی برای خوشهبندی ارائه شده است. «روشهای احتمالاتی» (Probabilistic methods)، «روشهای مبتنی بر فاصله» (distance-based methods)، «روشهای مبتنی بر چگالی» (density-based methods)، «روشهای مبتنی بر شبکه» (grid-based methods)، «روشهای تجزیه به عاملها» (factorization techniques) و «روشهای طیفی» (spectral methods)، از جمله روشهای متداول خوشهبندی هستند.
یکپارچهسازی روشهای انتخاب ویژگی/کاهش ابعاد با روشهای خوشهبندی اغلب در فرآیند تحلیل خوشه به وقوع میپیوندد.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشود:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای هوش محاسباتی
- شبکههای عصبی مصنوعی
- یادگیری ماشین و بازشناسی الگو
- گنجینه آموزش های برنامه نویسی کاربردی متلب — از مقدماتی تا پیشرفته
- آشنایی با خوشهبندی (Clustering) و شیوههای مختلف آن
^^