اصطلاحات کاربردی خوشه‌بندی — به زبان ساده

۸۲۶ بازدید

آخرین به‌روزرسانی: ۱۸ تیر ۱۴۰۲

زمان مطالعه: ۳ دقیقه

اصطلاحات کاربردی خوشه‌بندی — به زبان ساده

افراد علاقمند به داده‌کاوی و حتی افرادی که در این زمینه در حال فعالیت هستند، نیاز به آشنایی با لغات و اصطلاحات تخصصی این حوزه دارند. یکی از مباحث مهم و کاربردی در داده‌کاوی «تحلیل خوشه» (cluster analysis) است. در این مطلب، اصطلاحات مرتبط با مبحث خوشه‌بندی (Clustering) و تعاریف آن‌ها ارائه شده است.

فهرست مطالب این نوشته

انتخاب ویژگی

الگوریتم امید ریاضی-بیشینه‌سازی

روش‌های خوشه‌بندی مبتنی بر فاصله

روش‌های مبتنی بر چگالی و شبکه

تجزیه ماتریس‌ها

روش‌های طیفی

روش‌های مبتنی بر گراف

سناریو جریان (خوشه‌بندی جریان داده‌ها)

خوشه‌بندی روشی برای تحلیل داده‌ها است که نقاط داده را به منظور «بیشینه کردن مشابهت درون گروهی و کمینه کردن مشابهت برون گروهی»، بدون استفاده از برچسب‌های (Label) از پیش تعیین شده برای نقاط (یادگیری نظارت نشده)، گروه‌بندی می‌کند (این تعریف توسط ژیاوی هان و همکاران در کتاب «داده‌کاوی، مفاهیم و روش‌ها» ارائه شده است). در ادامه، کلمات کلیدی مورد استفاده برای روش‌های متداول خوشه‌بندی و تعاریف آن‌ها ارائه شده است.

انتخاب ویژگی

انتخاب ویژگی (Feature selection) یک مرحله «پیش پردازش» (preprocessing) داده‌ها است که در آن ویژگی‌های دارای افزونگی و ویژگی‌های نامرتبط هرس می‌شوند تا کیفیت خوشه‌بندی ارتقا پیدا کند. انتخاب ویژگی را می‌توان به طور مستقیم با الگوریتم خوشه‌بندی یکپارچه کرد.

فیلم آموزش مبانی انتخاب ویژگی Feature Selection در داده کاوی در فرادرس

کلیک کنید

الگوریتم امید ریاضی-بیشینه‌سازی

الگوریتم امید ریاضی-بیشینه‌سازی (Expectation Maximization | EM ) برای برآورد پارامترهای یک فرم خاص مفروض از مدل تولیدی داده‌ها استفاده می‌شود (برای مثال مدل آمیخته گاوسی).

فیلم آموزش تئوری احتمالات – جامع و با مفاهیم کلیدی در فرادرس

کلیک کنید

روش‌های خوشه‌بندی مبتنی بر فاصله

k-Means (یا K-میانگین)، روشی برای خوشه‌بندی با استفاده از فاصله است. این روش احتمالا شناخته شده‌ترین الگوریتم خوشه‌بندی محسوب می‌شود. الگوریتم k-Means به دلیل سادگی به‌طور گسترده در پیاده‌سازی‌های عملی مورد استفاده قرار می‌گیرد. در این الگوریتم معمولا از فاصله اقلیدسی برای محاسبه فاصله بین نقاط داده استفاده می‌شود. بخش‌بندی داده‌ها در خوشه‌بندی، با توجه به میانگین هر خوشه صورت می‌پذیرد.

فیلم آموزش خوشه بندی با الگوریتم های تکاملی و فراابتکاری در فرادرس

کلیک کنید

k-medians (یا K-میانه)، مشابهت زیادی به الگوریتم k-Means دارد اما در این روش از «میانه» به جای «میانگین» برای هر بُعد استفاده می‌شود. این رویکرد نسبت به نویز و دورافتادگی مقاوم‌تر است، زیرا میانه معمولا حساسیت کمتری به مقادیر بسیار بزرگ (یا بسیار کوچک) موجود در میان داده‌ها دارد.

روش‌های مبتنی بر چگالی و شبکه

این روش‌ها در تلاش برای جست‌و‌جوی فضای داده در سطح بالایی از «دانه‌بندی» (granularity) هستند. بدین ترتیب، می‌توان از این روش‌ها برای بازسازی شکل کلی توزیع داده‌ها استفاده کرد. الگوریتم‌های DBSCAN و STING دو نمونه کلاسیک از روش‌های مبتنی بر چگالی و شبکه هستند.

فیلم آموزش اصول و روش های متن کاوی Text Mining در فرادرس

کلیک کنید

در روش‌های مبتنی بر چگالی (density-based methods)، خوشه‌ها مناطقی با چگالی بیشتر هستند (نقاط داده متراکم‌تر) که با نواحی دارای چگالی کم‌تر (تراکم داده کم) از هم جدا شده‌اند. در این روش‌ها، نقاطی که در یک محدوده معین (یک شعاع همسایگی خاص) از هم قرار دارند در یک خوشه قرار می‌گیرند. در روش‌های مبتنی بر چگالی، معمولا یک حداقل چگالی در نظر گرفته می‌شود و در نواحی که این حداقل رعایت شده، خوشه‌بندی انجام می‌شود. این روش‌ها ذاتا برای فضای پیوسته تعریف شده‌اند، بنابراین استفاده از آن‌ها با انواع داده دلخواه، برای مثال سری‌های زمانی، بدون بهره‌گیری از تبدیل‌های خاص کار دشواری خواهد بود.

روش‌های مبتنی بر شبکه (Grid-based methods)، دسته خاصی از روش‌های مبتنی بر چگالی هستند که در آن‌ها هر منطقه مجزا در فضای داده که جست‌و‌جو می‌شود، در ساختار شبکه مانندی قرار می‌گیرد.

الگوریتم DBSCAN می‌تواند خوشه‌هایی که به طور خطی قابل جداسازی نیستند را پیدا کند. این الگوریتم در چنین مواردی بهتر از روش‌های K میانه و مدل آمیخته گاوسی کار می‌کند.

تجزیه ماتریس‌ها

«تجزیه ماتریس‌ها» (Matrix Factorization) برای داده‌هایی مورد استفاده قرار می‌گیرد که به صورت «ماتریس‌های خلوت/اسپارس غیرمنفی» (sparse nonnegative matrices) ارائه شده باشند. به این کار Co-Clustering نیز گفته می‌شود که طی آن سطرها و ستون‌های ماتریس‌ها به طور همزمان خوشه‌بندی می‌شوند.

فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python – بخش دوم در فرادرس

کلیک کنید

روش‌های طیفی

«روش‌های طیفی» (spectral methods) از ماتریس فاصله یا مشابهت داده‌ها به جای کار کردن با نقاط داده یا ابعاد اصلی استفاده می‌کند. این روش‌ها می‌توانند وظیفه قرار دادن داده‌ها در فضای اقلیدسی را همزمان با کاهش ابعاد آن‌ها انجام دهند. از این رو، روش‌های طیفی برای خوشه‌بندی اشیا دلخواه مانند مجموعه گره‌ها (Nodes) در گراف‌ها مورد استفاده قرار می‌گیرند.

فیلم آموزش خوشه بندی تفکیکی با نرم افزار آر R در فرادرس

کلیک کنید

روش‌های مبتنی بر گراف

روش‌های طیفی را می‌توان به عنوان «روش‌های مبتنی بر گراف» (Graph-based Techniques) به حساب آورد که برای خوشه‌بندی هر نوعی از داده‌ها با تبدیل آن‌ها به «ماتریس مشابهت» (similarity matrix) در یک ساختار شبکه‌ای مورد استفاده قرار می‌گیرند. شباهت زیادی بین انتخاب‌های متعدد موجود برای ساخت ماتریس مشابهت وجود دارد. برخی از آن‌ها، از انواع ساده‌تر «گراف‌های K-نزدیک‌ترین همسایگی» (k-nearest neighbor graph) یا گراف‌های دودویی (binary graph) استفاده می‌کنند که در آن‌ها فاصله کمتر از یک آستانه داده شده است.

فیلم آموزش شبکه های پیچیده پویا Complex Dynamical Networks در فرادرس

کلیک کنید

سناریو جریان (خوشه‌بندی جریان داده‌ها)

سناریو جریان، انباشت مداوم داده‌ها در طول زمان است. این امر به دلیل مسائل تحلیل زمان واقعی و مقیاس‌پذیری، منجر به ایجاد چالش‌های گوناگونی می‌شود.

فیلم آموزش خوشه بندی سلسله مراتبی در آر R در فرادرس

کلیک کنید

خوشه‌بندی یکی از روش‌های پر کاربرد در داده‌کاوی است. از این روش برای «دسته‌بندی مشتریان» (customer segmentation)، «بازاریابی هدفمند» (target marketing)، و خلاصه‌سازی داده‌ها استفاده می‌شود. در پژوهش‌های انجام گرفته در این حوزه، روش‌ها و کاربردهای متعددی برای خوشه‌بندی ارائه شده است. «روش‌های احتمالاتی» (Probabilistic methods)، «روش‌های مبتنی بر فاصله» (distance-based methods)، «روش‌های مبتنی بر چگالی» (density-based methods)، «روش‌های مبتنی بر شبکه» (grid-based methods)، «روش‌های تجزیه به عامل‌ها» (factorization techniques) و «روش‌های طیفی» (spectral methods)، از جمله روش‌های متداول خوشه‌بندی هستند.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

یکپارچه‌سازی روش‌های انتخاب ویژگی/کاهش ابعاد با روش‌های خوشه‌بندی اغلب در فرآیند تحلیل خوشه به وقوع می‌پیوندد.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

بر اساس رای ۸ نفر

آیا این مطلب برای شما مفید بود؟

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

منابع:

kdnuggets

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

نظر شما چیست؟

برچسب‌ها

اصطلاحات کاربردی خوشه‌بندی — به زبان ساده

انتخاب ویژگی

الگوریتم امید ریاضی-بیشینه‌سازی

روش‌های خوشه‌بندی مبتنی بر فاصله

روش‌های مبتنی بر چگالی و شبکه

تجزیه ماتریس‌ها

روش‌های طیفی

روش‌های مبتنی بر گراف

سناریو جریان (خوشه‌بندی جریان داده‌ها)

لینکدین چیست ؟ + آموزش نحوه استفاده موثر و کاربردی

رضایت شغلی چیست ؟ – از تعریف تا اهمیت و عوامل موثر بر آن

افزایش بهره وری در محیط کار – به زبان ساده + عوامل و روش ها

شغل برنامه نویسی چیست ؟ – از وظایف تا درآمد و مزایا و معایب

چگونه رزومه بنویسیم تا دیده شویم؟ – از صفر تا صد

انواع رزومه کاری و کاربرد هر یک – معرفی ۷ نوع رزومه

رزومه کاری چیست و چگونه است؟ – هر آنچه باید بدانید

چارت سازمانی چیست ؟ – انواع، چیدمان، نمونه و دیگر دانستنی ها

آموزش رزومه نویسی حرفه ای – از صفر تا صد + فیلم رایگان

نحوه دیلیت اکانت لینکدین به صورت تصویری