خوشه‌بندی و تفسیر نتایج آن

۳۳۵ بازدید
آخرین به‌روزرسانی: ۱۸ تیر ۱۴۰۲
زمان مطالعه: ۳ دقیقه
دانلود PDF مقاله
خوشه‌بندی و تفسیر نتایج آن
997696

با افزایش آگاهی مدیران سازمان‌ها، کسب‌و‌کارها، نهادهای بهداشتی و درمانی و دانشگاه‌ها از مزایایی که داده‌کاوی برای آن‌ها به ارمغان می‌آورد، در سال‌های اخیر پروژه‌های کاوش داده متعددی در سازمان‌ها اجرایی شده است. تحلیل سبد خرید، تشخیص کلاه‌برداری، تشخیص وام‌گیرندگان قابل اعتماد، تحلیل شبکه‌های اجتماعی، تشخیص انواع سرطان و تحلیل بازار تنها بخشی از موضوعاتی است که این روزها پروژه‌ها و پژوهش‌های داده‌کاوی حول محور آن انجام می‌شود.

برای انجام پروژه‌های داده‌کاوی، راهکارهای نظارت شده، نظارت نشده و نیمه‌نظارت شده‌ای وجود دارد که بسته به نوع مساله قابل استفاده هستند. دکتر مارتین اشمیتز (Martin Schmitz)، دانشمند داده و از نویسندگان «Toward Data Science» در رابطه با استفاده از الگوریتم‌های خوشه‌بندی (روش‌های نظارت نشده) می‌گوید: «من با کارفرماهای زیادی برای انجام پروژه‌های داده‌کاوی همکاری کرده‌ام. گاهی مشتریان تمایل به استفاده از روش‌های خوشه‌بندی دارند و من همه سعیم را برای اجتناب از این کار می‌کنم. دلیل این اجتناب، یک قانون سرانگشتی ساده است؛ اگر می‌توانید از روش‌های نظارت شده استفاده کنید، پس این کار را انجام دهید!». اما گاهی نیز تبدیل مساله خوشه‌بندی به دسته‌بندی امکان‌پذیر نیست و لذا نیاز به راهکارهایی مطرح می‌شود که برای تفسیر نتایج خوشه‌بندی بتوان از آن‌ها استفاده کرد. آنچه در ادامه می‌خوانید، نظرات مارتین اشمیتز در همین رابطه است.

هر تحلیلی دارای یک مجموعه از پارامترها است. این پارامترها باید در هر پروژه‌ای تعیین شوند. در مسائلی که نظارت شده هستند، آنچه باید بهینه شود کاملا مشخص است و چیزی به جز ارزش کسب‌و‌کار نیست. در مسائل نظارت نشده، همواره بحث‌های متعددی در رابطه با انتخاب سنجه‌های مناسب شکل می‌گیرد. راهکارهای متعددی برای اندازه‌گیری کیفیت خوشه‌بندی وجود دارد که از آن جمله می‌توان به شاخص «Davies-Bouldin» و ضریب «silhouette» اشاره کرد.

نکته قابل توجه آن است که بسیاری از مسائل تقسیم‌بندی قابل تبدیل به دسته‌بندی هستند. این کار همیشه توصیه می‌شود! تنها در برخی موقعیت‌های خاص است که به داده‌کاوها گفته می‌شود از خوشه‌بندی به‌جای طبقه‌بندی استفاده کنند. دلیل این توصیه تولید نتایجی است که برای انسان قابل تفسیر باشد و مدیران را در تراز کردن اهداف کسب‌و‌کارشان یاری کند. در ادامه راهکارهایی بیان می‌شود که تشریح نتایج خوشه‌بندی را ساده کند.

ترفند اول: تبدیل آن به مساله انتخاب ویژگی

در تحلیل‌های داده نیاز به نگاشت پرسش‌های کسب‌و‌کار به یک روش است. در چنین شرایطی، این پرسش‌ها مطرح می‌شوند که: چه چیزی خوشه‌ها را به بهترین شکل توصیف می‌کند؟ (در این مثال cluster_0) یا به عبارت دیگر، چه چیزی یک خوشه (cluster_0) را از سایر خوشه‌ها متمایز می‌کند؟ این پرسش‌ها را می‌توان به صورت یک مساله انتخاب ویژگی تفسیر کرد.

تنها کافیست که مشخص شود کدام ویژگی قدرت ایجاد تمایز بین داده‌ها (در این مثال بین خوشه O و X) را دارد. توصیه می‌شود از این ترفند در همه مسائل استفاده شود، زیرا به‌طور مستقیم پاسخ پرسش‌های طرح شده را فراهم می‌کند.

داده‌ها در دو بخش تقسیم‌بندی شده‌اند. یک روش انتخاب ویژگی، قادر به تشخیص ابعادی است که برای تمییز کلاس‌ها از یکدیگر لازم هستند.

روش‌های متداول انتخاب ویژگی مانند wrapper یا فیلترگذاری، یک لیست از ویژگی‌ها و میزان اهمیت آن‌ها فراهم می‌کنند.

در مجموعه داده معروف تایتانیک، ویژگی‌های سن، جنسیت و مسافر مهم‌ترین خصیصه‌ها هستند. این امر امکان نام‌گذاری خوشه را با عنوان «Age-Gender-Passenger Class» فراهم می‌کند. مساله‌ای که در اینجا مطرح می‌شود آن است که به هنگام شناسایی فاکتورهای مهم، جهت آن‌ها نام‌گذاری نمی‌شود. آیا این خوشه متعلق به مردهای کهنسال است، یا زنان جوان؟ با استفاده از مختصات مرکزوار (centroid) می‌توان به نتایج عمیق‌تری در این رابطه دست یافت. اما یک راهکار ساده‌تر نیز وجود دارد: درخت تصمیم!

ترفند دوم: درخت تصمیم

درخت‌های تصمیم همواره از قابل درک‌ترین مدل‌های یادگیری ماشین هستند. معمولا، از این مدل‌ها برای حل مسائل دسته‌بندی استفاده می‌شود.

در اینجا از آن‌ها برای تمییز دادن خوشه cluster_0 و دیگر خوشه‌ها استفاده می‌شود.

درخت تصمیم توانایی ایجاد تمایز بین کلاس‌های گوناگون را دارد و به داده‌کاو می‌گوید که کدام ویژگی‌ها مهم‌تر هستند.

گام بعدی، تحلیل انشعاب‌های درخت تصمیم است. همه انشعاب‌هایی که cluster_0 را پیش‌بینی می‌کنند می‌توانند به‌عنوان توصیف استفاده شوند. شاخه‌ها را می‌توان به صورت زیر دریافت کرد:

Age < 20 AND Passenger Class= First AND Gender= female

که cluster_0 را به خوبی توصیف می‌کند.

با نگاهی به صحت آموزش درخت، می‌توان دید که توصیف ارائه شده چقدر دقیق محسوب می‌شود. لازم به ذکر است که همواره باید بین تفسیرپذیری و کیفیت نتایج، تعادل برقرار باشد. این کار را می‌توان با هرس کردن انجام داد. توصیه می‌شود که برش‌های عمیقی در درخت زده شود.

تجربیات پیشین نشان می‌دهد که هرس در عمق ۴ یا ۵ می‌تواند به نتایج خوبی منجر شود. انسان‌ها اغلب توانایی خود برای تفسیر مدل‌ها را بیش از آنچه هست تخمین می‌زنند و در درخت‌های تصمیم، برای همه برش‌ها اهمیت یکسانی قائل هستند. این در حالیست که هر ناحیه باید متناسب با زمینه و سلسله مراتب آن تفسیر شود.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

^^

بر اساس رای ۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
TowardsDataScience
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *