تحلیل خوشه‌بندی، یک تحلیل اکتشافی محسوب می‌شود. به وسیله این روش، امکان کشف ساختار داده‌ها بوجود می‌آید. به این ترتیب داده‌های متجانس و یک شکل مشخص شده و در یک دسته قرار  می‌گیرند. از طرفی بین دسته‌ها، کمترین شباهت وجود دارد. یکی از روش‌های مرسوم در دسته‌بندی داده‌ها خوشه بندی سلسله مراتبی (Hierarchical Clustering) است. خوشبختانه در بیشتر نرم‌افزارهای محاسبات آماری مانند SPSS امکان اجرای روش‌های مختلف خوشه‌بندی وجود دارد.

در این نوشتار به بررسی شیوه اجرای خوشه‌بندی سلسله مراتبی در SPSS خواهیم پرداخت. برای آشنایی بیشتر با شیوه‌های مختلف خوشه‌بندی و سنجش فاصله، مطلب آشنایی با خوشه‌بندی (Clustering) و شیوه‌های مختلف آن و فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در داده‌کاوی را بخوانید. همچنین خواندن نوشتار ماتریس مشابهت (Similarity) و فاصله (Distance) به همراه کدهای محاسباتی در R — راهنمای گام به گام نیز خالی از لطف نیست.

خوشه بندی سلسله مراتبی

در دیگر نوشتارهای فرادرس با مفهوم خوشه‌بندی آشنا شده‌اید. یکی از پرکاربردترین روش‌های خوشه‌بندی، «خوشه‌بندی سلسله مراتبی» (Hierarchical Clustering) است. در این روش مناسب برای داده‌هایی «دو دویی» (Binary)، متنی (Text) و عددی مناسب است. خوشه‌بندی در زمینه‌های مختلفی نظیر داروسازی، بهداشت، تجارت و کسب و کار و حتی علوم اجتماعی کاربرد دارد. به همین دلیل در این نوشتار از نرم‌افزار SPSS که برای کسانی که با آمار آشنایی زیادی ندارند، قابل استفاده‌تر است کمک گرفته‌ایم تا محاسبات و تحلیل خوشه‌بندی را انجام دهیم و از نتایج حاصل، بهترین بهره را ببریم. در خوشه‌بندی سلسله مراتبی، با طی کردن مراحل تکراری نرم‌افزار SPSS سعی می‌کند دسته‌هایی با بیشتری شباهت را ایجاد کند. این کار به دو شیوه صورت می‌پذیرد. شیوه «تقسیمی» (Divisive) و «ترکیبی» (Agglomerative).

البته گاهی به خوشه‌بندی تقسیمی، روش تفکیکی و به خوشه‌بندی ترکیبی روش تجمیعی نیز گفته می‌شود. حالت اول یا خوشه بندی سلسله مراتبی تقسیمی، همه مشاهدات در ابتدا یک خوشه را می‌سازند سپس با طی شدن مراحل بعدی، خوشه‌های جدید پدید آمده و داده‌ها در آن‌ها تقسیم‌بندی می‌شوند. در انتها مراحل الگوریتم خوشه‌بندی تقسیمی هر مشاهده تشکیل یک خوشه را می‌دهد.

در روش خوشه‌بندی ترکیبی، ابتدا هر مشاهده یک خوشه محسوب می‌شود. با طی شدن مراحل الگوریتم خوشه‌بندی ترکیبی، داده‌های مشابه در یک خوشه قرار می‌گیرند تا آخرین مرحله که همه مشاهدات ترکیب شده و در این خوشه دیده خواهند شد. در SPSS شیوه انجام خوشه‌بندی به صورت «ترکیبی» (Agglomertative) است و از انواع روش‌های اندازه‌گیری فاصله برای سنجش شباهت بین مشاهدات و خوشه‌ها استفاده می‌شود.

مراحل خوشه‌بندی سلسله مراتبی ترکیبی به صورت زیر است:

  1. محاسبه فاصله (شباهت) بین مشاهدات و تشکیل ماتریس فاصله (مشابهت)
  2. ترکیب یا ادغام خوشه‌های با کمترین فاصله
  3. محاسبه فاصله بین خوشه‌ها و به روز رسانی ماتریس مشابهت
  4. تکرار از مرحله ۲

خوشه‌بندی سلسله مراتبی در SPSS

در این بخش از یک فایل داده به منظور اجرای خوشه‌بندی سلسله مراتبی استفاده می‌کنیم که شامل اطلاعاتی در مورد مواد موجود در شیر چند حیوان پستاندار است. می‌خواهیم براساس مواد موجود در شیر جانواران، آن‌ها را طبقه‌بندی کنیم و حیواناتی که مشابه هستند را در یک گروه قرار دهیم. فایل فشرده مربوط به این داده‌ها را از اینجا دریافت کنید تا در مراحل بعدی نتایجی مشابه تصاویری که در اینجا می‌بینید مشاهده کنید. پس از باز کردن فایل اطلاعاتی مربوطه، متوجه می‌شوید که در ستون اول نام حیوانات و در ستون‌های بعدی مواد سازنده آن مانند «آب»‌ (Water)، «پروتئین» (Portein)، «چربی» (Fat) و «لاکتوز» (Lactoz) قرار گرفته است.

برای دسترسی به دستور خوشه‌بندی در SPSS‌ از فهرست Analysis گزینه classify و دستور Hierarchical Clustering را انتخاب کنید.

hierarchical clustering command

در پنجره ظاهر شده، کافی است متغیرهای مورد نظر را در کادر (Variable(s قرار دهید. در کادر Label Cases by متغیری که مربوط به اسامی هر یک از مشاهدات است را قرار دهید. به این ترتیب خروجی‌ها با اسامی مربوط به هر یک از حیوانات ظاهر می‌شوند. همچنین اگر می‌خواهید مشاهدات به ۴ خوشه تقسیم شوند، کافی است گزینه single solution را با فشردن دکمه Statistics از پنجره اصلی به صورت زیر تنظیم کنید. از آنجایی که گزینه Agglomeration Schedule انتخاب شده است، هر یک از مراحل خوشه‌بندی سلسله مراتبی در خروجی ظاهر خواهند شد.

hierarchical clustering options

معمولا نتیجه خوشه‌بندی سلسله مراتبی را به صورت «نمودار درختواره» (Dendrogram) نشان می‌دهند. برای درخواست نمایش آن در SPSS از دکمه Plots از پنجره اصلی کمک گرفته و تنظیمات را به صورت زیر درآورید. به منظور منظم شدن خروجی نمایش نمودار «قندیلی» (Icicle) را لغو کرده‌ایم تا فقط یک نمودار در خروجی ظاهر شود.

hierarchical clustering plot

همچنین اگر علاقمند به تنظیم شیوه اندازه‌گیری فاصله بین نقاط و بین خوشه‌ها هستید باید از پنجره اصلی دکمه Method را انتخاب کرده سپس تنظیمات را به دلخواه خود درآورید. در اینجا ما نوع فاصله بین خوشه‌ها (Cluster Method) را از نوع «نزدیکترین همسایه» (Nearest neighbor) و فاصله بین نقاط (Measure – interval) را از با تابع فاصله اقلیدسی (Euclidean distance) در نظر گرفته‌ایم. گاهی به روش سنجش فاصله نزدیکترین همسایه، روش «پیوند تکی» (Single Linkage) نیز می‌گویند.

hierarchical clustering method

با انتخاب دکمه Continue و فشردن دکمه OK از پنجره اصلی عملیات خوشه‌بندی اجرا شده و نتایج در پنجره خروجی SPSS قابل مشاهده است. در بخش اول خروجی، آمار اولیه از نظر تعداد مشاهدات و داده‌های گمشده ظاهر می‌شود. این قسمت با عبارت Case Processing Summary نام‌گذاری شده است.

case summary

به این ترتیب مشخص می‌شود که ۱۶ مشاهده به کار رفته و هیچ داده گمشده (Missing) وجود ندارد. در کادر بعدی با توجه به شیوه «پیوند تکی» (Single Linkage) فاصله بین مشاهدات و خوشه‌ها در هر مرحله (Stage) مشخص شده است. ستون‌های دوم و سوم شماره خوشه‌هایی را نشان می‌دهند که در آن مرحله با یکدیگر ادغام شده‌اند. میزان فاصله بین خوشه‌ها نیز در ستون Coefficients دیده می‌شود. توجه داشته باشید که در ستون‌های Stage Cluster First Appears خوشه‌ای که در شماره مرحله‌ای مشخص شده، اولین بار در ترکیب خوشه جدید به کار رفته مشاهده می‌شود. اگر مقدار در این ستون 0 باشد نشان می‌دهد که به جای خوشه‌ها، مشاهدات با یکدیگر ترکیب شده و خوشه جدیدی ساخته‌اند.

agglomeration schedule

اگر به سطر ۱۱ توجه کنید در ستون‌های Stage Cluster First Appears مقدار 3 و 8 برای خوشه اول (First Cluster) و دوم (Second Cluster) نوشته شده است این موضوع نشان می‌دهد که خوشه‌های حاصل از مرحله 3 و 8 در این مرحله ترکیب شده‌اند.

از آنجایی که در تنظیمات خوشه‌بندی، درخواست نمایش چهار خوشه را داده بودیم در جدول زیر شماره یا برچسب هر خوشه برای مشاهدات در انتهای مراحل خوشه‌بندی فهرست شده است. به این ترتیب مشخص می‌شود که برای مثال خرگوش و موش که در خوشه ۳ قرار دارند از نظر نوع ترکیبات شیر، مشابه هستند.

cluster membership

در انتها نیز نمودار درختواره مشاهده می‌شود. در این نمودار با توجه به هر سطح از فاصله که در نظر بگیرید می‌توانید خطی عمودی ترسیم کرده و خوشه‌ها را بسازید.

dendrogram

برای مثال کاملا مشخص است که در فاصله حدود ۱۰، چهار خوشه قابل تشخیص است. مشاهدات قرار گرفته در هر خوشه در این حالت با مشاهداتی که طبق جدول قبلی خوشه‌بندی شده‌اند مطابقت دارد. باز هم برای مثال در این سطح از فاصله (یا با در نظر گرفتن چهار خوشه) گوسفند (Sheep)، روباه (Fox)، گاو وحشی (Buffalo)، خوک (Pig) و خوکچه هندی (Guinea Pig) در یک گروه قرار می‌گیرند.

اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزش‌هایی که در ادامه آمده‌اند نیز برایتان کاربردی خواهند بود.

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 11 نفر

آیا این مطلب برای شما مفید بود؟

یک نظر ثبت شده در “خوشه بندی سلسله مراتبی در SPSS — راهنمای کاربردی

  • بهروز قسمت پور says: تیر ۲۹, ۱۳۹۹ در ۹:۰۶ ق٫ظ

    با سلام
    من برای تکمیل رساله خود در مورد زبانشناسی نیاز به تحلیل آماری کرونباخ و مفیاس گذاری چند بعدی و خوشه نگاری فازی دارم. چطوری میتونم از شما کمک بگیرم؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *