خوشه بندی سلسله مراتبی در SPSS — راهنمای کاربردی
تحلیل خوشهبندی، یک تحلیل اکتشافی محسوب میشود. به وسیله این روش، امکان کشف ساختار دادهها بوجود میآید. به این ترتیب دادههای متجانس و یک شکل مشخص شده و در یک دسته قرار میگیرند. از طرفی بین دستهها، کمترین شباهت وجود دارد. یکی از روشهای مرسوم در دستهبندی دادهها خوشه بندی سلسله مراتبی (Hierarchical Clustering) است. خوشبختانه در بیشتر نرمافزارهای محاسبات آماری مانند SPSS امکان اجرای روشهای مختلف خوشهبندی وجود دارد.
در این نوشتار به بررسی شیوه اجرای خوشهبندی سلسله مراتبی در SPSS خواهیم پرداخت. برای آشنایی بیشتر با شیوههای مختلف خوشهبندی و سنجش فاصله، مطلب آشنایی با خوشهبندی (Clustering) و شیوههای مختلف آن و فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در دادهکاوی را بخوانید. همچنین خواندن نوشتار ماتریس مشابهت (Similarity) و فاصله (Distance) به همراه کدهای محاسباتی در R — راهنمای گام به گام نیز خالی از لطف نیست.
خوشه بندی سلسله مراتبی
در دیگر نوشتارهای فرادرس با مفهوم خوشهبندی آشنا شدهاید. یکی از پرکاربردترین روشهای خوشهبندی، «خوشهبندی سلسله مراتبی» (Hierarchical Clustering) است. در این روش مناسب برای دادههایی «دو دویی» (Binary)، متنی (Text) و عددی مناسب است. خوشهبندی در زمینههای مختلفی نظیر داروسازی، بهداشت، تجارت و کسب و کار و حتی علوم اجتماعی کاربرد دارد. به همین دلیل در این نوشتار از نرمافزار SPSS که برای کسانی که با آمار آشنایی زیادی ندارند، قابل استفادهتر است کمک گرفتهایم تا محاسبات و تحلیل خوشهبندی را انجام دهیم و از نتایج حاصل، بهترین بهره را ببریم. در خوشهبندی سلسله مراتبی، با طی کردن مراحل تکراری نرمافزار SPSS سعی میکند دستههایی با بیشتری شباهت را ایجاد کند. این کار به دو شیوه صورت میپذیرد. شیوه «تقسیمی» (Divisive) و «ترکیبی» (Agglomerative).
البته گاهی به خوشهبندی تقسیمی، روش تفکیکی و به خوشهبندی ترکیبی روش تجمیعی نیز گفته میشود. حالت اول یا خوشه بندی سلسله مراتبی تقسیمی، همه مشاهدات در ابتدا یک خوشه را میسازند سپس با طی شدن مراحل بعدی، خوشههای جدید پدید آمده و دادهها در آنها تقسیمبندی میشوند. در انتها مراحل الگوریتم خوشهبندی تقسیمی هر مشاهده تشکیل یک خوشه را میدهد.
در روش خوشهبندی ترکیبی، ابتدا هر مشاهده یک خوشه محسوب میشود. با طی شدن مراحل الگوریتم خوشهبندی ترکیبی، دادههای مشابه در یک خوشه قرار میگیرند تا آخرین مرحله که همه مشاهدات ترکیب شده و در این خوشه دیده خواهند شد. در SPSS شیوه انجام خوشهبندی به صورت «ترکیبی» (Agglomertative) است و از انواع روشهای اندازهگیری فاصله برای سنجش شباهت بین مشاهدات و خوشهها استفاده میشود.
مراحل خوشهبندی سلسله مراتبی ترکیبی به صورت زیر است:
- محاسبه فاصله (شباهت) بین مشاهدات و تشکیل ماتریس فاصله (مشابهت)
- ترکیب یا ادغام خوشههای با کمترین فاصله
- محاسبه فاصله بین خوشهها و به روز رسانی ماتریس مشابهت
- تکرار از مرحله ۲
خوشهبندی سلسله مراتبی در SPSS
در این بخش از یک فایل داده به منظور اجرای خوشهبندی سلسله مراتبی استفاده میکنیم که شامل اطلاعاتی در مورد مواد موجود در شیر چند حیوان پستاندار است. میخواهیم براساس مواد موجود در شیر جانواران، آنها را طبقهبندی کنیم و حیواناتی که مشابه هستند را در یک گروه قرار دهیم. فایل فشرده مربوط به این دادهها را از اینجا دریافت کنید تا در مراحل بعدی نتایجی مشابه تصاویری که در اینجا میبینید مشاهده کنید. پس از باز کردن فایل اطلاعاتی مربوطه، متوجه میشوید که در ستون اول نام حیوانات و در ستونهای بعدی مواد سازنده آن مانند «آب» (Water)، «پروتئین» (Portein)، «چربی» (Fat) و «لاکتوز» (Lactoz) قرار گرفته است.
برای دسترسی به دستور خوشهبندی در SPSS از فهرست Analysis گزینه classify و دستور Hierarchical Clustering را انتخاب کنید.
در پنجره ظاهر شده، کافی است متغیرهای مورد نظر را در کادر (Variable(s قرار دهید. در کادر Label Cases by متغیری که مربوط به اسامی هر یک از مشاهدات است را قرار دهید. به این ترتیب خروجیها با اسامی مربوط به هر یک از حیوانات ظاهر میشوند. همچنین اگر میخواهید مشاهدات به ۴ خوشه تقسیم شوند، کافی است گزینه single solution را با فشردن دکمه Statistics از پنجره اصلی به صورت زیر تنظیم کنید. از آنجایی که گزینه Agglomeration Schedule انتخاب شده است، هر یک از مراحل خوشهبندی سلسله مراتبی در خروجی ظاهر خواهند شد.
معمولا نتیجه خوشهبندی سلسله مراتبی را به صورت «نمودار درختواره» (Dendrogram) نشان میدهند. برای درخواست نمایش آن در SPSS از دکمه Plots از پنجره اصلی کمک گرفته و تنظیمات را به صورت زیر درآورید. به منظور منظم شدن خروجی نمایش نمودار «قندیلی» (Icicle) را لغو کردهایم تا فقط یک نمودار در خروجی ظاهر شود.
همچنین اگر علاقمند به تنظیم شیوه اندازهگیری فاصله بین نقاط و بین خوشهها هستید باید از پنجره اصلی دکمه Method را انتخاب کرده سپس تنظیمات را به دلخواه خود درآورید. در اینجا ما نوع فاصله بین خوشهها (Cluster Method) را از نوع «نزدیکترین همسایه» (Nearest neighbor) و فاصله بین نقاط (Measure - interval) را از با تابع فاصله اقلیدسی (Euclidean distance) در نظر گرفتهایم. گاهی به روش سنجش فاصله نزدیکترین همسایه، روش «پیوند تکی» (Single Linkage) نیز میگویند.
با انتخاب دکمه Continue و فشردن دکمه OK از پنجره اصلی عملیات خوشهبندی اجرا شده و نتایج در پنجره خروجی SPSS قابل مشاهده است. در بخش اول خروجی، آمار اولیه از نظر تعداد مشاهدات و دادههای گمشده ظاهر میشود. این قسمت با عبارت Case Processing Summary نامگذاری شده است.
به این ترتیب مشخص میشود که ۱۶ مشاهده به کار رفته و هیچ داده گمشده (Missing) وجود ندارد. در کادر بعدی با توجه به شیوه «پیوند تکی» (Single Linkage) فاصله بین مشاهدات و خوشهها در هر مرحله (Stage) مشخص شده است. ستونهای دوم و سوم شماره خوشههایی را نشان میدهند که در آن مرحله با یکدیگر ادغام شدهاند. میزان فاصله بین خوشهها نیز در ستون Coefficients دیده میشود. توجه داشته باشید که در ستونهای Stage Cluster First Appears خوشهای که در شماره مرحلهای مشخص شده، اولین بار در ترکیب خوشه جدید به کار رفته مشاهده میشود. اگر مقدار در این ستون 0 باشد نشان میدهد که به جای خوشهها، مشاهدات با یکدیگر ترکیب شده و خوشه جدیدی ساختهاند.
اگر به سطر ۱۱ توجه کنید در ستونهای Stage Cluster First Appears مقدار 3 و 8 برای خوشه اول (First Cluster) و دوم (Second Cluster) نوشته شده است این موضوع نشان میدهد که خوشههای حاصل از مرحله 3 و 8 در این مرحله ترکیب شدهاند.
از آنجایی که در تنظیمات خوشهبندی، درخواست نمایش چهار خوشه را داده بودیم در جدول زیر شماره یا برچسب هر خوشه برای مشاهدات در انتهای مراحل خوشهبندی فهرست شده است. به این ترتیب مشخص میشود که برای مثال خرگوش و موش که در خوشه ۳ قرار دارند از نظر نوع ترکیبات شیر، مشابه هستند.
در انتها نیز نمودار درختواره مشاهده میشود. در این نمودار با توجه به هر سطح از فاصله که در نظر بگیرید میتوانید خطی عمودی ترسیم کرده و خوشهها را بسازید.
برای مثال کاملا مشخص است که در فاصله حدود ۱۰، چهار خوشه قابل تشخیص است. مشاهدات قرار گرفته در هر خوشه در این حالت با مشاهداتی که طبق جدول قبلی خوشهبندی شدهاند مطابقت دارد. باز هم برای مثال در این سطح از فاصله (یا با در نظر گرفتن چهار خوشه) گوسفند (Sheep)، روباه (Fox)، گاو وحشی (Buffalo)، خوک (Pig) و خوکچه هندی (Guinea Pig) در یک گروه قرار میگیرند.
اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزشهایی که در ادامه آمدهاند نیز برایتان کاربردی خواهند بود.
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزش های داده کاوی یا Data Mining در متلب
- آموزش خوشه بندی K میانگین (K-Means) با نرم افزار SPSS
- آموزش خوشه بندی تفکیکی با نرم افزار R
- آموزش خوشه بندی سلسله مراتبی با SPSS
- فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در دادهکاوی
- آشنایی با خوشهبندی (Clustering) و شیوههای مختلف آن
^^
سلام ممنون از بازنشر علم تون
با سلام و تشکر از مطالب خوبتون
ببخشید اون خط قرمز رنگ که روی نمودار خوشه ای کشیده شده طور میتونم بدست بیارم من از فاصله اقلیدس با wald استفاده کردم با چه معیاری کشیده میشه
متشکر
با سلام
من برای تکمیل رساله خود در مورد زبانشناسی نیاز به تحلیل آماری کرونباخ و مفیاس گذاری چند بعدی و خوشه نگاری فازی دارم. چطوری میتونم از شما کمک بگیرم؟
ممنون از توضیح خوبتون برای من واقعا مفید بود