آزمون کروسکال والیس در SPSS | راهنمای گام به گام


در آمار کلاسیک، روشهای تجزیه و تحلیل دادهها وابسته به اطلاعاتی است که از جامعه آماری در اختیارمان قرار گرفت است. اغلب در چنین مواردی به علت شناخت بیشتر از توزیع نرمال، بسیاری از آزمونها با توجه به نرمال بودن جامعه آماری ایجاد و توسعه یافتهاند. البته وجود «قضیه حد مرکزی» (CLT) و «قانون اعداد بزرگ» (LLN)، در به کارگیری توزیع نرمال بسیار موثر هستند. ولی در صورتی که با توجه به کوچک بودن حجم نمونه، نتوان از این قوانین استفاده کرد، باید براساس روشهای ناپارامتری به انجام آزمون و تحلیل روی دادهها دست زد. در این نوشتار از آزمون کروسکال والیس در SPSS استفاده کرده و با ذکر مثالی نحوه اجرای آن را تشریح و نتایج را تفسیر خواهیم کرد.
در صورتی که با مفاهیم اولیه آمار مانند میانگین و میانه آشنایی ندارید، بهتر است ابتدا متن میانه چیست و چگونه محاسبه میشود؟ — به زبان ساده و آمار پارامتری و ناپارامتری – انتخاب روش های تحلیل را مطالعه کنید. همچنین خواندن آزمون آماری مناسب در SPSS | راهنمای کاربردی و استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات نیز خالی از لطف نیست.
آزمون کروسکال والیس در SPSS
آزمون کروسکال والیس (Kruskal-Wallis test) به عنوان یک جایگزین برای تجزیه و تحلیل واریانس یک طرفه (One-way ANOVA) محسوب میشود. به این ترتیب اگر فرضیههای اساسی در مورد ANOVA در نمونه گرفته شده، صدق نکند، بهتر است از روش ناپارامتری آن یعنی آزمون کروسکال والیس استفاده کنیم.
در ادامه این نوشتار براساس یک مثال، به معرفی و نحوه اجرای آزمون کروسکال والیس در SPSS میپردازیم و نتایج بدست آمده توسط پردازش را که در «پنجره خروجی» (Output) ظاهر میشوند، تفسیر خواهیم کرد. این کار در گزارشنویسی و اعلام نتایج تحقیق آماری، رایج است. به این ترتیب تمامی نتایج حاصل از محاسبات و طرح آماری در یک جمله یا عبارت خلاصه شده و نتیجه به صورت یک گزاره خبری، اعلام میشود.
ابتدا به فایل مربوط به مثال مورد نظر توجه میکنیم. برای دریافت این فایل در قالب فشرده، اینجا کلیک کنید. پس از خارج کردن فایل creatine.zip از حالت فشرده، میتوانید اطلاعات آن را در SPSS براساس فایل creatine.sav مشاهده نمایید. توجه داشته باشید که این فایل شامل دادههای واقعی نیست و نتایج حاصل از آن را نمیتوان با واقعیت تطبیق داد.
دادههای مجموعه داده creatine.sav، حاوی نتیجه یک آزمایش در مورد کراتین است، که یک مکمل غذایی محبوب در میان بدنسازان محسوب میشود. در بین ۱۵ ورزشکار و بدنساز، افزایش وزن بر حسب گرم در یک دوره یک ماهه در سه سطح مختلف از مصرف کراتین اندازهگیری شده است. میزان افزایش در ستون gain ثبت شده است.
گروه اول دارای رژیم غذایی بدون کراتین هستند که با کد ۱ و برچسب (No Creatine) در مجموعه داده در ستون group دیده میشوند و گروه ۲ و ۳ نیز به ترتیب با مصرف یک وعده کراتین در نوبت صبح (Morning Creatine) و بعد از ظهر (Evening creatine) برچسب گذاری شدهاند. این دادهها را در تصویر ۱ مشاهده میکنید.

در تصویر ۲، تعریف متغیرهای مربوط به این مجموعه داده را مشاهده میکنید. «برچسب مقادیر» (Value) و «برچسب متغیرها» (Labels) در این تصویر مشخص شده است.

به کمک اجرای آزمون کروسکال والیس در SPSS میخواهیم بفهمیم که آیا افزایش متوسط وزن به شرایط کراتینی که افراد به آن اختصاص داده شدهاند، بستگی دارد یا خیر؟ یعنی آیا میتوان نتیجه گرفت که سه نوع مصرف هر یک از گروههای مختلف افراد در میزان افزایش وزن اختلاف ایجاد میکند یا اینکه مصرف کراتین در افزایش وزن بیاثر است.
یکی از روشهای آزمون برای این حالت، همانطور که قبلا نیز اشاره کردیم، تحلیل یا «آنالیز واریانس یک طرفه» (One-way ANOVA) است اما میدانیم که استفاده از آن نیاز به برخی مفروضات یا پیشفرضهای اولیه دارد. برخی بررسیهای صورت گرفته نشان میدهد فرض وجود واریانس یکسان و همچنین توزیع نرمال برای چنین مجموعه دادهای (با توجه به کم بودن نمونهها در هر گروه) محقق نمیشود. بنابراین به سراغ آزمون جایگزین ناپارامتری یعنی آزمون کروسکال والیس در SPSS میرویم.
در گام اول به بررسی فرضهای گفته شده در مورد دادهها میپردازیم و سعی میکنیم از وضعیت توزیع و پراکندگی آنها اطلاعاتی بدست آوریم. مقایسه شاخصها توزیع این دادهها با توزیع نرمال، میتواند در نحوه به کارگیری آزمونهای پارامتری و ناپارامتری دخیل باشد.
گام اول: بررسیهای اولیه روی دادهها
بهتر است ابتدا شرطهای مربوط به شکل توزیع دادهها را مورد توجه قرار دهیم تا اساس و مبنای اجرای آزمون کروسکال والیس محقق شود. به این منظور بهتر است یک نمودار فراوانی (Histogram) ترسیم کرده تا توزیع دادهها را با توزیع نرمال مقایسه کنیم. این کار را به کمک کد زیر در محیط Syntax انجام دادهایم.
البته میتوانید برای سادگی از دستور Frequency از فهرست Analysis قسمت Descriptive Statistics نیز استفاده کنید. تنظیمهای پنجره مورد نظر، در تصویر ۳ دیده میشود.

نکته: توجه داشته باشید که قرار نیست جدول فراوانی دادهها ترسیم شود و فقط به نمودار حاصل از هیستوگرام احتیاج داریم. به همین علت گزینه Display frequency tables را غیرفعال کردهایم.
البته اگر گزینه Show normal curve on histogram را هم انتخاب میکردید، یک نمودار نرمال با توجه به مقدار میانگین و واریانس دادهها روی نمودار فراوانی ترسیم میشد، ولی تصویر ۴ خود گویای غیرنرمال بودن دادهها است. به هر حال خروجی حاصل از کد یا دستور به صورت یک نمودار ستونی و مطابق با تصویر ۴ است. غیرنرمال و نامتقارن بودن توزیع این دادهها به خوبی مشخص است.

همانطور که در تصویر ۴ قابل مشاهده است، بیشتر افراد به جای اضافه وزن، کاهش وزن نیز داشتهاند. دامنه تغییرات محور افقی در بازه ۱۰۰۰- تا ۵۰۰۰ قرار دارد. از طرفی عدم تقارن و چولگی زیاد، استفاده از ANOVA را پیشنهاد نمیدهد. همچنین کمبود مشاهدات در هر سطح، دلیل دیگری برای استفاده از روش ناپارامتری است. این بار به ارتباط بین میانگین و واریانس اضافه وزن در گروههای رژیم غذایی نگاهی میاندازیم. باز هم از محیط کد نویسی Syntax استفاده کردهایم.
معادل دستوری این کار از طریق فهرست Analysis و گزینه Compare Means و دستور Mean صورت میگیرد. در تصویر ۵، تنظیمهای لازم برای اجرای این دستور دیده میشود.

نتیجه اجرای این محاسبه مطابق با تصویر ۶ ظاهر خواهد شد. همانطور که مشخص است، «میانگین» (Mean) در بین گروهها از لحاظ ریاضی اختلاف داشته و «انحراف معیار» (Std. Deviation) نیز با یکدیگر اختلاف دارند.

همانطوری که دیده میشود با توجه به شرایط پیچیده در چنین دادههایی نمیتوان از روشهای پارامتری مثل آنالیز واریانس استفاده کرد. بنابراین در گام دوم آزمون کروسکال والیس را در نظر گرفته و آن را در محیط SPSS اجرا میکنیم.
گام دوم: اجرای آزمون کروسکال والیس در SPSS
با توجه به خروجیهای قبلی و شرایط مربوط به مسئله، بهترین راه حل استفاده از آزمون کروسکال والیس در SPSS است. به این ترتیب براساس این آزمون، مشخص میشود که آیا کاهش یا افزایش وزن در این سه گروه یکسان است یا خیر. البته توجه داشته باشید که در صورت وجود اختلاف، این آزمون نمیتواند علت اختلاف در بین گروهها را تشخیص بدهد. این کار احتیاج به مقایسههای دوتایی یا آزمونهای تعقیبی یا «پس آزمونها» (Post-Hoc) است که موضوع متفاوت و مستقلی محسوب میشود. در مورد این گونه تحلیلها در دیگر نوشتارهای فرادرس به طور مفصل صحبت شده است.
به منظور اجرای این آزمون از قطعه کد زیر در محیط Syntax استفاده کنید. همانطور که مشخص است متغیر gain به عنوان «متغیر مورد آزمون» (Test Variable) و متغیر group نیز برای «متغیر دسته بندی» (Grouping Variable) در قسمت BY با سه سطح ۱ تا ۳ مشخص شده است.
برای دسترسی به این آزمون از طریق نوار فهرستها، کافی است مسیر زیر را طی کنید.
Analyze > Nonparametric Tests > Legacy Dialog > K- Independent Samples...
در پنجره ظاهر شده، تنظیمها را مطابق با تصویر ۷ انجام داده و دکمه OK را کلیک کنید. در صورتی که دکمه Paste را انتخاب نمایید، کد اجرایی در محیط Syntax به مانند کد بالا ظاهر خواهد شد.

آماره آزمون در اینجا به طور مجانبی دارای توزیع کای ۲ (Chi-Square Distribution) است و به عنوان Kruskal-Wallis H شناخته میشود. مقادیر بزرگ نشانگر تفاوت معنیدار در بین گروهها است. مقدار آماره آزمون برای دادههای این مسئله تقریباً 3٫87 است. برای ارزیابی اینکه این مقدار بزرگ محسوب میشود یا نه باید به جدولهای توزیع کای ۲ با دو درجه آزادی () مراجعه کرد که در آن همان تعداد گروهها است.
با این حال، روش معمول، توجه به «مقدار احتمال» (P-value) است که براساس توزیع مجانبی (Asymp. Sig) مشخص شده است. توجه داشته باشید که در خروجیهای SPSS، مقدار احتمال یا p-value با عبارت Sig نشان داده میشود.
نکته: اگر در پنجره اصلی پارامترها، گزینه Exact را انتخاب میکردید، میتوانستید از SPSS بخواهید که توزیع دقیق آماره آزمون را مشخص کرده و خروجی را به همراه مقدار Sig این توزیع نیز محاسبه کند.
از آنجایی که مقدار Sig هم برای حالت مجانبی و هم توزیع دقیق آماره آزمون، بزرگتر از خطای نوع اول یا سطح آزمون () است، به نظر میرسد که اختلاف موجود در میانگین گروهها، ناشی از نمونهگیری بوده و نوع مصرف کراتین در تغییر وزن افراد، تاثیری ندارد.

گام سوم: گزارش خروجی برای آزمون کروسکال والیس در SPSS
پس از اجرای دستورات، خروجیهایی که در پنجره Output ظاهر شدهاند باید توسط محقق، تفسیرها، به عنوان یک گزارش آماری، ارائه شود. معمولا برای گزارش خروجی چنین آزمونی از عبارتهایی به مانند عبارت زیر استفاده میشود. البته توجه داشته باشید که در آزمون صورت گرفته، فرض صفر که برابری میزان کاهش یا افزایش وزن در بین سه گروه بود، رد نشده است.
این تحقیق و نمونه گرفته شده، دلیلی بر اثر نوع مصرف کراتین روی افزایش یا کاهش وزن ورزشکاران در سطح آزمون ۰٫۰۵ نیافته است.
این یک خط یا عبارت، حاصل همه فعالیتهای صورت گرفته، شامل طرح تحقیق، جمعآوری داده و اجرای آزمون آماری را خلاصه کرده است. با توجه به مقدار آماره آزمون معرفی شده و سطح آزمون، هر فرد دیگری میتواند به دلخواه خود و با سطح آزمون مورد نظر، دادهها و نتایج آزمون شما را مبنا قرار داده و نتیجهگیری کند. حتی با به کارگیری شیوه شما ولی براساس یک نمونه دیگر، میتوان نتایج حاصل از تحقیق شما را تایید یا رد کند. چنین امری به صورت یک «فراتحلیل» (Meta Analysis) در نظر گرفته میشود که بخصوص در علوم پزشکی رایج است. به این ترتیب وابستگی نتایج تحقیق آماری به نژاد، گروه یا طبقهای خاص از جامعه، در تجمیع این تحقیقها، از بین رفته و میتوان یک نتیجه کلی و فراگیر تهیه کرد.
خلاصه و جمعبندی
در این نوشتار با معرفی یک آزمون ناپارامتری دیگر برای مقایسه چند جامعه به نام آزمون کروسکال والیس در SPSS آشنا شدیم. همانطور که گفته شد، این آزمون یک معادل ناپارامتری برای تحلیل واریانس یک طرفه محسوب میشود و فقط شرط تصادفی و همتوزیع بودن جامعهها برای آن کافی است و احتیاجی به توزیع نرمال برای دادهها ندارد. در انتها نیز نتایج اجرای این آزمون را روی یک مجموعه داده در محیط SPSS تفسیر و گزارش کردیم. توجه داشته باشید که توان آزمونهای پارامتری نسبت به آزمونهای ناپارامتری بسیار بیشتر است، البته به شرطی که پیشفرضهای مربوط به آزمون پارامتری محقق شده باشد.