آمار, داده کاوی 240 بازدید

در آمار کلاسیک، روش‌های تجزیه و تحلیل داده‌ها وابسته به اطلاعاتی است که از جامعه آماری در اختیارمان قرار گرفت است. اغلب در چنین مواردی به علت شناخت بیشتر از توزیع نرمال، بسیاری از آزمون‌ها با توجه به نرمال بودن جامعه آماری ایجاد و توسعه یافته‌اند. البته وجود «قضیه حد مرکزی» (CLT) و «قانون اعداد بزرگ» (LLN)، در به کارگیری توزیع نرمال بسیار موثر هستند. ولی در صورتی که با توجه به کوچک بودن حجم نمونه، نتوان از این قوانین استفاده کرد، باید براساس روش‌های ناپارامتری به انجام آزمون و تحلیل روی داده‌ها دست زد. در این نوشتار از آزمون کروسکال والیس در SPSS استفاده کرده و با ذکر مثالی نحوه اجرای آن را تشریح و نتایج را تفسیر خواهیم کرد.

در صورتی که با مفاهیم اولیه آمار مانند میانگین و میانه آشنایی ندارید، بهتر است ابتدا متن میانه چیست و چگونه محاسبه می‌شود؟ — به زبان ساده و آمار پارامتری و ناپارامتری – انتخاب روش های تحلیل را مطالعه کنید. همچنین خواندن آزمون آماری مناسب در SPSS | راهنمای کاربردی و استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات نیز خالی از لطف نیست.

آزمون کروسکال والیس در SPSS

آزمون کروسکال والیس (Kruskal-Wallis test) به عنوان یک جایگزین برای تجزیه و تحلیل واریانس یک طرفه (One-way ANOVA) محسوب می‌شود. به این ترتیب اگر فرضیه‌های اساسی در مورد ANOVA در نمونه گرفته شده، صدق نکند، بهتر است از روش ناپارامتری آن یعنی آزمون کروسکال والیس استفاده کنیم.

در ادامه این نوشتار براساس یک مثال، به معرفی و نحوه اجرای آزمون کروسکال والیس در SPSS می‌پردازیم و نتایج بدست آمده توسط پردازش را که در «پنجره خروجی» (Output) ظاهر می‌شوند، تفسیر خواهیم کرد. این کار در گزارش‌نویسی و اعلام نتایج تحقیق آماری، رایج است. به این ترتیب تمامی نتایج حاصل از محاسبات و طرح آماری در یک جمله یا عبارت خلاصه شده و نتیجه به صورت یک گزاره خبری، اعلام می‌شود.

ابتدا به فایل مربوط به مثال مورد نظر توجه می‌کنیم. برای دریافت این فایل در قالب فشرده، اینجا کلیک کنید. پس از خارج کردن فایل creatine.zip از حالت فشرده، می‌توانید اطلاعات آن را در SPSS براساس فایل creatine.sav مشاهده نمایید. توجه داشته باشید که این فایل شامل داده‌های واقعی نیست و نتایج حاصل از آن را نمی‌توان با واقعیت تطبیق داد.

داده‌های مجموعه داده creatine.sav، حاوی نتیجه یک آزمایش در مورد کراتین است، که یک مکمل غذایی محبوب در میان بدن‌سازان محسوب می‌شود. در بین ۱۵ ورزشکار و بدن‌ساز، افزایش وزن بر حسب گرم در یک دوره یک ماهه در سه سطح مختلف از مصرف کراتین اندازه‌گیری شده است. میزان افزایش در ستون gain ثبت شده است.

گروه اول دارای رژیم غذایی بدون کراتین هستند که با کد ۱ و برچسب (No Creatine) در مجموعه داده در ستون group دیده می‌شوند و گروه ۲ و ۳ نیز به ترتیب با مصرف یک وعده کراتین در نوبت صبح (Morning Creatine) و بعد از ظهر (Evening creatine) برچسب گذاری شده‌اند. این داده‌ها را در تصویر ۱ مشاهده می‌کنید.

data view
تصویر ۱: داده‌های مربوط به مصرف کراتین برای آزمون کروسکال والیس در SPSS

در تصویر ۲، تعریف متغیرهای مربوط به این مجموعه داده را مشاهده می‌کنید. «برچسب مقادیر» (Value) و «برچسب متغیرها» (Labels) در این تصویر مشخص شده است.

variable view
تصویر ۲: برچسب‌ها و نمای متغیرهای فایل داده Creatine برای مثال آزمون کروسکال والیس در SPSS

به کمک اجرای آزمون کروسکال والیس در SPSS می‌خواهیم بفهمیم که آیا افزایش متوسط ​​وزن به شرایط کراتینی که افراد به آن اختصاص داده شده‌اند، بستگی دارد یا خیر؟ یعنی آیا می‌توان نتیجه گرفت که سه نوع مصرف هر یک از گروه‌های مختلف افراد در میزان افزایش وزن اختلاف ایجاد می‌کند یا اینکه مصرف کراتین در افزایش وزن بی‌اثر است.

یکی از روش‌های آزمون برای این حالت، همانطور که قبلا نیز اشاره کردیم، تحلیل یا «آنالیز واریانس یک طرفه» (One-way ANOVA) است اما می‌دانیم که استفاده از آن نیاز به برخی مفروضات یا پیش‌فرض‌های اولیه دارد. برخی بررسی‌های صورت گرفته نشان می‌دهد فرض وجود واریانس یکسان و همچنین توزیع نرمال برای چنین مجموعه داده‌ای (با توجه به کم بودن نمونه‌ها در هر گروه) محقق نمی‌شود. بنابراین به سراغ آزمون جایگزین ناپارامتری یعنی آزمون کروسکال والیس در SPSS می‌رویم.

در گام اول به بررسی فرض‌های گفته شده در مورد داده‌ها می‌پردازیم و سعی می‌کنیم از وضعیت توزیع و پراکندگی آن‌ها اطلاعاتی بدست آوریم. مقایسه شاخص‌ها توزیع این داده‌ها با توزیع نرمال، می‌تواند در نحوه به کارگیری آزمون‌های پارامتری و ناپارامتری دخیل باشد.

گام اول: بررسی‌های اولیه روی داده‌ها

بهتر است ابتدا شرط‌های مربوط به شکل توزیع داده‌ها را مورد توجه قرار دهیم تا اساس و مبنای اجرای آزمون کروسکال والیس محقق شود. به این منظور بهتر است یک نمودار فراوانی (Histogram) ترسیم کرده تا توزیع داده‌ها را با توزیع نرمال مقایسه کنیم. این کار را به کمک کد زیر در محیط Syntax انجام داده‌ایم.

البته می‌توانید برای سادگی از دستور Frequency از فهرست Analysis قسمت Descriptive Statistics نیز استفاده کنید. تنظیم‌های پنجره مورد نظر، در تصویر ۳ دیده می‌شود.

Frequencies dialogbox
تصویر ۳: تنظیمات پنجره فراوانی برای رسم نمودار فراوانی (Histogram)

نکته: توجه داشته باشید که قرار نیست جدول فراوانی داده‌ها ترسیم شود و فقط به نمودار حاصل از هیستوگرام احتیاج داریم. به همین علت گزینه Display frequency tables را غیرفعال کرده‌ایم.

البته اگر گزینه Show normal curve on histogram را هم انتخاب می‌کردید، یک نمودار نرمال با توجه به مقدار میانگین و واریانس داده‌ها روی نمودار فراوانی ترسیم می‌شد، ولی تصویر ۴ خود گویای غیرنرمال بودن داده‌ها است. به هر حال خروجی حاصل از کد یا دستور به صورت یک نمودار ستونی و مطابق با تصویر ۴ است. غیرنرمال و نامتقارن بودن توزیع این داده‌ها به خوبی مشخص است.

spss kruskal wallis histogram
تصویر ۴: نمودار فراوانی برای توزیع داده‌ها در مثال آزمون کروسکال والیس در SPSS

همانطور که در تصویر ۴ قابل مشاهده است، بیشتر افراد به جای اضافه وزن، کاهش وزن نیز داشته‌اند. دامنه تغییرات محور افقی در بازه ۱۰۰۰- تا ۵۰۰۰ قرار دارد. از طرفی عدم تقارن و چولگی زیاد، استفاده از ANOVA را پیشنهاد نمی‌دهد. همچنین کمبود مشاهدات در هر سطح، دلیل دیگری برای استفاده از روش ناپارامتری است. این بار به ارتباط بین میانگین و واریانس اضافه وزن در گروه‌های رژیم غذایی نگاهی می‌اندازیم. باز هم از محیط کد نویسی Syntax استفاده کرده‌ایم.

معادل دستوری این کار از طریق فهرست Analysis و گزینه Compare Means و دستور Mean صورت می‌گیرد. در تصویر ۵، تنظیم‌های لازم برای اجرای این دستور دیده می‌شود.

compare means
تصویر ۵: مقایسه میانگین و انحراف معیار برای هر گروه یا دسته

نتیجه اجرای این محاسبه مطابق با تصویر ۶ ظاهر خواهد شد. همانطور که مشخص است، «میانگین» (Mean) در بین گروه‌ها از لحاظ ریاضی اختلاف داشته و «انحراف معیار» (Std. Deviation) نیز با یکدیگر اختلاف دارند.

first report
تصویر ۶: خروجی محاسبه مقایسه میانگین‌ها

همانطوری که دیده می‌شود با توجه به شرایط پیچیده در چنین داده‌هایی نمی‌توان از روش‌های پارامتری مثل آنالیز واریانس استفاده کرد. بنابراین در گام دوم آزمون کروسکال والیس را در نظر گرفته و آن را در محیط SPSS اجرا می‌کنیم.

گام دوم: اجرای آزمون کروسکال والیس در SPSS

با توجه به خروجی‌های قبلی و شرایط مربوط به مسئله، بهترین راه حل استفاده از آزمون کروسکال والیس در SPSS‌ است. به این ترتیب براساس این آزمون، مشخص می‌شود که آیا کاهش یا افزایش وزن در این سه گروه یکسان است یا خیر. البته توجه داشته باشید که در صورت وجود اختلاف، این آزمون نمی‌تواند علت اختلاف در بین گروه‌ها را تشخیص بدهد. این کار احتیاج به مقایسه‌های دوتایی یا آزمون‌های تعقیبی یا «پس آزمون‌ها» (Post-Hoc) است که موضوع متفاوت و مستقلی محسوب می‌شود. در مورد این گونه تحلیل‌ها در دیگر نوشتارهای فرادرس به طور مفصل صحبت شده است.

به منظور اجرای این آزمون از قطعه کد زیر در محیط Syntax استفاده کنید. همانطور که مشخص است متغیر gain به عنوان «متغیر مورد آزمون» (Test Variable) و متغیر group نیز برای «متغیر دسته بندی» (Grouping Variable) در قسمت BY با سه سطح ۱ تا ۳ مشخص شده است.

برای دسترسی به این آزمون از طریق نوار فهرست‌ها، کافی است مسیر زیر را طی کنید.

 Analyze > Nonparametric Tests >  Legacy Dialog > K- Independent Samples…

در پنجره ظاهر شده، تنظیم‌ها را مطابق با تصویر ۷ انجام داده و دکمه OK‌ را کلیک کنید. در صورتی که دکمه Paste را انتخاب نمایید، کد اجرایی در محیط Syntax به مانند کد بالا ظاهر خواهد شد.

spss kruskal wallis dialogbox
تصویر ۷: پنجره پارامترهای آزمون کروسکال والیس در SPSS

آماره آزمون در اینجا به طور مجانبی دارای توزیع کای ۲ (Chi-Square Distribution) است و به عنوان Kruskal-Wallis H شناخته می‌شود. مقادیر بزرگ نشانگر تفاوت معنی‌دار در بین گروه‌ها است. مقدار آماره آزمون برای داده‌های این مسئله تقریباً 3٫87 است. برای ارزیابی اینکه این مقدار بزرگ محسوب می‌شود یا نه باید به جدول‌های توزیع کای ۲ با دو درجه آزادی ($$ k – 1 $$) مراجعه کرد که در آن $$k$$ همان تعداد گروه‌ها است.

با این حال، روش معمول، توجه به «مقدار احتمال» (P-value) است که براساس توزیع مجانبی (Asymp. Sig) مشخص شده است. توجه داشته باشید که در خروجی‌های SPSS، مقدار احتمال یا p-value با عبارت Sig نشان داده می‌شود.

نکته: اگر در پنجره اصلی پارامترها، گزینه Exact را انتخاب می‌کردید، می‌توانستید از SPSS بخواهید که توزیع دقیق آماره آزمون را مشخص کرده و خروجی را به همراه مقدار Sig‌ این توزیع نیز محاسبه کند.

از آنجایی که مقدار Sig هم برای حالت مجانبی و هم توزیع دقیق آماره آزمون، بزرگتر از خطای نوع اول یا سطح آزمون ($$\alpha = 0.05$$)‌ است، به نظر می‌رسد که اختلاف موجود در میانگین گروه‌ها، ناشی از نمونه‌گیری بوده و نوع مصرف کراتین در تغییر وزن افراد، تاثیری ندارد.

kruskal wallis test report
تصویر ۸: خروجی آزمون کروسکال والیس در SPSS

گام سوم: گزارش خروجی برای آزمون کروسکال والیس در SPSS

پس از اجرای دستورات، خروجی‌هایی که در پنجره Output ظاهر شده‌اند باید توسط محقق، تفسیرها، به عنوان یک گزارش آماری، ارائه شود. معمولا برای گزارش خروجی چنین آزمونی از عبارت‌هایی به مانند عبارت زیر استفاده می‌شود. البته توجه داشته باشید که در آزمون صورت گرفته، فرض صفر که برابری میزان کاهش یا افزایش وزن در بین سه گروه بود، رد نشده است.

این تحقیق و نمونه گرفته شده، دلیلی بر اثر نوع مصرف کراتین روی افزایش یا کاهش وزن ورزشکاران در سطح آزمون ۰٫۰۵ نیافته است.

$$\chi^2(2) = 3.87 , \;\; p – 0.145$$

این یک خط یا عبارت، حاصل همه فعالیت‌های صورت گرفته، شامل طرح تحقیق، جمع‌آوری داده و اجرای آزمون آماری را خلاصه کرده است. با توجه به مقدار آماره آزمون معرفی شده و سطح آزمون، هر فرد دیگری می‌تواند به دلخواه خود و با سطح آزمون مورد نظر، داده‌ها و نتایج آزمون شما را مبنا قرار داده و نتیجه‌گیری کند. حتی با به کارگیری شیوه شما ولی براساس یک نمونه دیگر، می‌توان نتایج حاصل از تحقیق شما را تایید یا رد کند. چنین امری به صورت یک «فراتحلیل» (Meta Analysis) در نظر گرفته می‌شود که بخصوص در علوم پزشکی رایج است. به این ترتیب وابستگی نتایج تحقیق آماری به نژاد، گروه یا طبقه‌ای خاص از جامعه، در تجمیع این تحقیق‌ها، از بین رفته و می‌توان یک نتیجه کلی و فراگیر تهیه کرد.

خلاصه و جمع‌بندی

در این نوشتار با معرفی یک آزمون ناپارامتری دیگر برای مقایسه چند جامعه به نام آزمون کروسکال والیس در SPSS آشنا شدیم. همانطور که گفته شد، این آزمون یک معادل ناپارامتری برای تحلیل واریانس یک طرفه محسوب می‌شود و فقط شرط تصادفی و هم‌توزیع بودن جامعه‌ها برای آن کافی است و احتیاجی به توزیع نرمال برای داده‌ها ندارد. در انتها نیز نتایج اجرای این آزمون را روی یک مجموعه داده در محیط SPSS تفسیر و گزارش کردیم. توجه داشته باشید که توان آزمون‌های پارامتری نسبت به آزمون‌های ناپارامتری بسیار بیشتر است، البته به شرطی که پیش‌فرض‌های مربوط به آزمون پارامتری محقق شده باشد.

اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *