آزمون فرض آماری مناسب | راهنمای کاربردی
یکی از مهمترین تحلیلهای آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدلهای آماری دارد. خوشبختانه (یا متاسفانه) آزمونهای فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و دادهها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیتهای مهم بعد از جمعآوری دادهها محسوب میشود. در این نوشتار سعی داریم که با بعضی از اصلیترین روشهای آزمون فرض آماری مناسب برای دادهها، آشنا شده و به زمینه کاربرد هر یک از آنها اشاره کنیم.
البته در نوشتارهای دیگر از مجله فرادرس به معرفی بسیاری از این آزمونها پرداختهایم و در حقیقت این مطلب به منظور یک راهنمای انتخاب آزمون فرض آماری مناسب نوشته شده است. بهتر است به عنوان مقدمه مطالب آمار پارامتری و ناپارامتری – انتخاب روش های تحلیل و آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین خواندن نوشتارهای توزیع های آماری — مجموعه مقالات جامع وبلاگ فرادرس و انواع روش های رگرسیونی — راهنمای جامع نیز خالی از لطف نیست.
آزمون فرض آماری مناسب
آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیکهای آماری است که برای صدور یک حکم در مورد جامعه آماری به کار میرود. به کمک چنین آزمونهایی، میتوانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آنها با یکدیگر از آزمونهای آماری استفاده میکنیم. به همین دلیل انبوهی از آزمونهای فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص دادهایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.
در این میان، از آزمونهای آماری ساده و پارامتری آغاز کرده و در بخشهای مختلف به بررسی روشهای اجرای آزمونهای ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشتهها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر میرسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه میشود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیقترین روش را در نظر بگیرید.
نکته: اگر میخواهید آزمون فرض آماری مناسب در محیط SPSS را بهتر بشناسید، به نوشتار آزمون آماری مناسب در SPSS | راهنمای کاربردی مراجعه کنید.
روش پارامتری برای آزمون فرض آماری مناسب به منظور مقایسه یک یا چند گروه از مشاهدات
در این گروه آزمون فرض آماری مسلماً وجود مشاهدات مستقل از یکدیگر با توزیع نرمال از فرضیات مسئله است. به این ترتیب اگر قرار است این گونه آزمونها را در محیط نرمافزارهای محاسبات آماری انجام دهیم، باید مجموعه دادهها را به شکلی تشکیل دهیم که هر سطر نمایانگر یک مشاهده باشد زیرا سطرها در صفحه کاربرگهای اطلاعاتی مربوط به نرمافزاهای محاسبات آماری، مستقل فرض شدهاند.
آزمونهایی که در گروه آزمونهای مقایسه گروهی از مشاهدات قرار دارد، مطابق جدول زیر دستهبندی میشوند. البته توجه داشته باشید که این آزمونها از نوع پارامتری هستند، یعنی در مورد تابع احتمال یا توزیع دادهها اطلاع داریم. معمولا برای دادههای از نوع کمی، توزیع نرمال و برای دادههای کیفی توزیع دوجملهای یا یکنواخت در نظر گرفته میشود. ولی توجه داشته باشید که آمارهها و همچنین آزمونهایی که با توزیع T یا آماره Z سروکار دارند، به نرمال بودن جامعه آماری احتیاج دارند. بنابراین قبل از هر چیز بهتر است بوسیله آزمونهای نرمالیتی، این شرط را بررسی کنید.
جدول ۱: آزمونهای پارامتری برای مقایسه چندین گروه
نوع متغیر | مقایسه مشاهدات در یک گروه | مقایسه مشاهدات در بین دو گروه | مقایسه مشاهدات در بیش از ۳ گروه |
دو وضعیتی (باینری) | آزمون Z برای تعیین نسبت | آزمون Z برای مقایسه دو نسبت | آزمون کای ۲ برای استقلال |
متغیر کمی (عددی) | آزمون Z تک نمونهای | آزمون Z نمونههای مستقل | آزمون تحلیل واریانس یک طرفه (one-way ANOVA) |
همانطور که در جدول بالا، مشاهده کردید، هدف مقایسه بین میانگین چندین گروه از مشاهدات، مطرح بوده و دادهها، براساس یک متغیر تفکیکی، جدا شده و آزمونهای مربوط به میانگین صورت گرفته است. حال به بررسی وضعیتی میپردازیم که هدف مقایسه چند متغیر است.
روش پارامتری برای آزمون فرض آماری مناسب مربوط به مقایسه دو یا چند متغیر
در تحلیلهای چند متغیره، مقایسه بین چندین ستون از مقادیر که نشانگر متغیرها هستند، مورد نظر است. در اینجا عامل تفکیک بین مقادیر، متغیرهای تعریف شده، هستند. به این معنی که دادههای هر متغیر نسبت به دادههای متغیر دیگر مورد بررسی قرار گرفته یا رابطه بین آنها، آنالیز میشود.در جدول زیر بعضی از مهمترین تحلیلهای دو یا چند متغیره که به نوع توزیع وابسته است، قابل مشاهدهاند.
جدول ۲: آزمونها مقایسه بین چندین متغیر
نوع متغیر | مقایسه مشاهدات در دو متغیر | مقایسه مشاهدات در بیش از دو متغیر | توضیحات |
دو وضعیتی (باینری) | آزمون مک نمار (McNemar test) | آزمون Q کوکران (Cochran Q test) | طرح با مقادیر تکراری |
متغیر کمی (عددی) | آزمون میانگین نمونههای زوجی (Paired samples t-test) | تحلیل واریانس با مقادیر تکراری (Repeated measures ANOVA) | فرض بر وجود توزیع نرمال برای جامعه آماری وجود دارد. |
البته در حالت متغیرهای با مقادیر دو وضعیتی، توزیع دو جملهای یا چند جملهای در نظر گرفته شده، به همین دلیل، این آزمونها را در رده آزمونها پارامتری قرار دادهایم.
آزمون فرض آماری مربوط به مقایسه دو یا چند گروه (ناپارامتری)
هر چند آزمونها ناپارامتری نسبت به آزمونهای پارامتری دارای توان آزمون کمتری هستند، ولی اگر شرایط اجرای آزمونهای پارامتری برقرار نباشد، روشهای ناپارامتری موثرتر از روشهای پارامتری بوده و توان بیشتری دارند. در ادامه به جدول اشاره خواهیم کرد که برای روشهای ناپارامتری و مقایسه میانگین در بین چند گروه از مشاهدات پرداخته است. این جدول را میتوان مکمل جدول ۱ و 2 در نظر گرفت.
جدول 3: آزمونهای ناپارامتری برای مقایسه چندین گروه
نوع متغیر | مقایسه مشاهدات بین چند گروه | توضیحات |
دو وضعیتی (باینری) | آزمون دو جملهای (Binomial test) | مقایسه بین میانهها |
متغیر کمی یا کیفی (پیوسته یا ترتیبی) | گروههای مستقل | |
متغیر کمی یا کیفی (پیوسته یا ترتیبی) |
آزمون ویلکاکسون (Wilcoxon signed-ranks test) آزمون علامت برای میانههای مرتبط (Sign test for 2 related medians) | گروههای مرتبط |
توجه داشته باشید که فرض استقلال در بین گروهها در نظر گرفته شده است. بنابراین اگر هدف مقایسه بین دو یا چند متغیره باشد، از روشهایی که در قسمت بعدی معرفی شدهاند، استفاده خواهیم کرد.
آزمون فرض آماری مناسب برای همبستگی بین متغیرها
یکی دیگر از آزمون فرض آماری مناسب مربوط به همبستگی است. زمانی که بخواهیم بین متغیرها، شدت رابطه یا قابلیت پیشگویی را مشخص کنیم، از روشها یا تحلیلهای چند متغیره بهره میبریم.برای مثال در رگرسیون به عنوان یک روش مدلسازی، چندین متغیر (متغیرهای مستقل و وابسته) مطرح شده و رابطه بین آنها مورد تجزیه و تحلیل قرار میگیرد.
جدول ۴، به بررسی نحوه اندازهگیری یا مدلسازی بین متغیرهای کمی یا کیفی پرداخته است. از آنجایی که در بعضی از روشها، فرض نرمال بودن از شرایط اصلی محسوب میشود، جدول را به دو بخش پارامتری و ناپارامتری تفکیک کردهایم.
جدول 4: سنجش و آزمون برای وابستگی بین دو متغیر
نوع متغیر | پارامتری / ناپارامتری | همبستگی یا وابستگی |
کیفی (دو وضعیتی) | ناپارامتری | نسبت بخت (Odd Ratio) |
کیفی (اسمی) | ناپارامتری | ضریب کرامر (Cramer’s V) |
کیفی (ترتیبی) | ناپارامتری | ضریب همبستگی رتبهای اسپیرمن (Spearman Rank coefficient) |
به منظور کسب اطلاعات بیشتر در زمینه همبستگی بین متغیرهای کیفی و استفاده از جدول توافقی میتوانید مطلب جدول توافقی و کاربردهای آن در SPSS — از صفر تا صد را مطالعه کنید.
روشهای مدلسازی بین متغیرهای وابسته و مستقل
یکی از روشهای موثر در آمار که در بیشتر رشتههای دیگر به کار گرفته میشود، رگرسیون یا رابطه برگشتی است. به این ترتیب میتوانیم براساس مقدار اندازهگیری شده از متغیرهای مستقل یا توصیفی، مقدار متغیر وابسته را پیش بینی کرده و یک رابطه (تابع) بین متغیرهای پیشگو و وابسته برقرار کنیم. رگرسیون خطی، سادهترین و البته محبوبترین مدل رگرسیونی محسوب میشود.
جدول ۵: روشهای مدلسازی آماری
نوع متغیر وابسته | مدل رگرسیونی | توضیحات |
کیفی طبقهای (دو مقداری) | رگرسیون لجستیک دو حالتی (Logistic Regression) | توزیع برنولی برای متغیر وابسته |
کیفی چند سطحی | رگرسیون لجستیک چندجملهای (Multinomial Logistic) | توزیع چند جملهای برای متغیر وابسته |
کمی | رگرسیون خطی ساده (Simple Linear Regression) | یک متغیر مستقل با جمله خطای نرمال |
کمی | رگرسیون خطی چندگانه (Multiple Regression) | چند متغیر مستقل با جمله خطای نرمال |
کمی | رگرسیون کمترین زاویه (Lar Regression) | رگرسیون ناپارامتری |
کمی | رگرسیون لاسو (Lasso Regression) | رگرسیون ناپارامتری |
کمی | رگرسیون چند متغیره (Multivariate Regression) | چند متغیره بودن متغیر وابسته |
کیفی (شمارشی) | رگرسیون پواسن (Poisson Regression) | |
کمی | رگرسیون چند جملهای (Polynomial Regression) | رگرسیون غیرخطی |
واضح است یک شیوه طبقهبندی روشهای رگرسیونی به نوع متغیر وابسته مربوط میشود. اگر متغیر وابسته از نوع عددی و مقادیر پیوسته باشد، معمولا رگرسیون قادر به تشخیص رابطه خطی است. در مقابل اگر مدل رگرسیونی به شکلی باشد که متغیر وابسته، طبقهای باشد، مدلهای لوجیت مناسبتر هستند. البته بعضی اوقات نیز از روشهای ناپارامتری رگرسیونی مانند رگرسیون پواسن و چند جملهای نیز استفاده میشود.
به یاد داشته باشید که گاهی با تغییر متغیر وابسته به کمک تبدیلهایی، مانند «تبدیل کاکس-باکس» (Cox-Box Transformation)، میتوانیم رگرسیونهای مبتنی بر الگوی «کمترین مربعات خطا» (Ordinary Least Square) را هم اجرا کنیم.
البته گونههای دیگری نیز برای مشخص کردن مدل رابطه بین متغیرها یا آزمون فرض آماری مناسب وجود دارد که در نوشتارهای دیگر مجله فرادرس به آنها خواهیم پرداخت.
خلاصه و جمعبندی
در این نوشتار سعی شده است که با توجه به نوع داده و مسئله پیشرو، راه و روش انتخاب آزمون فرض آماری مناسب و کاربردهای آنها مورد بررسی قرار گیرد. همانطور که دیدید، یک یا چند متغیره بودن، کمی یا کیفی همچنین یک یا چند متغیره بودن مسئله در گزینش تکنیک آماری یا اجرای آزمون فرض، دخیل هستند. بنابراین قبل از هر چیز باید به این نوع داده و رابطه بین متغیرها را بررسی کرد. روش و تکنیکهای پارامتری و ناپارامتری نیز با توجه به پیشفرضهای موجود در تحلیل مناسب نقش دارند. در صورتی که کمترین پیشفرضها برای آنالیز مورد استفاده قرار گیرد (مثل عدم اطلاع از استقلال یا توزیع)، تکنیکهای ناپارامتری مناسبترین روشها خواهند بود. از طرفی روشهای کلاسیک با مبتنی بر توزیع دارای توان بیشتری نسبت به روشهای ناپارامتری هستند.