آزمون فرض آماری مناسب | راهنمای کاربردی

۳۱۷۵ بازدید
آخرین به‌روزرسانی: ۲۱ خرداد ۱۴۰۲
زمان مطالعه: ۶ دقیقه
آزمون فرض آماری مناسب | راهنمای کاربردی

یکی از مهم‌ترین تحلیل‌های آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدل‌های آماری دارد. خوشبختانه (یا متاسفانه) آزمون‌های فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و داده‌ها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیت‌های مهم بعد از جمع‌آوری داده‌ها محسوب می‌شود. در این نوشتار سعی داریم که با بعضی از اصلی‌ترین روش‌های آزمون فرض آماری مناسب برای داده‌ها، آشنا شده و به زمینه کاربرد هر یک از آن‌ها اشاره کنیم.

997696

البته در نوشتارهای دیگر از مجله فرادرس به معرفی بسیاری از این آزمون‌ها پرداخته‌ایم و در حقیقت این مطلب به منظور یک راهنمای انتخاب آزمون فرض آماری مناسب نوشته شده است. بهتر است به عنوان مقدمه مطالب آمار پارامتری و ناپارامتری – انتخاب روش های تحلیل و آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین خواندن نوشتارهای توزیع های آماری — مجموعه مقالات جامع وبلاگ فرادرس و انواع روش های رگرسیونی — راهنمای جامع نیز خالی از لطف نیست.

آزمون فرض آماری مناسب

آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیک‌های آماری است که برای صدور یک حکم در مورد جامعه آماری به کار می‌رود. به کمک چنین آزمون‌هایی، می‌توانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آن‌ها با یکدیگر از آزمون‌های آماری استفاده می‌کنیم. به همین دلیل انبوهی از آزمون‌های فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص داده‌ایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.

در این میان، از آزمون‌های آماری ساده و پارامتری آغاز کرده و در بخش‌های مختلف به بررسی روش‌های اجرای آزمون‌های ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشته‌ها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر می‌رسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه می‌شود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیق‌ترین روش را در نظر بگیرید.

نکته: اگر می‌خواهید آزمون فرض آماری مناسب در محیط SPSS‌ را بهتر بشناسید، به نوشتار آزمون آماری مناسب در SPSS | راهنمای کاربردی مراجعه کنید.

روش پارامتری برای آزمون فرض آماری مناسب به منظور مقایسه یک یا چند گروه از مشاهدات

در این گروه آزمون فرض آماری مسلماً وجود مشاهدات مستقل از یکدیگر با توزیع نرمال از فرضیات مسئله است. به این ترتیب اگر قرار است این گونه آزمون‌ها را در محیط نرم‌افزارهای محاسبات آماری انجام دهیم، باید مجموعه داده‌ها را به شکلی تشکیل دهیم که هر سطر نمایانگر یک مشاهده باشد زیرا سطرها در صفحه کاربرگ‌های اطلاعاتی مربوط به نرم‌افزاهای محاسبات آماری، مستقل فرض شده‌اند.

آزمون‌هایی که در گروه آزمون‌های مقایسه گروهی از مشاهدات قرار دارد، مطابق جدول زیر دسته‌بندی می‌شوند. البته توجه داشته باشید که این آزمون‌ها از نوع پارامتری هستند، یعنی در مورد تابع احتمال یا توزیع داده‌ها اطلاع داریم. معمولا برای داده‌های از نوع کمی، توزیع نرمال و برای داده‌های کیفی توزیع دوجمله‌ای یا یکنواخت در نظر گرفته می‌شود. ولی توجه داشته باشید که آماره‌ها و همچنین آزمون‌هایی که با توزیع T یا آماره Z سروکار دارند، به نرمال بودن جامعه آماری احتیاج دارند. بنابراین قبل از هر چیز بهتر است بوسیله آزمون‌های نرمالیتی، این شرط را بررسی کنید.

جدول ۱: آزمون‌های پارامتری برای مقایسه چندین گروه

همانطور که در جدول بالا، مشاهده کردید، هدف مقایسه بین میانگین چندین گروه از مشاهدات، مطرح بوده و داده‌ها، براساس یک متغیر تفکیکی، جدا شده و آزمون‌های مربوط به میانگین صورت گرفته است. حال به بررسی وضعیتی می‌پردازیم که هدف مقایسه چند متغیر است.

روش پارامتری برای آزمون فرض آماری مناسب مربوط به مقایسه دو یا چند متغیر

در تحلیل‌های چند متغیره، مقایسه بین چندین ستون از مقادیر که نشانگر متغیرها هستند، مورد نظر است. در اینجا عامل تفکیک بین مقادیر، متغیرهای تعریف شده، هستند. به این معنی که داده‌های هر متغیر نسبت به داده‌های متغیر دیگر مورد بررسی قرار گرفته یا رابطه بین آن‌ها، آنالیز می‌شود.در جدول زیر بعضی از مهم‌ترین تحلیل‌های دو یا چند متغیره که به نوع توزیع وابسته است، قابل مشاهده‌اند.

جدول ۲: آزمون‌ها مقایسه بین چندین متغیر

نوع متغیرمقایسه مشاهدات در دو متغیرمقایسه مشاهدات در بیش از دو متغیرتوضیحات
دو وضعیتی (باینری)آزمون مک نمار (McNemar test)آزمون Q کوکران (Cochran Q test)طرح با مقادیر تکراری
متغیر کمی (عددی)آزمون میانگین نمونه‌های زوجی (Paired samples t-test)تحلیل واریانس با مقادیر تکراری (Repeated measures ANOVA)فرض بر وجود توزیع نرمال برای جامعه آماری وجود دارد.

البته در حالت متغیرهای با مقادیر دو وضعیتی، توزیع دو جمله‌ای یا چند جمله‌ای در نظر گرفته شده، به همین دلیل، این آزمون‌ها را در رده آزمون‌ها پارامتری قرار داده‌ایم.

آزمون فرض آماری مربوط به مقایسه دو یا چند گروه (ناپارامتری)

هر چند آزمون‌ها ناپارامتری نسبت به آزمون‌های پارامتری دارای توان آزمون کمتری هستند، ولی اگر شرایط اجرای آزمون‌های پارامتری برقرار نباشد، روش‌های ناپارامتری موثرتر از روش‌های پارامتری بوده و توان بیشتری دارند. در ادامه به جدول اشاره خواهیم کرد که برای روش‌های ناپارامتری و مقایسه میانگین در بین چند گروه از مشاهدات پرداخته است. این جدول را می‌توان مکمل جدول ۱ و 2 در نظر گرفت.

جدول 3: آزمون‌های ناپارامتری برای مقایسه چندین گروه

نوع متغیرمقایسه مشاهدات بین چند گروهتوضیحات
دو وضعیتی (باینری)آزمون دو جمله‌ای (Binomial test)مقایسه بین میانه‌ها
متغیر کمی یا کیفی (پیوسته یا ترتیبی)

آزمون علامت (Sign test for 1 median)

آزمون ویلکاکسون (Wilcoxon signed-ranks test)

گروه‌های مستقل
متغیر کمی یا کیفی (پیوسته یا ترتیبی)

آزمون ویلکاکسون (Wilcoxon signed-ranks test)

آزمون علامت برای میانه‌های مرتبط (Sign test for 2 related medians)

گروه‌های مرتبط

توجه داشته باشید که فرض استقلال در بین گروه‌ها در نظر گرفته شده است. بنابراین اگر هدف مقایسه بین دو یا چند متغیره باشد، از روش‌هایی که در قسمت بعدی معرفی شده‌اند، استفاده خواهیم کرد.

آزمون فرض آماری مناسب برای همبستگی بین متغیرها

یکی دیگر از آزمون فرض آماری مناسب مربوط به همبستگی است. زمانی که بخواهیم بین متغیرها، شدت رابطه یا قابلیت پیش‌گویی را مشخص کنیم، از روش‌ها یا تحلیل‌های چند متغیره بهره می‌بریم.برای مثال در رگرسیون به عنوان یک روش مدل‌سازی، چندین متغیر (متغیرهای مستقل و وابسته) مطرح شده و رابطه بین آن‌ها مورد تجزیه و تحلیل قرار می‌گیرد.

جدول ۴، به بررسی نحوه اندازه‌گیری یا مدل‌سازی بین متغیرهای کمی یا کیفی پرداخته است. از آنجایی که در بعضی از روش‌ها، فرض نرمال بودن از شرایط اصلی محسوب می‌شود، جدول را به دو بخش پارامتری و ناپارامتری تفکیک کرده‌ایم.

جدول 4: سنجش و آزمون برای وابستگی بین دو متغیر

نوع متغیرپارامتری / ناپارامتریهمبستگی یا وابستگی
کیفی (دو وضعیتی)ناپارامترینسبت بخت (Odd Ratio)

ضریب فی (Phi Coefficient)

کیفی (اسمی)ناپارامتریضریب کرامر (Cramer’s V)

ضریب توافق C

ضریب هماهنگی کندال (Kendall's coefficient)

کیفی (ترتیبی)ناپارامتریضریب همبستگی رتبه‌ای اسپیرمن (Spearman Rank coefficient)

به منظور کسب اطلاعات بیشتر در زمینه همبستگی بین متغیرهای کیفی و استفاده از جدول توافقی می‌توانید مطلب جدول توافقی و کاربردهای آن در SPSS — از صفر تا صد را مطالعه کنید.

روش‌های مدل‌سازی بین متغیرهای وابسته و مستقل

یکی از روش‌های موثر در آمار که در بیشتر رشته‌های دیگر به کار گرفته می‌شود، رگرسیون یا رابطه برگشتی است. به این ترتیب می‌توانیم براساس مقدار اندازه‌گیری شده از متغیرهای مستقل یا توصیفی، مقدار متغیر وابسته را پیش بینی کرده و یک رابطه (تابع) بین متغیرهای پیش‌گو و وابسته برقرار کنیم. رگرسیون خطی، ساده‌ترین و البته محبوب‌ترین مدل رگرسیونی محسوب می‌شود.

جدول ۵: روش‌های مدل‌سازی آماری

نوع متغیر وابستهمدل رگرسیونیتوضیحات
کیفی طبقه‌ای (دو مقداری)رگرسیون لجستیک دو حالتی (Logistic Regression)توزیع برنولی برای متغیر وابسته
کیفی چند سطحیرگرسیون لجستیک چندجمله‌ای (Multinomial Logistic)توزیع چند جمله‌ای برای متغیر وابسته
کمیرگرسیون خطی ساده (Simple Linear Regression)یک متغیر مستقل با جمله خطای نرمال
کمیرگرسیون خطی چندگانه (Multiple Regression)چند متغیر مستقل با جمله خطای نرمال
کمیرگرسیون کمترین زاویه (Lar Regression)رگرسیون ناپارامتری
کمیرگرسیون لاسو (Lasso Regression)رگرسیون ناپارامتری
کمیرگرسیون چند متغیره (Multivariate Regression)چند متغیره بودن متغیر وابسته
کیفی (شمارشی)رگرسیون پواسن (Poisson Regression)
کمیرگرسیون چند جمله‌ای (Polynomial Regression)رگرسیون غیرخطی

واضح است یک شیوه طبقه‌بندی روش‌های رگرسیونی به نوع متغیر وابسته مربوط می‌شود. اگر متغیر وابسته از نوع عددی و مقادیر پیوسته باشد، معمولا رگرسیون قادر به تشخیص رابطه خطی است. در مقابل اگر مدل رگرسیونی به شکلی باشد که متغیر وابسته، طبقه‌ای باشد، مدل‌های لوجیت مناسب‌تر هستند. البته بعضی اوقات نیز از روش‌های ناپارامتری رگرسیونی مانند رگرسیون پواسن و چند جمله‌ای نیز استفاده می‌شود.

به یاد داشته باشید که گاهی با تغییر متغیر وابسته به کمک تبدیل‌هایی، مانند «تبدیل کاکس-باکس» (Cox-Box Transformation)، می‌توانیم رگرسیون‌های مبتنی بر الگوی «کمترین مربعات خطا» (Ordinary Least Square) را هم اجرا کنیم.

البته گونه‌های دیگری نیز برای مشخص کردن مدل رابطه بین متغیرها یا آزمون فرض آماری مناسب وجود دارد که در نوشتارهای دیگر مجله فرادرس به آن‌ها خواهیم پرداخت.

خلاصه و جمع‌بندی

در این نوشتار سعی شده است که با توجه به نوع داده و مسئله پیش‌رو، راه و روش انتخاب آزمون فرض آماری مناسب و کاربردهای آن‌ها مورد بررسی قرار گیرد. همانطور که دیدید، یک یا چند متغیره بودن، کمی یا کیفی همچنین یک یا چند متغیره بودن مسئله در گزینش تکنیک آماری یا اجرای آزمون فرض، دخیل هستند. بنابراین قبل از هر چیز باید به این نوع داده و رابطه بین متغیرها را بررسی کرد. روش و تکنیک‌های پارامتری و ناپارامتری نیز با توجه به پیش‌فرض‌های موجود در تحلیل مناسب نقش دارند. در صورتی که کمترین پیش‌فرض‌ها برای آنالیز مورد استفاده قرار گیرد (مثل عدم اطلاع از استقلال یا توزیع)، تکنیک‌های ناپارامتری مناسب‌ترین روش‌ها خواهند بود. از طرفی روش‌های کلاسیک با مبتنی بر توزیع دارای توان بیشتری نسبت به روش‌های ناپارامتری هستند.

بر اساس رای ۷ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *