یکی از مهم‌ترین تحلیل‌های آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدل‌های آماری دارد. خوشبختانه (یا متاسفانه) آزمون‌های فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و داده‌ها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیت‌های مهم بعد از جمع‌آوری داده‌ها محسوب می‌شود. در این نوشتار سعی داریم که با بعضی از اصلی‌ترین روش‌های آزمون فرض آماری مناسب برای داده‌ها، آشنا شده و به زمینه کاربرد هر یک از آن‌ها اشاره کنیم.

البته در نوشتارهای دیگر از مجله فرادرس به معرفی بسیاری از این آزمون‌ها پرداخته‌ایم و در حقیقت این مطلب به منظور یک راهنمای انتخاب آزمون فرض آماری مناسب نوشته شده است. بهتر است به عنوان مقدمه مطالب آمار پارامتری و ناپارامتری – انتخاب روش های تحلیل و آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین خواندن نوشتارهای توزیع های آماری — مجموعه مقالات جامع وبلاگ فرادرس و انواع روش های رگرسیونی — راهنمای جامع نیز خالی از لطف نیست.

آزمون فرض آماری مناسب

آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیک‌های آماری است که برای صدور یک حکم در مورد جامعه آماری به کار می‌رود. به کمک چنین آزمون‌هایی، می‌توانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آن‌ها با یکدیگر از آزمون‌های آماری استفاده می‌کنیم. به همین دلیل انبوهی از آزمون‌های فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص داده‌ایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.

در این میان، از آزمون‌های آماری ساده و پارامتری آغاز کرده و در بخش‌های مختلف به بررسی روش‌های اجرای آزمون‌های ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشته‌ها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر می‌رسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه می‌شود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیق‌ترین روش را در نظر بگیرید.

روش پارامتری برای آزمون فرض آماری مناسب به منظور مقایسه یک یا چند گروه از مشاهدات

در این گروه آزمون فرض آماری مسلماً وجود مشاهدات مستقل از یکدیگر با توزیع نرمال از فرضیات مسئله است. به این ترتیب اگر قرار است این گونه آزمون‌ها را در محیط نرم‌افزارهای محاسبات آماری انجام دهیم، باید مجموعه داده‌ها را به شکلی تشکیل دهیم که هر سطر نمایانگر یک مشاهده باشد زیرا سطرها در صفحه کاربرگ‌های اطلاعاتی مربوط به نرم‌افزاهای محاسبات آماری، مستقل فرض شده‌اند.

آزمون‌هایی که در گروه آزمون‌های مقایسه گروهی از مشاهدات قرار دارد، مطابق جدول زیر دسته‌بندی می‌شوند. البته توجه داشته باشید که این آزمون‌ها از نوع پارامتری هستند، یعنی در مورد تابع احتمال یا توزیع داده‌ها اطلاع داریم. معمولا برای داده‌های از نوع کمی، توزیع نرمال و برای داده‌های کیفی توزیع دوجمله‌ای یا یکنواخت در نظر گرفته می‌شود. ولی توجه داشته باشید که آماره‌ها و همچنین آزمون‌هایی که با توزیع T یا آماره Z سروکار دارند، به نرمال بودن جامعه آماری احتیاج دارند. بنابراین قبل از هر چیز بهتر است بوسیله آزمون‌های نرمالیتی، این شرط را بررسی کنید.

جدول ۱: آزمون‌های پارامتری برای مقایسه چندین گروه

نوع متغیر مقایسه مشاهدات در یک گروه مقایسه مشاهدات در بین دو گروه مقایسه مشاهدات در بیش از ۳ گروه
دو وضعیتی (باینری) آزمون Z برای تعیین نسبت آزمون Z برای مقایسه دو نسبت آزمون کای ۲ برای استقلال
متغیر کمی (عددی) آزمون Z تک نمونه‌ای

آزمون T تک نمونه‌ای

آزمون Z نمونه‌های مستقل

آزمون T نمونه‌های مستقل

آزمون تحلیل واریانس یک طرفه (one-way ANOVA)

همانطور که در جدول بالا، مشاهده کردید، هدف مقایسه بین میانگین چندین گروه از مشاهدات، مطرح بوده و داده‌ها، براساس یک متغیر تفکیکی، جدا شده و آزمون‌های مربوط به میانگین صورت گرفته است. حال به بررسی وضعیتی می‌پردازیم که هدف مقایسه چند متغیر است.

روش پارامتری برای آزمون فرض آماری مناسب مربوط به مقایسه دو یا چند متغیر

در تحلیل‌های چند متغیره، مقایسه بین چندین ستون از مقادیر که نشانگر متغیرها هستند، مورد نظر است. در اینجا عامل تفکیک بین مقادیر، متغیرهای تعریف شده، هستند. به این معنی که داده‌های هر متغیر نسبت به داده‌های متغیر دیگر مورد بررسی قرار گرفته یا رابطه بین آن‌ها، آنالیز می‌شود.در جدول زیر بعضی از مهم‌ترین تحلیل‌های دو یا چند متغیره که به نوع توزیع وابسته است، قابل مشاهده‌اند.

جدول ۲: آزمون‌ها مقایسه بین چندین متغیر

نوع متغیر مقایسه مشاهدات در دو متغیر مقایسه مشاهدات در بیش از دو متغیر توضیحات
دو وضعیتی (باینری) آزمون مک نمار (McNemar test) آزمون Q کوکران (Cochran Q test) طرح با مقادیر تکراری
متغیر کمی (عددی) آزمون میانگین نمونه‌های زوجی (Paired samples t-test) تحلیل واریانس با مقادیر تکراری (Repeated measures ANOVA) فرض بر وجود توزیع نرمال برای جامعه آماری وجود دارد.

البته در حالت متغیرهای با مقادیر دو وضعیتی، توزیع دو جمله‌ای یا چند جمله‌ای در نظر گرفته شده، به همین دلیل، این آزمون‌ها را در رده آزمون‌ها پارامتری قرار داده‌ایم.

آزمون فرض آماری مربوط به مقایسه دو یا چند گروه (ناپارامتری)

هر چند آزمون‌ها ناپارامتری نسبت به آزمون‌های پارامتری دارای توان آزمون کمتری هستند، ولی اگر شرایط اجرای آزمون‌های پارامتری برقرار نباشد، روش‌های ناپارامتری موثرتر از روش‌های پارامتری بوده و توان بیشتری دارند. در ادامه به جدول اشاره خواهیم کرد که برای روش‌های ناپارامتری و مقایسه میانگین در بین چند گروه از مشاهدات پرداخته است. این جدول را می‌توان مکمل جدول ۱ و 2 در نظر گرفت.

جدول 3: آزمون‌های ناپارامتری برای مقایسه چندین گروه

نوع متغیر مقایسه مشاهدات بین چند گروه توضیحات
دو وضعیتی (باینری) آزمون دو جمله‌ای (Binomial test) مقایسه بین میانه‌ها
متغیر کمی یا کیفی (پیوسته یا ترتیبی)

آزمون علامت (Sign test for 1 median)

آزمون ویلکاکسون (Wilcoxon signed-ranks test)

گروه‌های مستقل
متغیر کمی یا کیفی (پیوسته یا ترتیبی)

آزمون ویلکاکسون (Wilcoxon signed-ranks test)

آزمون علامت برای میانه‌های مرتبط (Sign test for 2 related medians)

گروه‌های مرتبط

توجه داشته باشید که فرض استقلال در بین گروه‌ها در نظر گرفته شده است. بنابراین اگر هدف مقایسه بین دو یا چند متغیره باشد، از روش‌هایی که در قسمت بعدی معرفی شده‌اند، استفاده خواهیم کرد.

آزمون فرض آماری مناسب برای همبستگی بین متغیرها

یکی دیگر از آزمون فرض آماری مناسب مربوط به همبستگی است. زمانی که بخواهیم بین متغیرها، شدت رابطه یا قابلیت پیش‌گویی را مشخص کنیم، از روش‌ها یا تحلیل‌های چند متغیره بهره می‌بریم.برای مثال در رگرسیون به عنوان یک روش مدل‌سازی، چندین متغیر (متغیرهای مستقل و وابسته) مطرح شده و رابطه بین آن‌ها مورد تجزیه و تحلیل قرار می‌گیرد.

جدول ۴، به بررسی نحوه اندازه‌گیری یا مدل‌سازی بین متغیرهای کمی یا کیفی پرداخته است. از آنجایی که در بعضی از روش‌ها، فرض نرمال بودن از شرایط اصلی محسوب می‌شود، جدول را به دو بخش پارامتری و ناپارامتری تفکیک کرده‌ایم.

جدول 4: سنجش و آزمون برای وابستگی بین دو متغیر

نوع متغیر پارامتری / ناپارامتری همبستگی یا وابستگی
کیفی (دو وضعیتی) ناپارامتری نسبت بخت (Odd Ratio)

ضریب فی (Phi Coefficient)

کیفی (اسمی) ناپارامتری ضریب کرامر (Cramer’s V)

ضریب توافق C

ضریب هماهنگی کندال (Kendall’s coefficient)

کیفی (ترتیبی) ناپارامتری ضریب همبستگی رتبه‌ای اسپیرمن (Spearman Rank coefficient)

به منظور کسب اطلاعات بیشتر در زمینه همبستگی بین متغیرهای کیفی و استفاده از جدول توافقی می‌توانید مطلب جدول توافقی و کاربردهای آن در SPSS — از صفر تا صد را مطالعه کنید.

خوشبختانه یکی از آموزش‌های فرادرس به بررسی رابطه بین متغیرهای کمی و کیفی و ایجاد مدل پیشبینی رگرسیونی اختصاص دارد. برای دیدن فیلم آموزش تحلیل رگرسیون لجستیک، به لینکی که در ادامه آورده شده، مراجعه کنید.

روش‌های مدل‌سازی بین متغیرهای وابسته و مستقل

یکی از روش‌های موثر در آمار که در بیشتر رشته‌های دیگر به کار گرفته می‌شود، رگرسیون یا رابطه برگشتی است. به این ترتیب می‌توانیم براساس مقدار اندازه‌گیری شده از متغیرهای مستقل یا توصیفی، مقدار متغیر وابسته را پیش بینی کرده و یک رابطه (تابع) بین متغیرهای پیش‌گو و وابسته برقرار کنیم. رگرسیون خطی، ساده‌ترین و البته محبوب‌ترین مدل رگرسیونی محسوب می‌شود.

جدول ۵: روش‌های مدل‌سازی آماری

نوع متغیر وابسته مدل رگرسیونی توضیحات
کیفی طبقه‌ای (دو مقداری) رگرسیون لجستیک دو حالتی (Logistic Regression) توزیع برنولی برای متغیر وابسته
کیفی چند سطحی رگرسیون لجستیک چندجمله‌ای (Multinomial Logistic) توزیع چند جمله‌ای برای متغیر وابسته
کمی رگرسیون خطی ساده (Simple Linear Regression) یک متغیر مستقل با جمله خطای نرمال
کمی رگرسیون خطی چندگانه (Multiple Regression) چند متغیر مستقل با جمله خطای نرمال
کمی رگرسیون کمترین زاویه (Lar Regression) رگرسیون ناپارامتری
کمی رگرسیون لاسو (Lasso Regression) رگرسیون ناپارامتری
کمی رگرسیون چند متغیره (Multivariate Regression) چند متغیره بودن متغیر وابسته
کیفی (شمارشی) رگرسیون پواسن (Poisson Regression)
کمی رگرسیون چند جمله‌ای (Polynomial Regression) رگرسیون غیرخطی

واضح است یک شیوه طبقه‌بندی روش‌های رگرسیونی به نوع متغیر وابسته مربوط می‌شود. اگر متغیر وابسته از نوع عددی و مقادیر پیوسته باشد، معمولا رگرسیون قادر به تشخیص رابطه خطی است. در مقابل اگر مدل رگرسیونی به شکلی باشد که متغیر وابسته، طبقه‌ای باشد، مدل‌های لوجیت مناسب‌تر هستند. البته بعضی اوقات نیز از روش‌های ناپارامتری رگرسیونی مانند رگرسیون پواسن و چند جمله‌ای نیز استفاده می‌شود.

به یاد داشته باشید که گاهی با تغییر متغیر وابسته به کمک تبدیل‌هایی، مانند «تبدیل کاکس-باکس» (Cox-Box Transformation)، می‌توانیم رگرسیون‌های مبتنی بر الگوی «کمترین مربعات خطا» (Ordinary Least Square) را هم اجرا کنیم.

البته گونه‌های دیگری نیز برای مشخص کردن مدل رابطه بین متغیرها یا آزمون فرض آماری مناسب وجود دارد که در نوشتارهای دیگر مجله فرادرس به آن‌ها خواهیم پرداخت.

معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS 

logistic regression tutorial

در این فیلم آموزشی مدل‌های مبتنی بر رگرسیونی لجستیک به همراه کاربردهای آن، مورد توجه قرار گرفته است و برای انجام محاسبات مربوطه نیز از محیط تعاملی نرم افزار SPSS استفاده شده. وجود مثال‌های کاربردی و متعدد در این آموزش از مزایای مهم محسوب می‌شود. بطوری که مخاطب در انتهای آموزش به راحتی تحلیل صحیح و مناسب را در نرم افزار SPSS شناخته و می‌تواند برای مسئله خود، راه حل مناسبی پیدا کند.

رگرسیون لجستیک دو حالتی (برای متغیرهای دو وضعیتی)، در بسیاری از رشته‌های کاربردی از جمله پزشکی و علوم اجتماعی کاربرد دارد. در این مدل‌ها، متغیر پاسخ دو حالتی با یک مجموعه از متغیرهای توضیحی (مستقل) در ارتباط هستند. البته متغیرها توصیفی یا مستقل ممکن است کمی یا کیفی بوده و در مدل نقش داشته باشند. احتمال یا بخت پاسخ بر مبنای ترکیبی از مقادیر پیشگوها در این گونه مدل‌ها، ساخته و محاسبه شده و از تابع لوجیت برای ایجاد الگوی رابطه بین متغیرها استفاده می‌شود. به همین جهت نیز چنین رگرسیونی را لجستیک می‌نامند. سرفصل‌های مورد توجه شامل دو درس بوده که به قرار زیر هستند.

  • درس اول: مقدمه بر تحلیل رگرسیون، رگرسیون لجستیک، رگرسیون لجستیک ساده در نرم افزار SPSS که شامل مواردی مانند، بررسی مقدماتی خروجی SPSS در رگرسیون لجستیک ساده، بخت، نسبت بخت‌ها، نمایش مدل رگرسیون ساده و بررسی مدل و گزارش نویسی خروجی نرم افزار SPSS
  • درس دوم: انجام تحلیل رگرسیون لجستیک چندگانه در محیط SPSS

این آموزش را به تمامی کسانی که در رشته‌های پزشکی، علوم اجتماعی، آمار و مدیریت تحصیل یا کار می‌کنند، پیشنهادی می‌کنیم. محتوای این آموزش در زمانی برابر با ۱ ساعت و ۱۴ دقیقه ارائه شده است.

خلاصه و جمع‌بندی

در این نوشتار سعی شده است که با توجه به نوع داده و مسئله پیش‌رو، راه و روش انتخاب آزمون فرض آماری مناسب و کاربردهای آن‌ها مورد بررسی قرار گیرد. همانطور که دیدید، یک یا چند متغیره بودن، کمی یا کیفی همچنین یک یا چند متغیره بودن مسئله در گزینش تکنیک آماری یا اجرای آزمون فرض، دخیل هستند. بنابراین قبل از هر چیز باید به این نوع داده و رابطه بین متغیرها را بررسی کرد. روش و تکنیک‌های پارامتری و ناپارامتری نیز با توجه به پیش‌فرض‌های موجود در تحلیل مناسب نقش دارند. در صورتی که کمترین پیش‌فرض‌ها برای آنالیز مورد استفاده قرار گیرد (مثل عدم اطلاع از استقلال یا توزیع)، تکنیک‌های ناپارامتری مناسب‌ترین روش‌ها خواهند بود. از طرفی روش‌های کلاسیک با مبتنی بر توزیع دارای توان بیشتری نسبت به روش‌های ناپارامتری هستند.

اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 1 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *