آزمون نیکویی برازش (Goodness of Fit Test) و استقلال — کاربرد توزیع کای۲
یکی از مسائلی که در تحلیلهای آماری با آن مواجه هستیم، بررسی توزیع دادهها است. اگر بتوان مطمئن شد که دادهها از یک توزیع خاص پیروی میکنند، تحلیلها و آزمونهای آماری از اعتبار بیشتری نسبت به عدم آگاهی از توزیع برخوردارند. این گونه آزمونها به نام «آزمون نیکویی برازش» (Goodness of Fit Test) معرفی میشوند. «آزمونهای کای ۲» (Chi Square Test) میتوانند این بررسی را انجام دهند. در ضمن از این نوع آزمون برای بررسی فرض استقلال متغیرهای کیفی (با مقیاس اسمی و ترتیبی) میتوان کمک گرفت. در چنین حالتهایی آماره آزمون مربوطه، دارای توزیع کای ۲ است و به همین علت این نوع آزمونها را با نام کای ۲ میشناسند.
از آنجایی که در این مطلب با مفاهیم مربوط به آزمون آماری و متغیر تصادفی برخورد میکنید، بهتر است قبلا مطالب تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات و آزمایش تصادفی، پیشامد و تابع احتمال را مطالعه کرده باشید.
آزمون نیکویی برازش
یکی از مشهورترین آزمونهای برازش توزیع، آزمون کای ۲ است. این روش آزمون توسط کارل پیرسون (Karl Pearson) دانشمند انگلیسی آمار در سال ۱۹۰۰ معرفی شد. او معتقد بود اگر دو توزیع مانند هم باشند باید مقدارهای مربوط به دهکها نیز مشابه هم باشند. وی از این خاصیت استفاده کرد و آماره مربوط به چنین آزمونی را معرفی کرد. فرض صفر در این آزمون بیان میکند که متغیر تصادفی X دارای توزیع F است. و فرض مقابل نیز نشان میدهد که متغیر تصادفی X از توزیع F پیروی نمیکند.
فرض کنید نتیجه یک آزمایش تصادفی، در یکی از k رده مجزا مانند جای گرفته است. با توجه به مفهوم فراوانی نسبی، برآورد احتمال قرارگیری نتیجه آزمایش در رده برابر با در نظر گرفته میشود. پس میدانیم:
این آزمایش تصادفی را n بار تکرار میکنیم. تعداد نتایجی از آزمایش تصادفی که در رده قرار میگیرند را با نشان میدهیم. به این مقدار «فراوانی مشاهده شده» (Observed Frequency) میگوییم. از طرفی با توجه به احتمال ، «فراوانی مورد انتظار» (Expected Frequency) نیز بوسیله قابل محاسبه است. این مقدار را برای رده ام به صورت نشان میدهیم. واضح است که در این حالت مجموع فراوانیهای مشاهده شده با مجموع فراوانی مورد انتظار برابر است.
در این حالت میتوانیم فرض صفر آزمون را به صورت زیر بنویسیم:
این فرض نشان میدهد که توزیع تجربی دادهها با توزیع واقعی مطابقت دارد. به معنی دیگر، دادهها از توزیع مورد نظر برای آزمایش تصادفی (F) پیروی میکنند. اگر قرار باشد دادهها از توزیع F باشند، انتظار داریم که مقدار فراوانیهای مورد انتظار به فراوانیهای مشاهده شده نزدیک باشند. در نتیجه آماره آزمون مربوطه توسط پیرسون به صورت زیر معرفی شد:
از آنجایی که این آماره دارای توزیع کای ۲ با درجه آزادی است، میتوان ناحیه بحرانی را به صورت در نظر گرفت. یعنی هر گاه نتیجه آماره آزمون از مقدار صدک () توزیع کای ۲ با درجه آزادی بزرگتر شد، رای به رد فرض صفر میدهیم و در غیراینصورت دلیلی بر رد فرض صفر نداریم.
مثال ۱
میدانیم که طول عمر لامپهای LED دارای توزیع نمایی است و متوسط طول عمری برابر با 10 سال دارند. حال اگر جدول زیر حدود طول عمر لامپهای کارخانه A را برحسب سال، برای ۲۰۰ نمونه از این گونه لامپها نشان دهد، بررسی کنید که لامپهای تولیدی این کارخانه نیز دارای توزیع نمایی با هستند.
با توجه به اطلاعات جدول زیر و تابع توزیع احتمال متغیر تصادفی نمایی مقدارهای مورد انتظار برای هر محدود محاسبه شده است. برای مثال برای محدوده مقدار مورد انتظار برابر است با:
53 | 42 | 35 | 70 | |
51.84 | 38.40 | 28.45 | 81.31 |
حال محاسبه آماره آزمون را انجام میدهیم.
با توجه به اینکه مقدار صدک ۹۰ام برای توزیع کای ۲ با ۳ درجه آزادی برابر با 6.25 است، داریم: ، پس دلیلی برای رد فرض صفر نداریم. در نتیجه به نظر میرسد که لامپهای این کارخانه نیز از توزیع آماری نمایی با متوسط طول عمر ۱۰ سال پیروی میکنند.
جدول توافقی و آزمون استقلال کای ۲
احتمالا با جدول فراوانی آشنایی دارید. «جدول توافقی» (Contingency Table) نیز یک جدول فراوانی دو بعدی است. به این معنی که فراوانی مربوط به دو متغیر را همزمان نمایش میدهد. یکی از کاربردهای این جدول، انجام آزمون استقلال بین متغیر سطر و ستون آن است.
برای مثال فرض کنید از بین یک نمونه ۱۰۰ نفری از دانشجویان دختر و پسر، چپ دست یا راست دست بودن آنها بررسی شده و نتایج حاصل از این تحقیق در جدول توافقی زیر ثبت شده است:
راست دست | چپ دست | مجموع | |
دختر | 44 | 4 | 48 |
پسر | 43 | 9 | 52 |
مجموع | 87 | 13 | 100 |
اگر سطرهای جدول را با A و ستونها را با B نشان دهیم، پیشامد دختر بودن به صورت A=1 و پسر بودن نیز به صورت A=2 قابل نمایش است. همچنین وضعیت راست دست بودن فرد را با B=1 و چپ دست بودن را با B=2 نشان میدهیم. در نتیجه مثلا مقدار فراوانی مشاهده شده برای A=2,B=1 را به صورت نشان میدهیم. در این حالت فراوانی مشاهده شده برای سطر iام و ستون jام است.
حال میخواهیم استقلال وضعیت دست با جنسیت را آزمون کنیم. فرض صفر به صورت، وجود استقلال در سطر و ستون جدول توافقی و فرض مقابل نیز بیانگر عدم استقلال بین سطر و ستون است. برای انجام این آزمون، درست به مانند روشی که برای آزمون نیکویی برازش توزیع انجام شد عمل میکنیم.به این معنی که باید فراوانیهای مورد انتظار را با در نظر گرفتن شرط استقلال محاسبه کرده تا آماره آزمون کای ۲ قابل استفاده باشد.
با توجه به مفهوم احتمال شرطی و استقلال دو پیشامد، برای اینکه سطرهای این جدول از ستونها مستقل باشند باید نشان دهیم مثلاً احتمال راست دست بودن برای دخترها به جنسیت آنها ارتباطی ندارد. به این ترتیب اگر پیشامد راست دست بودن یک دختر را با A=1,B=1 نشان دهیم، انتظار داریم در صورت استقلال داشته باشیم:
از آنجایی که بررسی رابطه دوم راحتتر است از این روش کمک میگیریم. با توجه به این موضوع برای این حالت، میتوانیم مقدار مورد انتظار با شرط استقلال را به صورت زیر محاسبه کنیم.
توجه داشته باشید که برای محاسبه از فراوانی نسبی استفاده کردهایم، یعنی نسبت تعداد دختران را به کل دانشجویان بدست آوردهایم. در حالت کلی اگر جمع مقدارهای مربوط به سطر i و جمع مقدارهای مربوط به ستون jام باشد، مقدار مورد انتظار برای سطر iام و ستون jام که با نشان داده میشود، توسط رابطه زیر قابل محاسبه است:
به این ترتیب جدول توافقی با مقدارهای مورد انتظار به صورت زیر درخواهد آمد:
راست دست | چپ دست | مجموع | |
دختر | 48 | ||
پسر | 52 | ||
مجموع | 87 | 13 | 100 |
در صورتی که جدول توافقی دارای s سطر و r ستون باشد، آماره مربوط به این آزمون به صورت زیر خواهد بود:
آماره آزمون V دارای توزیع کای ۲ با درجه آزادی است.
در این مثال، آماره آزمون برابر با 1.77 است که از کوچکتر است، پس دلیلی بر رد فرض صفر (استقلال جنسیت با وضعیت راست دست یا چپ دست بودن) نداریم. به این ترتیب به نوعی نشان دادیم که اگر احتمال برای هر خانه از جدول را براساس استقلال سطر و ستون در نظر بگیریم، دادهها از این توزیع پیروی میکنند.
اگر به یادگیری مباحث مشابه مطلب بالا علاقهمند هستید، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزش های برنامه نویسی متلب برای علوم و مهندسی
- متغیر های تصادفی – میانگین، واریانس و انحراف معیار – به زبان ساده
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آموزش آمار و احتمال مهندسی
- آزمایش تصادفی، پیشامد و تابع احتمال
- تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات
^^
با سلام و عرض وقت بخیر
لطفا بفرمایید چه زمانی از کای2 برای برازش مدل استفاده نمیکنیم؟
بسیار عالی بود. ممنون از مطالب مفیدتون