آمار , داده کاوی 1271 بازدید

یکی از مسائلی که در تحلیل‌های آماری با آن مواجه هستیم، بررسی توزیع داده‌ها است. اگر بتوان مطمئن شد که داده‌ها از یک توزیع خاص پیروی می‌کنند، تحلیل‌ها و آزمون‌های آماری از اعتبار بیشتری نسبت به عدم آگاهی از توزیع برخوردارند. این گونه آزمون‌ها به نام «آزمون نیکویی برازش» (Goodness of Fit Test) معرفی می‌شوند. «آزمون‌های کای 2» (Chi Square Test) می‌توانند این بررسی را انجام دهند. در ضمن از این نوع آزمون‌ برای بررسی فرض استقلال متغیرهای کیفی (با مقیاس اسمی و ترتیبی) می‌توان کمک گرفت. در چنین حالت‌هایی آماره آزمون مربوطه، دارای توزیع کای 2 است و به همین علت این نوع آزمون‌ها را با نام کای 2 می‌شناسند.

از آنجایی که در این مطلب با مفاهیم مربوط به آزمون آماری و متغیر تصادفی برخورد می‌کنید، بهتر است قبلا مطالب‌ تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات و آزمایش تصادفی، پیشامد و تابع احتمال را مطالعه کرده باشید.

آزمون‌های نیکویی برازش

یکی از مشهورترین آزمون‌های برازش توزیع، آزمون کای 2 است. این روش آزمون توسط کارل پیرسون (Karl Pearson) دانشمند انگلیسی آمار در سال 1۹۰۰ معرفی شد. او معتقد بود اگر دو توزیع مانند هم باشند باید مقدارهای مربوط به دهک‌ها نیز مشابه هم باشند. وی از این خاصیت استفاده کرد و آماره مربوط به چنین آزمونی را معرفی کرد. فرض صفر در این آزمون بیان می‌کند که متغیر تصادفی X دارای توزیع F است. و فرض مقابل نیز نشان می‌دهد که متغیر تصادفی X از توزیع F پیروی نمی‌کند.

فرض کنید نتیجه یک آزمایش تصادفی، در یکی از k رده مجزا مانند $$C_1,C_2,\ldots,C_k$$ جای گرفته است. با توجه به مفهوم فراوانی نسبی، برآورد احتمال قرارگیری نتیجه‌ آزمایش در رده $$C_i$$ برابر با $$p_i$$ در نظر گرفته می‌شود. پس می‌دانیم:

$$0 < p_i < 1,\;\;\;\;\;p_1+p_2+\ldots+p_k=1$$

این آزمایش تصادفی را n بار تکرار می‌کنیم. تعداد نتایجی از آزمایش تصادفی که در رده $$C_i$$ قرار می‌گیرند را با $$o_i$$‌ نشان می‌دهیم. به این مقدار «فراوانی مشاهده شده» (Observed Frequency) می‌گوییم. از طرفی با توجه به احتمال $$p_i$$، «فراوانی مورد انتظار» (Expected Frequency) نیز بوسیله $$n\times p_i$$ قابل محاسبه است. این مقدار را برای رده $$i$$ام به صورت $$e_i$$ نشان می‌دهیم. واضح است که در این حالت مجموع فراوانی‌های مشاهده شده با مجموع فراوانی مورد انتظار برابر است.

$$\sum o_i=\sum e_i$$

در این حالت می‌توانیم فرض صفر آزمون را به صورت زیر بنویسیم:

$$H_0: np_i=o_i$$

این فرض نشان می‌دهد که توزیع تجربی داده‌ها با توزیع واقعی مطابقت دارد. به معنی دیگر، داده‌ها از توزیع مورد نظر برای آزمایش تصادفی (F) پیروی می‌کنند. اگر قرار باشد داده‌ها از توزیع F باشند، انتظار داریم که مقدار فراوانی‌های مورد انتظار به فراوانی‌های مشاهده شده نزدیک باشند. در نتیجه آماره آزمون مربوطه توسط پیرسون به صورت زیر معرفی شد:

$$C^2=\displaystyle \sum_i\dfrac{(o_i-e_i)^2}{e_i}$$

از آنجایی که این آماره دارای توزیع کای 2 با $$(k-1)$$ درجه آزادی است، می‌توان ناحیه بحرانی را به صورت $$C^2> \chi^2_{1-\alpha}(k-1)$$ در نظر گرفت. یعنی هر گاه نتیجه آماره آزمون از مقدار صدک ($$1-\alpha$$) توزیع کای 2 با $$k-1$$ درجه آزادی بزرگتر شد،‌ رای به رد فرض صفر می‌دهیم و در غیراینصورت دلیلی بر رد فرض صفر نداریم.

آزمون فرض آماری

مثال 1

می‌دانیم که طول عمر لامپ‌های LED دارای توزیع نمایی است و متوسط طول عمری برابر با 10 سال دارند. حال اگر جدول زیر حدود طول عمر لامپ‌های کارخانه A را برحسب سال، برای 2۰۰ نمونه از این گونه لامپ‌ها نشان دهد، بررسی کنید که لامپ‌های تولیدی این کارخانه نیز دارای توزیع نمایی با $$\theta=10$$ هستند.

با توجه به اطلاعات جدول زیر و تابع توزیع احتمال متغیر تصادفی نمایی مقدارهای مورد انتظار برای هر محدود محاسبه شده است. برای مثال برای محدوده $$X\leq 3$$ مقدار مورد انتظار برابر است با:

$$p_1=P(C_1)=P(X\leq3)=F(3)=1-e^{-x/10}=0.2592$$

$$e-1=np_1=200*0.2592=51.83$$

$$C_i$$ $$X\leq 3$$ $$3<X\leq 6$$ $$6<X\leq 9$$ $$X>9$$
$$O_i$$ 53 42 35 70
$$e_i$$ 51.84 38.40 28.45 81.31

حال محاسبه آماره آزمون را انجام می‌دهیم.

$$C^2=\dfrac{(53-81.84)^2+(42-38.40)^2+(35-28.45)^2+(70-81.31)^2}{(51.84+38.40+28.45+81.31)}=3.44$$

با توجه به اینکه مقدار صدک ۹۰ام برای توزیع کای 2 با 3 درجه آزادی برابر با 6.25 است،‌ داریم: $$C^2=3.44<\chi^2_{(0.9)}(3)=6.25$$، پس دلیلی برای رد فرض صفر نداریم. در نتیجه به نظر می‌رسد که لامپ‌های این کارخانه نیز از توزیع آماری نمایی با متوسط طول عمر 1۰ سال پیروی می‌کنند.

جدول توافقی و آزمون استقلال کای 2

احتمالا با جدول فراوانی آشنایی دارید. «جدول توافقی» (Contingency Table) نیز یک جدول فراوانی دو بعدی است. به این معنی که فراوانی مربوط به دو متغیر را همزمان نمایش می‌دهد. یکی از کاربردهای این جدول، انجام آزمون استقلال بین متغیر سطر و ستون آن است.

برای مثال فرض کنید از بین یک نمونه 1۰۰ نفری از دانشجویان دختر و پسر، چپ دست یا راست دست بودن آن‌ها بررسی شده و نتایج حاصل از این تحقیق در جدول توافقی زیر ثبت شده است:

راست دست چپ دست مجموع
دختر 44 4 48
پسر 43 9 52
مجموع 87 13 100

اگر سطرهای جدول را با A و ستون‌ها را با B نشان دهیم،‌ پیشامد دختر بودن به صورت A=1 و پسر بودن نیز به صورت A=2 قابل نمایش است. همچنین وضعیت راست دست بودن فرد را با B=1 و چپ دست بودن را با B=2 نشان می‌دهیم. در نتیجه مثلا مقدار فراوانی مشاهده شده برای A=2,B=1 را به صورت $$o_{21}$$ نشان می‌دهیم. در این حالت $$o_{ij}$$ فراوانی مشاهده شده برای سطر iام و ستون jام است.

حال می‌خواهیم استقلال وضعیت دست با جنسیت را آزمون کنیم. فرض صفر به صورت،  وجود استقلال در سطر و ستون جدول توافقی و فرض مقابل نیز بیانگر عدم استقلال بین سطر و ستون است. برای انجام این آزمون، درست به مانند روشی که برای آزمون نیکویی برازش توزیع انجام شد عمل می‌کنیم.به این معنی‌ که باید فراوانی‌های مورد انتظار را با در نظر گرفتن شرط استقلال محاسبه کرده تا  آماره آزمون کای 2 قابل استفاده باشد.

جدول توافقی

با توجه به مفهوم احتمال شرطی و استقلال دو پیشامد، برای اینکه سطرهای این جدول از ستون‌ها مستقل باشند باید نشان دهیم مثلاً احتمال راست دست بودن برای دخترها به جنسیت آنها ارتباطی ندارد. به این ترتیب اگر پیشامد راست دست بودن یک دختر را با A=1,B=1 نشان دهیم، انتظار داریم در صورت استقلال داشته باشیم:

$$P(A=1|B=1)=P(A=1),\;\;\;P(A=1,B=1)=P(A=1)P(B=1)$$

از آنجایی که بررسی رابطه دوم راحت‌تر است از این روش کمک می‌گیریم. با توجه به این موضوع برای این حالت، می‌توانیم مقدار مورد انتظار با شرط استقلال را به صورت زیر محاسبه کنیم.

$$100\times P(A=1,B=1)=100 \times P(A=1)P(B=1)=100 \times \dfrac{48}{100}\times \dfrac{87}{100}=41.76$$

توجه داشته باشید که برای محاسبه $$P(A=1)$$ از فراوانی نسبی استفاده کرده‌ایم،‌ یعنی نسبت تعداد دختران را به کل دانشجویان بدست آورده‌ایم. در حالت کلی اگر $$a_i$$ جمع مقدارهای مربوط به سطر i و $$b_j$$ جمع مقدارهای مربوط به ستون jام باشد، مقدار مورد انتظار برای سطر iام و ستون jام که با $$e_{ij}$$ نشان داده می‌شود، توسط رابطه زیر قابل محاسبه است:

$$e_{ij}=\dfrac{a_i\times b_j}{n}$$

به این ترتیب جدول توافقی با مقدارهای مورد انتظار به صورت زیر درخواهد آمد:

راست دست چپ دست مجموع
دختر $$o_11=44,\;\;\;e_11=41.76$$ $$o_12=4,\;\;e_12=6.24$$ 48
پسر $$o_21=43,\;\;\;e_21=45.24$$ $$o_22=9,\;\;\;e_22=6.76$$ 52
مجموع 87 13 100

در صورتی که جدول توافقی دارای s سطر و r ستون باشد، آماره مربوط به این آزمون به صورت زیر خواهد بود:

$$V=\sum_{i1=}^s \sum_{j=1}^r \dfrac{(o_{ij}-e_{ij})^2}{e_{ij}}$$

آماره آزمون V دارای توزیع کای 2 با $$(s-1)(r-1)$$‌ درجه آزادی است.

در این مثال، آماره آزمون برابر با 1.77 است که از  $$\chi^2_{0.9}((2-1)(2-1)=2.70$$ کوچکتر است، پس دلیلی بر رد فرض صفر (استقلال جنسیت با وضعیت راست دست یا چپ دست بودن)‌ نداریم. به این ترتیب به نوعی نشان دادیم که اگر احتمال برای هر خانه از جدول را براساس استقلال سطر و ستون در نظر بگیریم، داده‌ها از این توزیع پیروی می‌کنند.

آزمون فرض

اگر به یادگیری مباحث مشابه مطلب بالا علاقه‌مند هستید، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *