متغیر تصادفی و توزیع کای ۲ (Chi Squared) – مفاهیم و کاربردها
شناخت توزیع احتمال برای پدیدههای تصادفی، پیشبینی رخداد پیشامدها را امکانپذیر میسازد. یکی از توزیعهای مهم آماری، «توزیع کای۲» (Chi Squared Distribution) است که بخصوص در آزمون نیکویی برازش به کار میرود. در این نوشتار به بررسی این توزیع آماری میپردازیم.
اولین بار این توزیع توسط دانشمند آلمانی آمار «رابرت هلمرت» (Robert Helmert) در مقالهای در سال 1875 معرفی شد. ولی بعدها «کارل پیرسن» (Karl Pearson) از آن برای انجام آزمونهای برازش استفاده کرد. هرچند نام «کای۲» (Chi Squared) را آماردان بزرگ «رونالد فیشر» (Ronald Fisher) در سال ۱۹۲۰ برای آن انتخاب کرد. این توزیع را گاهی با نامهای «کای مربع»، «خی ۲» یا «خی اسکور» نیز به کار میبرند.
به عنوان مقدمات برای این نوشتار، بهتر است ابتدا مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال را مطالعه کرده باشید. همچنین مطالعه مطلب مربوط به توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها و توزیع های آماری گاما و بتا — مفاهیم و کاربردها نیز خالی از لطف نیست.
متغیر تصادفی و توزیع کای ۲
متغیر تصادفی و توزیع کای۲ کاربردهای زیادی بخصوص در آزمونهای نیکویی برازش و همچنین آزمون استقلال متغیرهای کیفی دارد. فرض کنید تعداد k متغیر تصادفی نرمال استاندارد مستقل باشند.
آنگاه جمع مربعات این متغیرهای تصادفی دارای توزیع کای۲ است. در این حالت داریم:
به این ترتیب مینویسم و میخوانیم، Q دارای توزیع کای۲ با k درجه آزادی است. مشخص است که این توزیع دارای یک پارامتر به نام «درجه آزادی» (Degree of Freedom) است که مقدار آن مثبت است. گاهی درجه آزادی را با df نیز نشان میدهند.
تابع چگالی توزیع کای ۲
اگر X یک متغیر تصادفی با توزیع کای۲ باشد، آنگاه تابع چگالی احتمال برای آن به صورت زیر خواهد بود.
مشخص است که عبارت مقدار تابع گاما در نقطه است. تصویر زیر، نمودار مربوط به تابع چگالی احتمال (Probability Density Function- pdf) این توزیع را برای مقدارهای مختلف k نشان میدهد.
براساس نمودار مشخص است که تکیهگاه این متغیر تصادفی، مجموعه اعداد حقیقی مثبت به ازای k=۱ و برای بقیه مقدارهای k، تکیهگاه مجموعه اعداد حقیقی نامنفی است. به این ترتیب میتوان نوشت:
همانطور که در نمودار دیده میشود، این توزیع، نامتقارن و چوله به راست است. با افزایش مقدار درجه آزادی (k)، چولگی کاهش یافته و نمودار تابع احتمال به صورت یک نمودار متقارن درخواهد آمد. همچنین با توجه به قضیه حد مرکزی، میتوان نتیجه گرفت که با افزایش k، این توزیع به سمت نرمال میل خواهد کرد.
تابع توزیع احتمال تجمعی
همانطور که از مطالب قبلی فرادرس در مورد تابع توزیع احتمال و تابع توزیع احتمال تجمعی خواندهاید، میدانید که برای بدست آوردن تابع توزیع احتمال تجمعی برای متغیرهای تصادفی پیوسته در نقطه y باید انتگرال تابع توزیع احتمال را از ۰ تا نقطه y محاسبه کرد. در نتیجه برای محاسبه تابع توزیع احتمال تجمعی متغیر تصادفی کای۲ خواهیم داشت:
البته حاصل این انتگرال را به کمک تابع «گامای ناکامل» (Incomplete Gamma Function) نیز میتوان نشان داد. در این صورت میتوان نوشت:
مشخص است که در اینجا منظور از ، همان مقدار تابع گامای ناکامل در نقطههای و است که در زیر شیوه محاسبه آن آورده شده است.
نکته: در حالت خاص که k=2 باشد، تابع توزیع احتمال تجمعی متغیر تصادفی کای۲، به شکل سادهتری در میآید که در ادامه دیده میشود.
به کمک جدولهای تابع توزیع احتمال تجمعی متغیر تصادفی کای۲ که از قبل تهیه شدهاند، محاسبه احتمال برای پیشامدهایی با این توزیع احتمالی به راحتی امکانپذیر است. در زیر به یک نمونه از این جدولها اشاره شده است.
در سطر اول این جدول، مقدار درجه آزادی و در ستون اول نیز مقدار y ثبت شده است. مقدارهایی درون جدول نیز تابع احتمال تجمعی را در نقطه y نشان میدهند. برای مثال فرض کنید بخواهیم مقدار احتمال را تا نقطه 4 برای متغیر تصادفی (توزیع کای۲ با ۵ درجه آزادی) محاسبه کنیم. طبق جدول داریم.
از آنجایی که در آزمونهای آماری مربوط به این توزیع، احتیاج به صدکها داریم، جدولهایی نیز برای محاسبه آن تهیه شده که در تصویر زیر یک نمونه از آن را میبینید.
باید توجه داشت که در این جدول صدکهای بالایی مربوط به توزیع کای۲ محاسبه شده است. منظور از صدک بالایی در اینجا مقدار p است که به صورت بدست میآید.
در ستون اول این جدول، درجه آزادی (df) و در سطر آخر نیز درصد مربوط به صدکهای بالایی دیده میشود. مقدارهایی که در محل تقاطع سطر و ستون جدول دیده میشود، مقدار صدک بالایی مربوط به توزیع کای ۲ به ازاء درجه آزادی آن سطر و درصد آن ستون است.
برای مثال اگر لازم است که مقدار صدک 95ام (یا صدک ۵ام بالایی) از توزیع کای۲ با ۱۰ درجه آزادی مشخص شود، از سطر آخر ستون مربوط به مقدار 0.95 را انتخاب کرده و مقدار مربوط به درجه آزادی (df=10) را میخوانیم که در اینجا برابر با 18.31 است. این نقطه، مقداری از متغیر تصادفی توزیع کای۲ را نشان میدهد که احتمال تا آن نقطه برابر با ۹۵٪ یا احتمال از آن نقطه به بعد برابر با 0.05 است.
خصوصیات توزیع کای ۲
با توجه به رابطهای که بین مجموع مربعات متغیر تصادفی نرمال استاندارد و متغیر تصادفی کای۲ وجود دارد، میتوان خصوصیات زیر را برای این توزیع در نظر گرفت.
امید ریاضی و واریانس
مشخص است که واریانس متغیرهای تصادفی ها همان امید ریاضی است. همینطور میدانیم که این متغیرهای تصادفی، مستقل نیز هستند. پس امید ریاضی برای جمع ها برابر با k است. در نتیجه خواهیم داشت:
به همین ترتیب نیز میتوان واریانس را برای متغیر تصادفی کای۲ محاسبه کرد. در این حالت خواهیم داشت:
برای مثال امید ریاضی و واریانس یک متغیر تصادفی کای۲ با ۴ درجه آزادی به ترتیب برابر با ۴ و ۸ خواهد بود.
رابطه با توزیعهای دیگر
از آنجایی که توزیع کای۲ براساس توزیع نرمال استاندارد ساخته شده است، خصوصیات مطلوب و جالبی دارد. در این قسمت به بررسی خصوصیات این توزیع نسبت به توزیعهای دیگر میپردازیم.
اگر متغیرهای تصادفی مستقل با توزیع کای۲ با درجههای آزادی باشند، جمع آنها نیز دارای توزیع کای۲ با درجه آزادی جمع kها خواهد بود. در نتیجه میتوان نوشت:
به همین ترتیب میتوان میانگین این متغیرهای تصادفی را توزیع گاما با پارامتر شکل و پارامتر مقیاس دانست. به این ترتیب داریم.
از طرفی میتوان دید که توزیع کای۲ با k درجه آزادی (k صحیح) را میتوان همان توزیع گاما با پارامترهای و در نظر گرفت. همچنین میتوان نشان داد که توزیع کای۲ با ۲ درجه آزادی، همان توزیع نمایی با پارامتر است.
یکی از مهمترین رابطههایی که بخصوص در آزمونهای فرض مربوط به واریانس و آماره آزمون آن به کار گرفته میشود، رابطهای است که بین برآورد واریانس یعنی و واریانس جامعه وجود دارد. حاصل ضرب این نسبت با n-1 دارای توزیع کای۲ است. بنابراین میتوان نوشت:
به شرطی که محاسبه شود. در نتیجه این رابطه میتواند یک آماره آزمون با تابع محوری برای ایجاد فاصله اطمینان تلقی شود زیرا برحسب پارامتر مجهول است ولی توزیع آن به پارامتر مجهول بستگی ندارد.
اگر به فراگیری مباحث مشابه مطلب بالا علاقهمند هستید، آموزشهایی که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آزمایش تصادفی، پیشامد و تابع احتمال
- مجموعه آموزشهای SPSS
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای نرمافزارهای آماری
- جامعه آماری — انواع داده و مقیاسهای آنها
- تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات
- فاصله اطمینان (Confidence Interval) — به زبان ساده
^^
سلام خسته نباشید . عالی بود . فقط لطفا برای هر مبحث مثال های بیشتری قرار دهید