متغیر تصادفی و توزیع چند جمله ای (Multinomial Distribution) — به زبان ساده
در نوشتههای دیگر فرادرس با «توزیع دو جملهای» (Binomial Distribution) آشنا شدید. همانجا اشاره کردیم که متغیر تصادفی دو جملهای از حاصل جمع n متغیر تصادفی برنولی مستقل و هم توزیع با احتمال موفقیت یکسان بدست میآید. متغیر «تصادفی چند جملهای» (Multinomial Random Variable) نیز حالت کلیتری برای متغیر تصادفی دو جملهای و توزیع آن نیز به همین ترتیب حالت کلیتری از توزیع دو جملهای است. در این نوشتار به بررسی توزیع چند جملهای و خصوصیات آن میپردازیم. برای آگاهی بیشتر درباره متغیر تصادفی و تابع احتمال و توزیع احتمال به مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال مراجعه کنید. همچنین خواندن نوشتار اصول شمارش و فاکتوریل — به زبان ساده نیز خالی از لطف نیست.
متغیر تصادفی و توزیع چند جمله ای (Multinomial Distribution)
در نظریه آمار و احتمال، حالت کلیتر برای توزیع دوجملهای، «توزیع چند جملهای» (Multinomial Distribution) نام دارد. برای مثال اگر تعداد اعداد مشاهده شده در n بار پرتاب تاس را در نظر بگیریم، میتوان آن را یک توزیع چند جملهای در نظر گرفت. در این حالت نتایج آزمایش، دو حالتی نیستند.
در این حالت میتوان کل تعداد حالات برای نتایج یکبار انجام آزمایش تصادفی مستقل را k در نظر گرفت. فرض کنید چنین آزمایشی n بار تکرار شده است. احتمال موفقیت برای هر بار اجرای آزمایش را میتوان به صورت در نظر گرفت. همچنین تعداد موفقیت را به صورت در نظر میگیریم که در آن است. پس به نظر میرسد که بوده و به علت مستقل بودن هر یک از آزمایشها داریم:
مشخص است که این متغیر تصادفی kبعدی و دارای تکیهگاه اعداد طبیعی است. بنابراین از دسته توزیعهای گسسته محسوب میشود. با توجه به رابطه بالا میتوان تابع احتمال (pdf) یا (Probability Density Function) و تابع «توزیع احتمال تجمعی» (cdf) یا (Cumulative Distribution Function) را نوشت.
تابع احتمال و تابع توزیع احتمال
فرض کنید در یک آزمایش شرکت کردهایم که در آن باید n توپ از k رنگ مختلف را با جایگذاری انجام دهیم. توپهای هم رنگ یکسان در نظر گرفته میشوند. متغیر تصادفی را تعداد توپهای استخراج شده از رنگ i در نظر گرفتهایم. همچنین نیز احتمال آن را نشان میدهد که توپ انتخابی از رنگ i باشد. در این صورت تابع احتمال متغیر تصادفی X به صورت زیر نوشته خواهد شد.
در این حالت مینویسیم است و میخوانیم X دارای توزیع چند جملهای با پارامترهای n و است.
نکته: هر یک از در این حالت دارای توزیع دو جملهای با پارامترهای n و هستند. در نتیجه میتوان گفت .
همینطور تابع احتمال این متغیر تصادفی را میتوان برحسب تابع گاما نیز به صورت زیر نوشت:
همچنین برای تابع توزیع احتمال تجمعی نیز خواهیم داشت:
نکته: از آنجایی بسط چند جملهای ضرایب توزیع چند جملهای را میسازد، این توزیع به نام چند جملهای معروف است.
خصوصیات توزیع چند جملهای
مشخص است که هر کدام از دارای توزیع دو جملهای هستند. در نتیجه امید ریاضی به صورت برداری از ها ساخته میشود.
همینطور برای محاسبه واریانس و کوواریانس متغیر داریم:
نکته: همانطور که دیده میشود کوواریانس متغیر تصادفی چند جملهای منفی است که البته منطقی به نظر میرسد زیرا با افزایش مقدار مثلا باید کاهش یابد زیرا مجموع همه آنها برابر با n است.
همچنین براساس محاسبات میتوان نشان داد که ضریب همبستگی بین و منفی است و به صورت زیر قابل محاسبه است:
جالب است که پارامتر n در مقدار ضریب همبستگی نقشی ندارد.
مثال
فرض کنید در یک انتخابات، سه کاندید با اسامی A, B, C شرکت کردهاند. احتمال موفقیت کاندید A برابر با ۲۰٪ و کاندید B برابر با ۳۰٪ و کاندید C نیز برابر با ۵۰٪ است. اگر شش رایدهنده به تصادف انتخاب شوند، احتمال اینکه دقیقا یک نفر به کاندید A، دو نفر به B و سه نفر به C رای دهند، به صورتی که در ادامه آمده است محاسبه میشود.
در اینجا فرض بر این است که اندازه جامعه بزرگ است و انتخاب این ۶ نفر تغییری در احتمال انتخاب شدن هر یک از کاندیدها ندارد. به این ترتیب خواهیم داشت:
توزیعهای مرتبط با توزیع چند جملهای
با توجه به حالت کلی که توزیع چند جملهای نسبت به توزیع دو جملهای دارد، میتوان گفت:
- به ازای k=2 توزیع متغیر تصادفی X به دو جملهای تبدیل خواهد شد.
- اگر n=1 و k=2 باشد، توزیع برنولی و در حالتی که n=1 و k>2 باشد «توزیع طبقهای» (Categorical Distribution) نامیده میشود.
نکته: اگر در نتایج یک آزمایش گسسته بیش از ۲ حالت در نظر گرفته شود، تابع توزیع احتمال آن را با نام طبقهای میشناسند. در این حالت، نتیجه آزمایش یکی از k حالت مختلف خواهد بود که احتمال رخداد آن نیز به صورت نوشته میشود.
شبیهسازی توزیع چند جملهای
روشهای مختلفی برای ایجاد دادههای شبیهسازی شده از توزیع چند جملهای وجود دارد. در اینجا به بررسی یک روش ساده به کمک اکسل میپردازیم.
کافی است که یک عدد تصادفی تولید کنید و به کمک روابطی که در جدولهای زیر میبینید، بردار تصادفی مورد نظر را ایجاد کنید.
مثال
فرض کنید که جدول از طبقات و احتمالات مربوط به هر طبقه در اختیارمان قرار گرفته است.
طبقه | ۱ | ۲ | ۳ | ۴ | ۵ | ۶ |
احتمال | 0.15 | 0.20 | 0.30 | 0.16 | 0.12 | 0.07 |
کران بالا برای احتمال رده | 0.15 | 0.35 | 0.65 | 0.81 | 0.93 | 1.00 |
نکته: کران بالا برای احتمال رده، همان احتمالات تجمعی ردهها است.
حال به کمک رابطههای زیر، دادههایی (بردار) از توزیع چند جملهای را ایجاد میکنیم.
سلول | Ai | Bi | Ci | ... | Gi |
فرمول | =Rand() | =if($Ai<0.15,1,0) | =if(And($Ai>=0.15; $Ai<0.35),1,0) | ... | =if($Ai>=0.93;1;0) |
حال این فرمولها را در اکسل وارد میکنیم. مشخص است که مقدار سلول Ai با استفاده از تابع Rand یک عدد تصادفی است.
همانطور که مشخص است این آزمایش ۱۰ بار از سطر ۵ تا ۱۴ تکرار و در هر بار یک عدد تصادفی متعلق به یک بازه ایجاد شده است. مجموع مشاهدات حاصل از این ۱۰ بار تکرار، اعداد تصادفی مربوط به توزیع چند جملهای با پارامترهای n=10 و را ایجاد میکند. همانطور که انتظار داشتیم، گروه یا دستهای که شانس بیشتری برای مشاهده داشت (یعنی گروه ۳) تعداد بیشتری دارد. فایل مربوط به این محاسبات را میتوانید از اینجا دریافت کنید.
نکته: اگر فایل اکسل را دریافت و مشاهده کنید، ممکن است نتایج با تصویر این مطلب متفاوت باشد زیرا با هر بار تغییر یا بازکردن فایل اکسل، اعداد تصادفی جدید تولید شده و در نتیجه شبیهسازی توزیع چند جملهای نتایج متفاوتی خواهد داشت.
اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزشهایی که در ادامه آمدهاند نیز برایتان کاربردی خواهند بود.
- مجموعه آموزش های برنامه نویسی متلب برای علوم و مهندسی
- متغیر های تصادفی – میانگین، واریانس و انحراف معیار – به زبان ساده
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آموزش آمار و احتمال مهندسی
- متغیر تصادفی و توزیع برنولی — به زبان ساده
- متغیر تصادفی و توزیع دو جملهای — به زبان ساد
- آموزش قضیه بسط دو جمله ای و مثلث خیام
^^