برآورد همه گیری بیماری با توزیع فوق هندسی – به زبان ساده


امروزه یکی از مسائل مهمی که همگی درگیر آن هستیم، همهگیری کوید ۱۹ یا بیماری در اثر ویروس کرونا است. این که در چه زمانی همهگیری از بین میرود به یکی از چالشهای مهم در زمینههای اقتصادی، اجتماعی و حتی سیاسی تبدیل شده است. از طرفی روند تغییرات این بیماری به کمک نمونهگیری از جامعه امکانپذیر است. اگر توزیع تصادفی این پدیده را به شکل توزیع فوق هندسی (Hyper-geometric) در نظر بگیریم، میتوانیم از تعداد کسانی که در غربالگری شرکت کردهاند و کسانی که نتیجه آزمایش آنها مثبت بوده، تعداد کل افراد بیمار را برآورد کنیم. این شیوه برای مشخص کردن استانهای درگیر کرونا یا استانهایی که کمتر درگیر هستند، کمک شایانی است. به همین دلیل این نوشتار از مجله فرادرس را به برآورد همه گیری بیماری با توزیع فوق هندسی اختصاص دادهایم و به کمک روابط ریاضی، یک بازه پیشبینی برای تعداد بیماران مشخص میکنیم.
برای آشنایی بیشتر با توزیع فوق هندسی و کاربردهای آن خواندن مطلب متغیر تصادفی و توزیع فوق هندسی (Hyper Geometric) — به زبان ساده را پیشنهاد میکنم. همچنین خواندن نوشتارهای پاندمی چیست؟ — به زبان ساده و بررسی مدلهای ریاضی اپیدمی بیماریها — به همراه ویدیوی آموزشی نیز خالی از لطف نیست.
برآورد همه گیری بیماری با توزیع فوق هندسی
پیشبینی مقدارهای آینده برای یک متغیر تصادفی براساس اطلاعاتی که از گذشته آن داریم، از کاربردهای مهم آمار استنباطی محسوب میشود. مسئله پیشبینی برای بسیاری از متغیرهای تصادفی از نوع پیوسته (Continuous Random Variables)، مثلا براساس توزیع نرمال (Normal Distribution)، کای ۲ (Chi-square Distribution) و ... صورت گرفته است ولی این کار برای متغیرهای تصادفی از نوع گسسته (Discrete Random Variables) کمتر مورد تقاضا بوده و به ندرت مورد بررسی قرار گرفته است.
به همین جهت در این نوشتار به بررسی بازه پیشبینی (Prediction Interval) برای متغیر تصادفی گسسته میپردازیم، که از این به بعد آن را با PI نشان خواهیم. در این بین به علت آنکه مدل یا توزیع فوق هندسی (Hypergeometric Distribution) بخصوص در بحث غربالگری و پیشبینی شیوع بیماریها اهمیت زیادی دارد، PI برای چنین توزیعی را هدف قرار داده و محاسبات مربوطه را براساس آن انجام خواهیم داد. در مسئله برآورد نسبت در جامعههای متناهی، موضوع فاصله اطمینان (Confidence Intervals) از توزیع فوق هندسی در بسیاری از مقالات مورد توجه بوده و محاسبات برای آن صورت گرفته است.

طرح مسئله با توزیع فوق هندسی
حال فرض کنید متغیر تصادفی مقداری از توزیع فوقهندسی است که باید پیشبینی شود. این متغیر تصادفی از مستقل بوده و شرط زیر نیز برای آن برقرار است:
به این ترتیب هدف پیدا کردن یک فاصله پیشبینی برای به شرط مشخص بودن (تعداد بیماران از یک نمونه تایی) است. حال اگر سطح اطمینان (Confidence Level) را برابر با در نظر بگیریم، باید مقدار صحیحی مثل و را پیدا کنیم که در رابطه زیر برای همه ها صدق کنند.
توجه دارید که در اینجا منظور از تابع توزیع توام و است و از آنجایی که این دو متغیر تصادفی نسبت به یکدیگر مستقل فرض شدهاند، میتوان توزیع توام را براساس حاصلضرب احتمال هر یک بدست آورد.
پیاده سازی برآورد همه گیری بیماری با توزیع فوق هندسی
در اینجا به منظور محاسبه فاصله پیشبینی فرضیات زیر را در نظر میگیریم تا تقریب مناسبی قابل ارائه باشد.
- مقدار را برابر با نسبت جمعیت بیماران به کل جامعه در نظر میگیریم. یعنی
- ضریب یا عامل تصحیح اندازه جامعه را به شکل زیر مورد محاسبه قرار میدهیم.
رابطه ۱
- واریانس تعداد بیماران () هم براساس مقادیر و به صورت زیر محاسبه میشود.
- واریانس تعداد پیشبینی بیماران () را هم بر همین اساس و به شکل زیر بدست خواهیم آورد.
همانطور که مشخص است برای محاسبه ، کافی است که و را در فرمول مربوط به جایگزین کنیم.
روش والد برای فاصله پیشبینی برآورد همه گیری بیماری با توزیع فوق هندسی
در اینجا بوسیله روش «فاصله پیشبینی والد» (Wald Prediction Interval) عمل خواهیم کرد. در این بین بوسیله تقریب توزیع فوق هندسی بوسیله توزیع دوجملهای (با فرض بزرگ بودن اندازه جامعه و کوچک بودن احتمال داشتن بیماری) استفاده خواهد شد. به این ترتیب مقدار برآورد برای و به صورت زیر خواهد بود.
رابطه ۲
رابطه ۳
رابطه زیر پایه و اساس برای تشکیل فاصله اطمینان (CI) برای پارامتر یا همان احتمال بیمار بودن فرد است.
با توجه به استاندارد سازی رابطه بالا میتوان آن را دارای توزیع نرمال استاندارد دانست به شرطی که به اندازه کافی بزرگ باشد.
به همین نسبت میتوان توزیع احتمالی برای که نشانگر مقدار به شرط مشاهده مقدار است به شکل زیر تبدیل به نرمال استاندارد (Standard Normal Distribution) کرد.
توجه داشته باشید که روابط زیر نیز برای واریانس مخرج کسر بالا وجود دارد.
حال فرض کنید که که بیانگر صدک از توزیع نرمال استاندارد است.
در این صورت فاصله پیش بینی والد دارای فرمی به صورت زیر خواهد بود.
رابطه 4: محاسبه فاصله پیشبینی به روش والد (Wald Method)
در انتها، کافی است که هر دو مقدار و به نزدیکترین عدد صحیح گرد کنید تا یک بازه با مقادیر صحیح مثبت برای تعداد پیش بینی بیماران ایجاد شود.
محاسبات برای برآورد همه گیری بیماری با توزیع فوق هندسی
در این قسمت سعی داریم به کمک مشخص کردن پارامترهای جامعه آماری از توزیع فوق هندسی که برای یک بیماری فرضی مثلا کووید ۱۹، مناسب است، فاصله پیش بینی را محاسبه کنیم.
فرض کنید که تعداد نفر از افرادی یک روستا با جمعیتی برابر با در طرح غربالگری شرکت کردهاند که در آنها نفر دارای تست مثبت برای بیماری کووید ۱۹ هستند. براساس این اطلاعات میخواهیم در یک نمونه ۴۰ تایی () از افراد مربوط به یک روستای دیگر با اندازه ، تعداد اشخاصی که ممکن است در آینده دچار بیماری کووید ۱۹ شوند را پیشبینی کرده و بوسیله مقادیری که نحوه محاسبه آنها در رابطه ۱، ۲ و ۳ تعیین شده، تعداد آنها را با اطمینان ۹۵٪ مشخص کنیم.
به این ترتیب پارامترهای زیر در اختیارمان قرار دارد:
- اندازه جامعه مقصد.
- اندازه نمونه جامعه مقصد.
- اندازه جامعه مبدا.
- اندازه نمونه مبدا.
- تعداد بیماران در جامعه مبدا.
نکته: توجه داشته باشید که در اینجا مقدار برابر با 1٫65 است. برای آنکه نحوه پیدا کردن این عدد را بهتر درک کنید به نوشتار دیگری از مجله فرادرس به نام جدول توزیع نرمال استاندارد – به زبان ساده مراجعه کنید.
با توجه به مقادیر ذکر شده و رابطه ۴ گفته شده، مقدار فاصله پیشبینی با روش والد برای برآورد همه گیری بیماری با توزیع فوق هندسی به صورت زیر در خواهد آمد.
در نتیجه خواهیم داشت:
که با گرد کردن آنها به نزدیکترین عدد صحیح به مقادیر بازه خواهیم رسید.
خلاصه و جمعبندی
در این نوشتار به شیوه والد برای پارامتر توزیع فوق هندسی یا مقدار متغیر تصادفی یک بازه پیشبینی ایجاد کردیم. از آنجایی که توزیع فوق هندسی در بررسیهای غربالگری و تعیین بیماران در یک ناحیه با اندازه جامعه متناهی بسیار کاربرد دارد، این روش را برآورد همه گیری بیماری با توزیع فوق هندسی مورد استفاده قرار دادیم.
البته در این بین از یک مثال فرضی برای بررسی شیوع یا همه گیری بیماری کووید ۱۹ نیز کمک گرفتیم و فرمولهای معرفی شده را برای یک روستای فرضی براساس اطلاعاتی که از روستای دیگر داشتیم، محاسبه کرده، در قالب یک بازه پیشبینی معرفی کردیم.