امروزه یکی از مسائل مهمی که همگی درگیر آن هستیم، همه‌گیری کوید ۱۹ یا بیماری در اثر ویروس کرونا است. این که در چه زمانی همه‌گیری از بین می‌رود به یکی از چالش‌های مهم در زمینه‌های اقتصادی، اجتماعی و حتی سیاسی تبدیل شده است. از طرفی روند تغییرات این بیماری به کمک نمونه‌گیری از جامعه امکان‌پذیر است. اگر توزیع تصادفی این پدیده را به شکل توزیع فوق هندسی (Hyper-geometric) در نظر بگیریم، می‌توانیم از تعداد کسانی که در غربالگری شرکت کرده‌اند و کسانی که نتیجه آزمایش آن‌ها مثبت بوده، تعداد کل افراد بیمار را برآورد کنیم. این شیوه برای مشخص کردن استان‌های درگیر کرونا یا استان‌هایی که کمتر درگیر هستند، کمک شایانی است. به همین دلیل این نوشتار از مجله فرادرس را به برآورد همه گیری بیماری با توزیع فوق هندسی اختصاص داده‌ایم و به کمک روابط ریاضی، یک بازه پیش‌بینی برای تعداد بیماران مشخص می‌کنیم.

برای آشنایی بیشتر با توزیع فوق هندسی و کاربردهای آن خواندن مطلب متغیر تصادفی و توزیع فوق هندسی (Hyper Geometric) — به زبان ساده را پیشنهاد می‌کنم. همچنین خواندن نوشتارهای پاندمی چیست؟ — به زبان ساده و بررسی مدل‌های ریاضی اپیدمی بیماری‌ها — به همراه ویدیوی آموزشی نیز خالی از لطف نیست.

برآورد همه گیری بیماری با توزیع فوق هندسی

پیش‌بینی مقدارهای آینده برای یک متغیر تصادفی براساس اطلاعاتی که از گذشته آن داریم، از کاربردهای مهم آمار استنباطی محسوب می‌شود. مسئله پیش‌بینی برای بسیاری از متغیرهای تصادفی از نوع پیوسته (Continuous Random Variables)، مثلا براساس توزیع نرمال (Normal Distribution)، کای ۲ (Chi-square Distribution) و … صورت گرفته است ولی این کار برای متغیرهای تصادفی از نوع گسسته (Discrete Random Variables) کمتر مورد تقاضا بوده و به ندرت مورد بررسی قرار گرفته است.

به همین جهت در این نوشتار به بررسی بازه پیش‌بینی (Prediction Interval) برای متغیر تصادفی گسسته می‌پردازیم، که از این به بعد آن را با PI نشان خواهیم. در این بین به علت آنکه مدل یا توزیع فوق هندسی (Hypergeometric Distribution) بخصوص در بحث غربالگری و پیش‌بینی شیوع بیماری‌ها اهمیت زیادی دارد، PI برای چنین توزیعی را هدف قرار داده و محاسبات مربوطه را براساس آن انجام خواهیم داد. در مسئله برآورد نسبت در جامعه‌های متناهی، موضوع فاصله اطمینان (Confidence Intervals) از توزیع فوق هندسی در بسیاری از مقالات مورد توجه بوده و محاسبات برای آن صورت گرفته است.

نکته: از آنجایی که توزیع فوق هندسی مربوط به متغیر تصادفی است که افراد خاص که دارای یک ویژگی هستند را می‌شمارد، می‌توان برآورد همه گیری بیماری با توزیع فوق هندسی را برای کووید ۱۹ نیز به کار برد.
Pandemic Prediction

طرح مسئله با توزیع فوق هندسی

یک توزیع فوق هندسی را با اندازه جامعه $$N_x$$ در نظر بگیرید که در آن $$M_x$$ تعداد افراد دچار بیماری کوید ۱۹ هستند. واضح است که این پارامتر از توزیع ناشناخته است و می‌خواهیم براساس یافته‌های حاصل از نمونه‌گیری، مقدار آن را برآورد کرده یا یک فاصله پیش‌بینی برای نسبت بیماری ($$\dfrac{M_X}{N_X}$$) ایجاد کنیم. متغیر تصادفی $$X$$ را تعداد افرادی در نظر بگیرید که در یک نمونه $$n_x$$تایی دارای بیماری کوید ۱۹ هستند. این نمونه‌گیری بدون جایگذاری (Without Replacement) است. در این صورت متغیر تصادفی $$X$$ دارای توزیع فوق هندسی با پارامترهای ذکر شده است و می‌نویسیم:
$$ \large X \sim H(n_x,M_x,N_x) $$
از طرفی می‌دانیم که تابع احتمال برای چنین متغیر تصادفی به شکل زیر نوشته خواهد شد.
$$ \large P(X=x|n_x,M_x,N_x) = \dfrac{{M_x \choose x} {n_x-x \choose N_x-M_x} }{N_x \choose n_x} $$
که در آن مقدار $$x$$ در بازه زیر قرار گرفته است.
$$ \large \max\{0,M_x – N_x + n_x\} \leq x \leq \min\{n_x,M_x\} $$

حال فرض کنید متغیر تصادفی $$Y$$ مقداری از توزیع فوق‌هندسی است که باید پیش‌بینی شود. این متغیر تصادفی از $$X$$ مستقل بوده و شرط زیر نیز برای آن برقرار است:

$$ \large \dfrac{M_x}{N_x} = \dfrac{M_y}{N_y} $$

به این ترتیب هدف پیدا کردن یک فاصله پیش‌بینی برای $$Y$$ به شرط مشخص بودن $$X$$ (تعداد بیماران از یک نمونه $$n_x$$ تایی) است. حال اگر سطح اطمینان (Confidence Level) را برابر با $$1-\alpha$$ در نظر بگیریم، باید مقدار صحیحی مثل $$L$$ و $$U$$ را پیدا کنیم که در رابطه زیر برای همه $$M_x$$ها صدق کنند.

$$ \large P_{X,Y} (L(X,n_x,N_x,n_y,N_y;\alpha) \leq Y \leq U(X,n_x,n_y,N_y;\alpha) \geq 1-\alpha $$

توجه دارید که در اینجا منظور از $$P_{X,Y}$$ تابع توزیع توام $$X$$ و $$Y$$ است و از آنجایی که این دو متغیر تصادفی نسبت به یکدیگر مستقل فرض شده‌اند، می‌توان توزیع توام را براساس حاصل‌ضرب احتمال هر یک بدست آورد.

Hypergeomteric distribution and pandemic prediction

پیاده سازی برآورد همه گیری بیماری با توزیع فوق هندسی

در اینجا به منظور محاسبه فاصله پیش‌بینی فرضیات زیر را در نظر می‌گیریم تا تقریب مناسبی قابل ارائه باشد.

  • مقدار $$p$$ را برابر با نسبت جمعیت بیماران به کل جامعه در نظر می‌گیریم. یعنی

$$ \large p = \dfrac{M_x}{N_x} = \dfrac{M_y}{N_y} $$

  • ضریب یا عامل تصحیح اندازه جامعه $$R_x$$ را به شکل زیر مورد محاسبه قرار می‌دهیم.

$$ \large R_x = \dfrac{N_x – n_x}{N_x – 1} $$

رابطه ۱

  • واریانس تعداد بیماران ($$X$$) هم براساس مقادیر $$p$$ و $$R_x$$ به صورت زیر محاسبه می‌شود.

$$ \large \text{Var}(X) = n_xp(1-p) R_x $$

  • واریانس تعداد پیش‌بینی بیماران ($$Y$$) را هم بر همین اساس و به شکل زیر بدست خواهیم آورد.

$$ \large \text{Var}(Y) = n_yp(1-p) R_y $$

همانطور که مشخص است برای محاسبه $$R_y$$‌، کافی است که $$N_y$$ و $$n_y$$ را در فرمول مربوط به $$R_x$$ جایگزین کنیم.

روش والد برای فاصله پیش‌بینی برآورد همه گیری بیماری با توزیع فوق هندسی

در اینجا بوسیله روش «فاصله پیش‌بینی والد» (Wald Prediction Interval) عمل خواهیم کرد. در این بین بوسیله تقریب توزیع فوق هندسی بوسیله توزیع دوجمله‌ای (با فرض بزرگ بودن اندازه جامعه و کوچک بودن احتمال داشتن بیماری) استفاده خواهد شد. به این ترتیب مقدار برآورد برای $$p_x$$ و $$Y_x$$ به صورت زیر خواهد بود.

$$ \large \widehat{p}_x = X/n_x , $$

رابطه ۲

$$ \large \widehat{Y}_x  =n_y\widehat{p}_x $$

رابطه ۳

رابطه زیر پایه و اساس برای تشکیل فاصله اطمینان (CI) برای پارامتر $$p$$‌ یا همان احتمال بیمار بودن فرد است.

$$ \large \dfrac{\widehat{p_x}-p_x}{\sqrt{\widehat{\text{Var}}(\widehat{p_x})}} = \dfrac{\widehat{p_x}-p_x}{\sqrt{R_x \widehat{p_x}(1-\widehat{p_x})/n_x}}$$

با توجه به استاندارد سازی رابطه بالا می‌توان آن را دارای توزیع نرمال استاندارد دانست به شرطی که $$n_x$$ به اندازه کافی بزرگ باشد.

به همین نسبت می‌توان توزیع احتمالی برای $$Y_x$$  که نشانگر مقدار $$Y$$ به شرط مشاهده مقدار $$x$$ است به شکل زیر تبدیل به نرمال استاندارد (Standard Normal Distribution) کرد.

$$ \large Z =  \dfrac{\widehat{Y_x} – Y}{\sqrt{\widehat{\text{Var}}(\widehat{Y}_x – Y)}} = \dfrac{(n_yX – n_xY)}{\sqrt{\widehat{\text{Var}}(n_yX-n_xY)}}\sim N(0,1) $$

توجه داشته باشید که روابط زیر نیز برای واریانس مخرج کسر بالا وجود دارد.

$$ \large \widehat{\text{Var}}(n_yX-n_xY) = n_xn_y\widehat{p_x}(1-\widehat{p_x})(n_yR_x+n_xR_y) $$

حال فرض کنید که $$q_{\alpha} = z_{1-\alpha/2}$$ که بیانگر صدک $$100(1-\alpha/2)$$ از توزیع نرمال استاندارد است.

در این صورت فاصله پیش بینی والد دارای فرمی به صورت زیر خواهد بود.

$$ \large [L_w , U_w] = \widehat{Y}_x
\pm \dfrac{q_{\alpha}}{\sqrt{n_x}}\sqrt{n_x\widehat{p}_x(1-\widehat{p_x})(n_yR_x+n_xR_y)} $$

رابطه 4: محاسبه فاصله پیش‌بینی به روش والد (Wald Method)

در انتها، کافی است که هر دو مقدار $$L$$ و $$U$$ به نزدیکترین عدد صحیح گرد کنید تا یک بازه با مقادیر صحیح مثبت برای تعداد پیش بینی بیماران ایجاد شود.

محاسبات برای برآورد همه گیری بیماری با توزیع فوق هندسی

در این قسمت سعی داریم به کمک مشخص کردن پارامترهای جامعه آماری از توزیع فوق هندسی که برای یک بیماری فرضی مثلا کووید ۱۹، مناسب است، فاصله پیش بینی را محاسبه کنیم.

فرض کنید که تعداد $$n_x=20$$‌ نفر از افرادی یک روستا با جمعیتی برابر با $$N_x=200$$ در طرح غربالگری شرکت کرده‌اند که در آن‌ها $$X=2$$ نفر دارای تست مثبت برای بیماری کووید ۱۹ هستند. براساس این اطلاعات می‌خواهیم در یک نمونه ۴۰ تایی ($$n_y = 40$$) از افراد مربوط به یک روستای دیگر با اندازه $$N_y = 500$$، تعداد اشخاصی که ممکن است در آینده دچار بیماری کووید ۱۹ شوند را پیش‌بینی کرده و بوسیله مقادیری که نحوه محاسبه آن‌ها در رابطه ۱، ۲ و ۳ تعیین شده، تعداد آن‌ها را با اطمینان ۹۵٪ مشخص کنیم.

به این ترتیب پارامترهای زیر در اختیارمان قرار دارد:

  • $$N_y= 500$$ اندازه جامعه مقصد.
  • $$n_y=40$$‌ اندازه نمونه جامعه مقصد.
  • $$N_x=200$$ اندازه جامعه مبدا.
  • $$n_x=20$$ اندازه نمونه مبدا.
  • $$x=2$$ تعداد بیماران در جامعه مبدا.

نکته: توجه داشته باشید که در اینجا مقدار $$q_{0.95}$$ برابر با 1٫65 است. برای آنکه نحوه پیدا کردن این عدد را بهتر درک کنید به نوشتار دیگری از مجله فرادرس به نام جدول توزیع نرمال استاندارد – به زبان ساده مراجعه کنید.

با توجه به مقادیر ذکر شده و رابطه ۴ گفته شده، مقدار فاصله پیش‌بینی با روش والد برای برآورد همه گیری بیماری با توزیع فوق هندسی به صورت زیر در خواهد آمد.

$$ \large Rـx = \dfrac{N_x-n_x}{N_x-1}= \dfrac{200-20}{200-1}= 0.905$$

$$ \large Rـy = \dfrac{N_y-n_y}{N_y-1}= \dfrac{500-40}{500-1}= 0.922$$

$$ \large \widehat{p}_x = X/n_x = 2 / 20 = 0.1 $$

$$ \large \widehat{Y}_x  =n_y\widehat{p}_x = 40 \times 0.1 = 4$$

در نتیجه خواهیم داشت:

$$ \large [L_w , U_w] = \widehat{Y}_{2} \pm \dfrac{1.65}{\sqrt{20}}\sqrt{40\times 0.1(1-0.1)(40 \times 0.905 + 20 \times 0.922)} $$

$$ \large [L_w , U_w] = [0.341,9.17] $$

که با گرد کردن آن‌ها به نزدیک‌ترین عدد صحیح به مقادیر بازه $$[0,10]$$ خواهیم رسید.

خلاصه و جمع‌بندی

در این نوشتار به شیوه والد برای پارامتر توزیع فوق هندسی یا مقدار متغیر تصادفی یک بازه پیش‌بینی ایجاد کردیم. از آنجایی که توزیع فوق هندسی در بررسی‌های غربالگری و تعیین بیماران در یک ناحیه با اندازه جامعه متناهی بسیار کاربرد دارد، این روش را برآورد همه گیری بیماری با توزیع فوق هندسی مورد استفاده قرار دادیم.

البته در این بین از یک مثال فرضی برای بررسی شیوع یا همه گیری بیماری کووید ۱۹ نیز کمک گرفتیم و فرمول‌های معرفی شده را برای یک روستای فرضی براساس اطلاعاتی که از روستای دیگر داشتیم، محاسبه کرده، در قالب یک بازه پیش‌بینی معرفی کردیم.

اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالبی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 3 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *