توزیع مقادیر حدی تعمیم یافته — به زبان ساده

۷۵۱ بازدید

آخرین به‌روزرسانی: ۱۰ خرداد ۱۴۰۲

زمان مطالعه: ۵ دقیقه

توزیع مقادیر حدی تعمیم یافته — به زبان ساده

در توزیع‌های احتمالی و آمار، توزیع‌ مقادیر حدی (Extreme Value Distribution) و توزیع‌ مقادیر حدی تعمیم یافته (Generalized Extreme Value Distribution)، خانواده‌ای از توزیع‌های پیوسته محسوب می‌شوند که با نظریه مقادیر حدی (Extreme Value Theory) مرتبط هستند. در این نوشتار به معرفی توزیع مقادیر حدی و تعمیم آن می‌پردازیم و خصوصیاتش را مورد بررسی قرار می‌دهیم.

فهرست مطالب این نوشته

توزیع مقادیر حدی تعمیم یافته

برای آشنایی بیشتر با مفاهیم مربوط به توزیع‌های آماری بهتر است مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال را مطالعه کنید. همچنین خواندن نوشتارهای متغیر تصادفی و توزیع گامبل — به زبان ساده و متغیر تصادفی و توزیع وایبل (Weibull Distribution) — به زبان ساده نیز خالی از لطف نیست.

توزیع مقادیر حدی تعمیم یافته

در نظریه آمار و احتمال، توزیع «مقادیر حدی تعمیم یافته» (Generalize Extreme Value) که به طور خلاصه با GEV نشان داده می‌شود، خانواده‌ای از توزیع‌هایی است که مرتبط با نظریه مقدارهای حدی است. در این خانواده از توزیع‌ها سعی شده است که برای توزیع‌های گامبل (Gumbel)، فِرِشه (Frechet) و وایبل (Weibull) به عنوان توزیع‌های مقادیر حدی، ساختار یکسانی ایجاد شود.

فیلم آموزش آمار ریاضی ۱ – مرور و حل تست کنکور ارشد در فرادرس

کلیک کنید

براساس نظریه مقادیر حدی، توزیع‌های مقادیر حدی به عنوان توزیع حدی متغیر تصادفی است که برابر با حداکثر یک دنباله از متغیرهای تصادفی است. این قضیه شبیه قضیه حد مرکزی (CLT) است که برای میانگین متغیرهای هم‌توزیع‌ و مستقل با واریانس متناهی به کار می‌رود و توزیع حدی میانگین نمونه‌ای را نرمال فرض می‌کند. در این قضیه نشان داده می‌شود که توزیع حداکثر مقادیر متغیرهای تصادفی نیز دارای یک توزیع حدی است. یعنی با افزایش تعداد متغیرها تصادفی، حداکثر آن‌ها دارای توزیعی از خانواده توزیع‌های حدی مانند توزیع گامبل، فرچه یا وایبل است.

بهتر است ابتدا در مورد قضیه مقادیر حدی (کرانگین ) توضیحات بیشتری داده سپس در مورد توزیع این مقادیر صحبت کنیم.

نظریه مقادیر حدی (کرانگین)

توزیع مقادیر تصادفی که به ندرت رخ می‌دهند، موضوع مورد بحث در نظریه مقادیر حدی (EVT) یا Extreme Value Theory است. نظریه مقادیر حدی، شاخه‌ای از آمار است که برای مدل‌بندی و شناخت پدیده‌هایی است که مرتبط با پیشامدهای نادر و غیرطبیعی بوده و سعی دارد برای آن‌ها یک مدل احتمالی ارائه دهد.

قضیه مقادیر حدی اولین بار توسط دانشمند بزرگ آمار رنالد فیشر (Ronald Fisher) و «لئونارد تیپت» (Leonard Tippett) در اوایل قرن بیستم مورد بررسی قرار گرفت. تیپت به عنوان مسئول کنترل کیفیت یک کارخانه نخ ریسی مشغول بررسی میزان مقاومت نخ‌ها بود.

L. H. C. Tippett

تحقیقاتی که تیپت روی مقاومت پارچه‌های پنبه‌ای انجام داد، نشان داد که میزان مقاومت نخ‌های پنبه‌ای وابسته به ضعیف‌ترین تارهای آن‌ها است. بعدها به کمک نظریه پردازی‌های فیشر، او توانست با کمک روش‌های آماری، توزیع مقادیر حدی را پایه‌ریزی کند. در ادامه کارهای او، گامبل، توزیع گامبل را با نام خودش تعمیم داد.

به صورت رسمی این قضیه به صورت زیر در حالت تک متغیره بیان می‌شود.

فرض کنید $$X_{1},\dots ,X_{n}$$ دنباله‌ای متناهی از متغیرهای تصادفی مستقل و هم توزیع باشند که همگی دارای تابع توزیع تجمعی $$F$$‌ هستند. در این صورت اگر $$M_n=\max(X_1,\cdots,X_n)$$ باشد، آنگاه

$$\large \Pr(M_{n}\leq z)=\Pr(X_{1}\leq z,\dots ,X_{n}\leq z)=\\ \large \Pr(X_{1}\leq z)\cdots \Pr(X_{n}\leq z)=(F(z))^{n}$$

اگر تابع نشانگر به صورت $$I(M_{n}>z)$$ در نظر گرفته شود، می‌توان مقادیر آن را یک فرآیند یا آزمایش برنولی (Bernoulli Process) با احتمال موفقیت $${\displaystyle p(z)=1-(F(z))^{n}}$$ در نظر گرفت. واضح است که این احتمال فقط به $$z$$‌ بستگی داشته که بیانگر مقدار حدی است. توزیع $$F$$ از خانواده توزیع‌های مقادیر حدی است.

از طرفی تعداد پیشامدهای نادر در بین $$n$$ آزمایش تصادفی نیز از توزیع دو جمله‌ای (Binomial Distribution) پیروی کرده و تعداد آزمایش‌های لازم برای رسیدن به اولین موفقیت (مشاهده مقدار کرانگین) هم توزیع هندسی (Geometric Distribution) با امید ریاضی یا انحراف استاندارد از مرتبه $$O(\frac{1}{p(z)})$$ است. به این معنی که با بزرگ شدن مقدار $$z$$، مخرج کسر یعنی احتمال کاهش یافته و در نتیجه امید ریاضی یا واریانس بزرگ می‌شوند.

اگر از توزیع $$F$$‌ اطلاع نداشته باشیم، طبقه قضیه «فیشر-تیپت-گندنکو» (Fisher–Tippett–Gnedenko theorem) می‌توان یک توزیع مجانبی یا حدی برای $$F$$ پیدا کرد.

توزیع مقادیر حدی، قضیه فیشر-تیپت-گندنکو

اگر دنباله‌ای از مقادیر $$a_n>0$$ و $$b_n\in R$$ وجود داشته باشد که رابطه زیر برقرار باشد:

$$\large \lim_{n\rightarrow \infty}\Pr\{(M_{n}-b_{n})/a_{n}\leq z\}= G(z)$$

آنگاه می‌توان نشان داد که تابع $$G(z)$$ به شکل زیر نوشته خواهد شد.

$$\large G(z)\propto \exp \left[-(1+\zeta z)^{-1/\zeta }\right]$$

به این شکل، توزیع‌های وایبل، گامبل و فرچه را می‌توان به صورت زیر بازنویسی کرد.

توزیع وایبل:

$$\large {\displaystyle G(z)={\begin{cases}\exp \left\{-\left(-\left({\frac {z-b}{a}}\right)\right)^{\alpha }\right\}&z<b\\1&z\geq b\end{cases}}}$$

در این توزیع، دم‌های توزیع $$M_n$$ نازک بوده و دارای کران بالا است. معمولا به این توزیع، توزیع مقدار حدی نوع سه (Type III) گفته می‌شود.

توزیع گامبل:

$$\large {\displaystyle G(z)=\exp \left[-\exp \left(-\left({\frac {z-b}{a}}\right)\right)\right],\;\;{\text{ for }}z\in \mathbb {R}}$$

دم‌های توزیع $$M_n$$ در این حالت به صورت نمایی تغییر می‌کنند. توزیع گامبل را گاهی توزیع مقادیر حدی از نوع یک (Type I) نیز می‌نامند.

توزیع فِرِشه (وایبل معکوس - Inverse Weibull):

$$\large {\displaystyle G(z)={\begin{cases}0&z\leq b\\\exp \left\{-\left({\frac {z-b}{a}}\right)^{-\alpha }\right\}&z>b.\end{cases}}}$$

دم‌های توزیع $$M_n$$‌ سنگین بوده و آن را به توزیع از نوع دو (Type II) می‌شناسند.

نکته: در همه رابطه‌ها، مقدار $$a$$ مثبت است.

فرم کلی توزیع مقادیر حدی تعمیم یافته

بر اساس توضیحات بالا و به کمک متغیر استاندارد شده $${\displaystyle z=(x-\mu )/\sigma }$$ می‌توان توزیع احتمال تجمعی (CDF) مقادیر حدی تعمیم یافته را با پارامترهای مرکزی $$\mu$$ و مقیاس $$\sigma>0$$ به صورت زیر نمایش داد.

$$\large {\displaystyle F(z;\zeta )={\begin{cases}\exp(-(1+\zeta z)^{-1/\zeta })&\zeta \neq 0\\\exp(-\exp(-z))&\zeta =0\end{cases}}}$$

در این حالت $$\zeta$$ را پارامتر شکل (Shape Parameter) می‌نامند. به این صورت می‌نویسیم $$Z \sim GEV(0,1,\zeta)$$ است و می‌خوانیم متغیر تصادفی $$Z$$ دارای توزیع مقادیر حدی تعمیم یافته با پارامترهای مرکزی صفر، مقیاس ۱ و شکل $$\zeta$$ است.

فیلم آموزش مسائل تشریحی توزیع های گسسته و پیوسته در آمار و احتمال (رایگان) در فرادرس

کلیک کنید

تابع چگالی احتمال نیز برای متغیر تصادفی استاندارد $$Z$$ به صورت زیر در خواهد آمد.

$$\large {\displaystyle f(z;\zeta )={\begin{cases}(1+\zeta z )^{(-1/\zeta )-1}\exp(-(1+\zeta z)^{-1/\zeta })&\zeta \neq 0\\\exp(-z)\exp(-\exp(-z))&\zeta =0\end{cases}}}$$

نمودار این تابع به اجزای مقادیر مختلف $$\zeta$$ در تصویر زیر دیده می‌شود. مقدار پارامتر مکان در تصویر زیر برابر با صفر و پارامتر مقیاس نیز ۱ است. چنین متغیر تصادفی را متغیر تصادفی مقادیر حدی تعمیم یافته استاندارد (Generalize Extreme Value Standard Random Variable) می‌نامند.

علامت‌های ستاره در انتهای خطوط تابع چگالی، نشان دهنده حدود مقادیر توزیع بوده و تکیه‌گاه را مشخص می‌کنند.

اگر پارامترهای مرکزی و مقیاس صفر نباشند آنگاه توزیع متغیر تصادفی $$X$$ را به صورت $$X\sim GEV(\mu,\sigma,\zeta)$$ نشان می‌دهند.

از طرفی اگر $${\displaystyle X\sim {\textrm {GEV}}(\mu ,\sigma ,0)}$$ $آنگاه $${\displaystyle \sigma \exp(-{\tfrac {X-\mu }{\mu \sigma }})\sim {\textrm {Weibull}}(\sigma ,\mu )}$$ خواهد بود.$

همچنین اگر متغیر تصادفی $$X$$‌ دارای توزیع گامبل باشد آنگاه رابطه زیر نیز برقرار است.

$$ \large {\displaystyle X\sim {\textrm {Gumbel}}(\mu,\sigma )\rightarrow X\sim {\textrm {GEV}}(\mu,\sigma,0)}$$

از طرفی متغیر تصادفی $$X$$ با توزیع وایبل نیز می‌توان رابطه زیر را نوشت:

$$\large {\displaystyle X\sim {\textrm {Weibull}}(\sigma ,\mu )\rightarrow \mu \left(1-\sigma \mathrm {log} {\tfrac {X}{\sigma }}\right)\sim {\textrm {GEV}}(\mu ,\sigma,0)}$$

خصوصیات توزیع مقادیر حدی تعمیم یافته

اگر متغیر تصادفی $$X$$ دارای توزیع حدی تعمیم یافته باشد، امید ریاضی و واریانس آن به صورت زیر محاسبه خواهند شد.

$$\large {\displaystyle \operatorname {E} (X)=\mu +\left(g_{1}-1\right){\frac {\sigma }{\xi }},\;\;\text{for}\; \xi <1}\\ \large \operatorname {Var} (X)=\left(g_{2}-g_{1}^{2}\right){\frac {\sigma ^{2}}{\zeta ^{2}}}$$

که در آن $$g_1= \Gamma(1-\zeta)$$ و $$g_2=\Gamma(1-2\zeta)$$ است. منظور از $$\Gamma(.)$$ نیز تابع گاما (Gamma Function) است.

اگر $${\displaystyle X\sim {\textrm {GEV}}(\mu ,\,\sigma ,\,\zeta )}$$ آنگاه $${\displaystyle mX+b\sim {\textrm {GEV}}(m\mu +b,\,m\sigma ,\,\zeta )}$$.

همچنین اگر متغیر تصادفی $$X$$ دارای توزیع نمایی با پارامتر ۱ باشد آنگاه می‌توان رابطه زیر را نوشت:

$$\large {\displaystyle X\sim {\textrm {Exponential}}(1) \rightarrow\mu -\sigma \log {X}\sim {\textrm {GEV}}(\mu ,\sigma ,0)}$$

اگر به فراگیری مباحث مشابه مطلب بالا علاقه‌مند هستید، آموزش‌هایی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

بر اساس رای ۸ نفر

آیا این مطلب برای شما مفید بود؟

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

منابع:

وبلاگ فرادرس Wikipedia

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.