توزیع مقادیر حدی تعمیم یافته – به زبان ساده
در توزیعهای احتمالی و آمار، توزیع مقادیر حدی (Extreme Value Distribution) و توزیع مقادیر حدی تعمیم یافته (Generalized Extreme Value Distribution)، خانوادهای از توزیعهای پیوسته محسوب میشوند که با نظریه مقادیر حدی (Extreme Value Theory) مرتبط هستند. در این نوشتار به معرفی توزیع مقادیر حدی و تعمیم آن میپردازیم و خصوصیاتش را مورد بررسی قرار میدهیم.
برای آشنایی بیشتر با مفاهیم مربوط به توزیعهای آماری بهتر است مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال را مطالعه کنید. همچنین خواندن نوشتارهای متغیر تصادفی و توزیع گامبل — به زبان ساده و متغیر تصادفی و توزیع وایبل (Weibull Distribution) — به زبان ساده نیز خالی از لطف نیست.
توزیع مقادیر حدی تعمیم یافته
در نظریه آمار و احتمال، توزیع «مقادیر حدی تعمیم یافته» (Generalize Extreme Value) که به طور خلاصه با GEV نشان داده میشود، خانوادهای از توزیعهایی است که مرتبط با نظریه مقدارهای حدی است. در این خانواده از توزیعها سعی شده است که برای توزیعهای گامبل (Gumbel)، فِرِشه (Frechet) و وایبل (Weibull) به عنوان توزیعهای مقادیر حدی، ساختار یکسانی ایجاد شود.
براساس نظریه مقادیر حدی، توزیعهای مقادیر حدی به عنوان توزیع حدی متغیر تصادفی است که برابر با حداکثر یک دنباله از متغیرهای تصادفی است. این قضیه شبیه قضیه حد مرکزی (CLT) است که برای میانگین متغیرهای همتوزیع و مستقل با واریانس متناهی به کار میرود و توزیع حدی میانگین نمونهای را نرمال فرض میکند. در این قضیه نشان داده میشود که توزیع حداکثر مقادیر متغیرهای تصادفی نیز دارای یک توزیع حدی است. یعنی با افزایش تعداد متغیرها تصادفی، حداکثر آنها دارای توزیعی از خانواده توزیعهای حدی مانند توزیع گامبل، فرچه یا وایبل است.
بهتر است ابتدا در مورد قضیه مقادیر حدی (کرانگین ) توضیحات بیشتری داده سپس در مورد توزیع این مقادیر صحبت کنیم.
نظریه مقادیر حدی (کرانگین)
توزیع مقادیر تصادفی که به ندرت رخ میدهند، موضوع مورد بحث در نظریه مقادیر حدی (EVT) یا Extreme Value Theory است. نظریه مقادیر حدی، شاخهای از آمار است که برای مدلبندی و شناخت پدیدههایی است که مرتبط با پیشامدهای نادر و غیرطبیعی بوده و سعی دارد برای آنها یک مدل احتمالی ارائه دهد.
قضیه مقادیر حدی اولین بار توسط دانشمند بزرگ آمار رنالد فیشر (Ronald Fisher) و «لئونارد تیپت» (Leonard Tippett) در اوایل قرن بیستم مورد بررسی قرار گرفت. تیپت به عنوان مسئول کنترل کیفیت یک کارخانه نخ ریسی مشغول بررسی میزان مقاومت نخها بود.
تحقیقاتی که تیپت روی مقاومت پارچههای پنبهای انجام داد، نشان داد که میزان مقاومت نخهای پنبهای وابسته به ضعیفترین تارهای آنها است. بعدها به کمک نظریه پردازیهای فیشر، او توانست با کمک روشهای آماری، توزیع مقادیر حدی را پایهریزی کند. در ادامه کارهای او، گامبل، توزیع گامبل را با نام خودش تعمیم داد.
به صورت رسمی این قضیه به صورت زیر در حالت تک متغیره بیان میشود.
فرض کنید دنبالهای متناهی از متغیرهای تصادفی مستقل و هم توزیع باشند که همگی دارای تابع توزیع تجمعی هستند. در این صورت اگر باشد، آنگاه
اگر تابع نشانگر به صورت در نظر گرفته شود، میتوان مقادیر آن را یک فرآیند یا آزمایش برنولی (Bernoulli Process) با احتمال موفقیت در نظر گرفت. واضح است که این احتمال فقط به بستگی داشته که بیانگر مقدار حدی است. توزیع از خانواده توزیعهای مقادیر حدی است.
از طرفی تعداد پیشامدهای نادر در بین آزمایش تصادفی نیز از توزیع دو جملهای (Binomial Distribution) پیروی کرده و تعداد آزمایشهای لازم برای رسیدن به اولین موفقیت (مشاهده مقدار کرانگین) هم توزیع هندسی (Geometric Distribution) با امید ریاضی یا انحراف استاندارد از مرتبه است. به این معنی که با بزرگ شدن مقدار ، مخرج کسر یعنی احتمال کاهش یافته و در نتیجه امید ریاضی یا واریانس بزرگ میشوند.
اگر از توزیع اطلاع نداشته باشیم، طبقه قضیه «فیشر-تیپت-گندنکو» (Fisher–Tippett–Gnedenko theorem) میتوان یک توزیع مجانبی یا حدی برای پیدا کرد.
توزیع مقادیر حدی، قضیه فیشر-تیپت-گندنکو
اگر دنبالهای از مقادیر و وجود داشته باشد که رابطه زیر برقرار باشد:
آنگاه میتوان نشان داد که تابع به شکل زیر نوشته خواهد شد.
به این شکل، توزیعهای وایبل، گامبل و فرچه را میتوان به صورت زیر بازنویسی کرد.
توزیع وایبل:
$$\large {\displaystyle G(z)={\begin{cases}\exp \left\{-\left(-\left({\frac {z-b}{a}}\right)\right)^{\alpha }\right\}&z<b\\1&z\geq b\end{cases}}}$$
در این توزیع، دمهای توزیع نازک بوده و دارای کران بالا است. معمولا به این توزیع، توزیع مقدار حدی نوع سه (Type III) گفته میشود.
توزیع گامبل:
دمهای توزیع در این حالت به صورت نمایی تغییر میکنند. توزیع گامبل را گاهی توزیع مقادیر حدی از نوع یک (Type I) نیز مینامند.
توزیع فِرِشه (وایبل معکوس - Inverse Weibull):
دمهای توزیع سنگین بوده و آن را به توزیع از نوع دو (Type II) میشناسند.
نکته: در همه رابطهها، مقدار مثبت است.
فرم کلی توزیع مقادیر حدی تعمیم یافته
بر اساس توضیحات بالا و به کمک متغیر استاندارد شده میتوان توزیع احتمال تجمعی (CDF) مقادیر حدی تعمیم یافته را با پارامترهای مرکزی و مقیاس به صورت زیر نمایش داد.
در این حالت را پارامتر شکل (Shape Parameter) مینامند. به این صورت مینویسیم است و میخوانیم متغیر تصادفی دارای توزیع مقادیر حدی تعمیم یافته با پارامترهای مرکزی صفر، مقیاس ۱ و شکل است.
تابع چگالی احتمال نیز برای متغیر تصادفی استاندارد به صورت زیر در خواهد آمد.
نمودار این تابع به اجزای مقادیر مختلف در تصویر زیر دیده میشود. مقدار پارامتر مکان در تصویر زیر برابر با صفر و پارامتر مقیاس نیز ۱ است. چنین متغیر تصادفی را متغیر تصادفی مقادیر حدی تعمیم یافته استاندارد (Generalize Extreme Value Standard Random Variable) مینامند.
علامتهای ستاره در انتهای خطوط تابع چگالی، نشان دهنده حدود مقادیر توزیع بوده و تکیهگاه را مشخص میکنند.
اگر پارامترهای مرکزی و مقیاس صفر نباشند آنگاه توزیع متغیر تصادفی را به صورت نشان میدهند.
از طرفی اگر آنگاه خواهد بود.
همچنین اگر متغیر تصادفی دارای توزیع گامبل باشد آنگاه رابطه زیر نیز برقرار است.
از طرفی متغیر تصادفی با توزیع وایبل نیز میتوان رابطه زیر را نوشت:
خصوصیات توزیع مقادیر حدی تعمیم یافته
اگر متغیر تصادفی دارای توزیع حدی تعمیم یافته باشد، امید ریاضی و واریانس آن به صورت زیر محاسبه خواهند شد.
که در آن و است. منظور از نیز تابع گاما (Gamma Function) است.
اگر آنگاه .
همچنین اگر متغیر تصادفی دارای توزیع نمایی با پارامتر ۱ باشد آنگاه میتوان رابطه زیر را نوشت:
اگر به فراگیری مباحث مشابه مطلب بالا علاقهمند هستید، آموزشهایی که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای مدل سازی، برازش و تخمین
- نامساوی چبیشف – کاربرد در توزیعهای غیرنرمال
- احتمال پسین (Posterior Probability) و احتمال پیشین (Prior Probability) — به زبان ساده
- تابع درستنمایی (Likelihood Function) و کاربردهای آن — به زبان ساده
^^