آمار , داده کاوی 713 بازدید

در نوشته‌های دیگر فرادرس به این مطلب اشاره کردیم که توصیف پدیده‌های تصادفی به کمک توزیع‌های آماری میسر است. در ضمن با اشاره به مثال‌هایی از این نوع پدیده‌ها، به ارتباطشان با توزیع‌های آماری مثل توزیع پواسن پرداختیم. متاسفانه در بیشتر موارد توجه دانشجویان به قضیه‌ها آماری و چگونگی اثبات فرمول‌ها جلب می‌شود و هدف اصلی و علت پیدایش این فرمول‌ها دور می‌شوند. باید یاددآوری کرد که این فرمو‌ل‌ها برای نمایش رفتار پدیده‌های واقعی هستند که به صورت تصادفی رخ می‌دهند. در این نوشتار به فرآیند پواسن و توزیع پواسن به عنوان دو موضوع مهم در احتمالات خواهیم پرداخت و برای روشن‌تر شدن موضوع از مثال‌هایی که براساس دنیای واقعی ساخته شده‌اند، بهره می‌گیریم.

برای آشنایی بیشتر با توزیع پواسن مطلب متغیر تصادفی و توزیع پواسون — به زبان ساده و برای مرور مثال‌هایی دیگر از این توزیع و شیوه محاسبات مربوطه نوشتار توزیع پواسون و حل مسائل مرتبط با کدهای R — از صفر تا صد  را مطالعه فرمایید. البته خواندن متغیر تصادفی و توزیع نمایی — به زبان ساده نیز خالی از لطف نیست.

فرآیند پواسن (Poisson Process)

«فرآیند پواسن» (Poisson Process) یک مدل برای نمایش دنباله‌ای از پیشامدهایی با مقادیر گسسته است. ویژگی اصلی فرآیند پواسن، آن است که از زمان دقیق رخداد پیشامد اطلاع نداشته ولی متوسط زمان برای رخداد پیشامد را می‌دانیم.

همچنین خاصیت جالب دیگر برای فرآیند پواسن، بی‌حافظگی (Memory-less) است. خاصیت بی‌حافظگی یا بدون حافظه بودن فرایند پواسن به این موضوع اشاره دارد که رخداد یک پیشامد به پیشامدهای قبلی مرتبط نبوده و نسبت به آن‌ها مستقل است.

برای مثال فرض کنید صاحب یک سایت اینترنتی هستید. شرکت شبکه ارسال محتوا (Content Delivery Network یا CDN) این سایت ادعا می‌کند که در ۶۰ روز به طور متوسط یک قطعی خواهد داشت. از طرفی احتمال قطع شدن در هر مقطع زمانی مستقل از قطع‌های قبلی است. چیزی که ما از آن اطلاع داریم، فقط متوسط زمانی بین دو قطع است.

poisson process

نکته مهم در این مسئله آگاهی از میانگین زمان بین دو رخداد قطعی است. متاسفانه قطعی‌ها به صورت تصادفی رخ می‌دهند، به این معنی که ممکن است دو قطعی درست پشت‌ سر هم اتفاق بیافتند یا حتی فاصله بین دو قطعی، بیش از یکسال باشد.

هر فرآیند پواسن باید در شرایط زیر صدق کند:

  1. اگر $$X$$ تعداد دفعاتی باشد که یک پیشامد در یک بازه یا فاصله زمانی یا مکانی رخ می‌دهد، مشخص است که مقادیر $$X$$ زیر مجموعه اعداد طبیعی است.
  2. رخداد یک پیشامد، روی احتمال رخداد پیشامدهای دیگر تاثیر گذار نیست. این به آن مفهوم است که پیشامدها از یکدیگر مستقل هستند.
  3. متوسط تعداد رخدادهای پیشامدها ثابت است. به بیان دیگر در هر بازه یا فاصله زمانی یا مکانی یکسان، متوسط تعداد پیشامدها، کاهش یا افزایش نمی‌یابد.
  4. دو پیشامد در یک زمان رخ نمی‌دهند. یک پیشامد دارای دو وضعیت رخداد (1) و عدم رخداد (۰) است که در هر زیرفاصله کوچک فقط یکی از آن‌ها رخ خواهد داد.

نکته آخر نشان می‌دهد که در فرایند پواسن، رخداد یک پیشامد در هر زیر فاصله کوچک از زمان یا مکان به صورت یک متغیر برنولی مشخص می‌شود. به این ترتیب در مثال مربوط به وب سایت، در هر روز (بازه زمانی کوتاه نسبت به یک سال) یا سایت فعال (X=1) یا غیرفعال (X=0) است.

بیشتر فرآیندهای پواسنی وابسته به زمان هستند یا در طول زمان رخ می‌دهند. به عنوان مثال، تعداد تماس‌های مشتریان در طول یک ساعت، تعداد بازدید کنندگان وب سایت در هر روز، میزان رادیواکتیو مواد هسته‌ای در سال و تغییرات در بازار سهام در هر هفته، از جمله فرآیندهای پواسن محسوب می‌شوند.  البته گاهی نیز فرایند پواسن را برای فواصل مکانی در نظر می‌گیرند. از این گونه فرآیندها می‌توان تعداد زدگی پارچه در هر متر مربع، تعداد غلط‌های املایی در هر صفحه خبر را ذکر کرد.

توزیع پواسن (Poisson Distribution)

همانطور که دیدید، فرایند پواسن یک مدل برای توصیف پدیده‌هایی است که به ندرت پیش می‌آیند. ولی برای شناخت بیشتر این مدل باید قادر باشیم مقدار احتمالات را برای چنین پدیده‌های محاسبه کنیم. بدست آوردن چنین احتمالاتی، ما را به توزیع پواسن می‌رساند. تابع توزیع احتمال برای متغیر تصادفی پواسن با توجه به تعداد متوسط رخداد پیشامد در طول زمان یا مکان به صورت زیر نشان داده می‌شود.

$$\large P(X=x)=e^{-\lambda}\dfrac{\lambda ^x}{x!}$$

در اینجا پارامتر $$\lambda$$ نشان‌دهنده نرخ رخداد پیشامد در واحد زمان یا مکان است. به این معنی که این پارامتر را می‌توان متوسط تعداد رخداد پیشامد در یک فاصله با بازه زمانی یا حتی مکانی در نظر گرفت. برای مثال ممکن است $$\lambda$$ متوسط تعداد تماس‌های تلفنی در هر ساعت (فاصله زمانی) یا متوسط تعداد غلط‌های املایی در هر صفحه از روزنامه (فاصله مکانی) در نظر گرفته شود.

نکته: همانطور که در تعریف پارامتر $$\lambda$$ دیدید، مقدار آن هم به تعداد پیشامدها و طول یا فاصله زمانی یا مکانی بستگی دارد.

با تغییر میزان نرخ توزیع پواسن یا $$\lambda$$ احتمال مشاهده پیشامدها تغییر می‌کند. در نمودار زیر تابع احتمال توزیع پواسن با مقدارهای مختلف $$\lambda$$ ترسیم شده است.

poisson distribution and lambda parameter

همانطور که دیده می‌شود،‌ با افزایش مقدار پارامتر توزیع پواسن، مقدار احتمال در نقطه قله منحنی احتمال کاهش می‌یابد. اگر مقدار پارامتر توزیع پواسن به صورت عدد صحیح باشد می‌توان آن را به عنوان متوسط تعداد رخد‌ادها در نظر گرفت. در نمودار مشخص است که در این حالت، مقدار پارامتر همان نقطه‌ای را نشان می‌دهد که بیشترین میزان احتمال را برای توزیع دارد. از طرفی این پارامتر را به عنوان میانگین تعداد رخدادها نیز محسوب کردیم. به این ترتیب مشخص است که نما و میانگین توزیع پواسن هر دو برابر با $$\lambda$$ هستند.

اگر مقدار این پارامتر، عدد صحیح نباشد، این پارامتر را می‌توان مقداری در نظر گرفت که بیشترین مقدار احتمال را دارد. از آنجایی که تکیه‌گاه متغیر تصادفی پواسن، اعداد صحیح است، در این حالت نما برابر با جزء صحیح پارامتر در نظر گرفته می‌شود. به این ترتیب میانگین و واریانس توزیع که برابر با $$\lambda$$ هستند نیازی نیست حتما مقدار صحیحی باشند.

مثال

تعداد شهاب‌سنگ‌های دیده شده در آسمان شب را می‌توان با یک توزیع پواسن مدل‌سازی کرد. زیرا این پدیده تصادفی دارای خصوصیات مربوط به توزیع پواسن هستند. در ادامه به مطابقت شرط‌های توزیع پواسن و تعداد شهاب‌سنگ‌های قابل مشاهده می‌پردازیم.

  1. اگر $$X$$ تعداد دفعاتی باشد که شهاب‌سنگ در یک بازه مشخص زمانی دیده می‌شود،‌ تکیه‌گاه این متغیر تصادفی اعداد طبیعی است.
  2. تعداد شهاب‌سنگ‌های دیده شده در هر فاصله زمانی مستقل از فاصله بعدی است.
  3. متوسط تعداد شهاب‌سنگ قابل مشاهده در بازه‌های زمانی ثابت فرض می‌شود. این نرخ، مقداری تقریبا برابر با ۵ شهاب‌سنگ در ساعت است.
  4. احتمال مشاهده همزمان دو شهاب‌سنگ بسیار کم است و از رخداد همزمان این پیشامدها می‌توان چشم‌پوشی کرد.

با توجه به توضیحات داده شده مشخص است که پارامتر برای توزیع پواسن در این مثال برابر با ۵ است. زیرا به طور متوسط تعداد شهاب‌سنگ‌های دیده شده در واحد زمان (۱ ساعت) مقدار ۵ است.

به این ترتیب می‌توانیم مقدار احتمال $$X=\lambda$$ که بیانگر مشاهده ۵ شهاب‌سنگ در ساعت است را محاسبه کنیم.

$$\large P(X=5)=e{-\lambda}\dfrac{\lambda ^x}{x!}=e^{-5}\dfrac{5 ^5}{5!}=0.1755$$

می‌دانیم که $$X=5$$ بیانگر قله منحنی تابع توزیع پواسن است. ارتفاع این قله برابر با 0.1755 بوده و مطابق نمودار قبلی می‌توان مقدار این احتمال را به صورت تقریبی نیز مشخص کرد.

به منظور مشاهده بهتر این توزیع، جداگانه توزیع احتمالی برای مشاهده شهاب سنگ‌ها را در نمودار زیر ترسیم کرده‌ایم. کاملا واضح است که براین اساس احتمال مشاهده ۵ شهاب‌سنگ در ساعت از بقیه مقدارها بیشتر است.

poisson distribution for meteors in an hour

براساس تابع احتمالی که برای توزیع پواسن مشاهده کردید، می‌توانید مقدار احتمال برای مشاهده ۳ شهاب‌سنگ یا بیشتر از سه شهاب سنگ را هم محاسبه کنید که به ترتیب برابر با 14٪ و 73٪ هستند. همچنین می‌توانید احتمال مشاهده بیش از ۵ شهاب سنگ را مطابق رابطه زیر بدست آورید.

$$\large P(X>5)=1-P(X\leq 5)=1-0.1755=0.8245$$

همانطور که می‌بینید این احتمال تقریبا برابر با ۸۳٪ است که مقدار احتمال بزرگی است. این نشان می‌دهد که در طول یکساعت به طور قطع به یقین بیش از ۵ شهاب‌سنگ مشاهده خواهید کرد.

برای نمایش این حالات و احتمالات مربوطه از یک نمودار بافت‌نگار فراوانی یا هیستوگرام کمک گرفته‌ایم. فرض کنید که ۱۰ هزار بار و هر بار یکساعت به تماشای آسمان شب پرداخته‌اید. فراوانی تعداد شهاب‌سنگ‌ها مشاهده شده در هر ساعت مطابق تصویر زیر خواهد بود.

histogram of meteors

این نمودار کاملا بیانگر یک وضعیت احتمالی برای رخدادهای تصادفی است. دقیقا مشخص است که در بیشتر مواقع بین ۴ تا ۵ شهاب‌سنگ در هر ساعت مشاهده شده است.

نرخ متوسط یا پارامتر توزیع پواسن

پارامتر $$\lambda$$ یا نرخ متوسط رخداد پیشامدها در توزیع پواسن، مشخصه اصلی و تنها پارامتر این توزیع است. می‌توان این پارامتر را به صورت کسر زیر در نظر گرفت.

$$ \dfrac{Number\; of\; events}{time\;interval}\times interval\; length$$

مشخص است که صورت کسر تعداد رخدادها و مخرج نیز زمان را تعیین می‌کند. در نتیجه حاصل این کسر بیانگر متوسط تعداد رخدادها در واحد زمان است. جمله دوم در حاصلضرب نیز طول زمانی است که برای محاسبه احتمال رخدادها در نظر گرفته‌اید. برای مثال اگر بخواهیم در مسئله شهاب‌سنگ‌ها، متوسط مشاهدات شهاب‌سنگ در هر ربع ساعت را بدست آوریم، کافی است که مقدار $$5$$ را در $$\tfrac{1}{4}$$ ضرب کنیم. به این ترتیب متوسط تعداد رخدادها در هر ربع ساعت محاسبه می‌شود. بنابراین در این چنین حالتی، پارامتر توزیع پواسن برابر با 1.25 است. یعنی در یک ربع ساعت به طور متوسط 1.25 شهاب‌سنگ قابل مشاهده است.

مشخص است که با کاهش یا افزایش صورت و مخرج کسر و همچنین جمله دوم در حاصلضرب می‌توان این نرخ را تغییر داد. در نمودار زیر، با توجه به تغییر نرخ و ثابت نگه داشتن طول یا بازه زمانی، میزان احتمال را ترسیم کرده‌ایم. همانطور که دیده می‌شود با افزایش میزان نرخ، احتمال مشاهده  تعداد $$\lambda$$ شهاب‌سنگ‌ در هر ساعت کاهش می‌یابد. برای مثال زمانی که متوسط تعداد شهاب‌سنگ‌ها (پارامتر توزیع پواسن) مقدار ۲ در نظر گرفته شده باشد، احتمال این که ۲ شهاب‌سنگ در ساعت دیده شود، برابر با 0.27 است.

Poisson and changing parameters
برای مشاهده تصویر در ابعاد اصلی روی این لینک کلیک کنید.

با توجه به همین نمودار مشخص است که اگر بطور متوسط در هر ساعت ۱۲ شهاب‌سنگ‌ قابل مشاهده باشد، احتمال اینکه همین تعداد شهاب‌سنگ را در هر ساعت ببینید، حدود 0.11 درصد است که تقریبا این احتمال، نصف احتمال برای زمانی است که پارامتر توزیع برابر با ۲ باشد.

تا به حال در محاسبه پارامتر توزیع پواسن، جمله سمت راست مربوط به محاسبه پارامتر برابر ۱ در نظر گرفته شده بود. به این معنی که نسبت تعداد رخداد پیشامدها نسبت به یک زمان واحد ملاک محاسبه پارامتر بود. حال مقدار صورت و مخرج کسر را ثابت نگه داشته و طول یا بازه زمانی که در جمله دوم قرار دارد، را تغییر می‌دهیم. به این ترتیب به نظر می‌رسد، در طول بازه‌های متفاوت زمانی، به آسمان نگاه کرده‌ایم و احتمال آنکه در آن بازه تعداد $$\lambda$$ شهاب‌سنگ را در آسمان ببینم، محاسبه کرده‌ایم. نتیجه این محاسبات در نموداری که در زیر دیده می‌شود، ظاهر شده است.

Poisson and changing parameters length interval
برای مشاهده تصویر در ابعاد اصلی روی لینک زیر کلیک کنید.

باز هم مشخص است که درست به مانند حالت قبل، با افزایش طول یا بازه زمانی تعداد شهاب‌سنگ‌های قابل مشاهده بیشتر شده ولی احتمال مشاهده آن کاهش می‌یابد.

زمان انتظار (Waiting Time)

یکی از نکاتی که در فرآیند پواسن جالب به نظر می‌رسد، زمان انتظار تا رسیدن به اولین پیشامد است. براساس مثال قبل در نظر بگیرید که در شبی در حیاط منزل منتظر دیدن شک شهاب‌سنگ هستید. از آنجایی که در هر دقیقه تعداد $$\dfrac{5}{60}=0.08333$$ شهاب‌سنگ قابل مشاهده است، چقدر باید منتظر باشیم تا اولین شهاب‌سنگ را ببینیم. توجه داشته باشید زمان ورود به حیاط برای مشاهده شهاب‌سنگ‌ها تصادفی است و هیچ اطلاعی از زمانی مشاهده شهاب‌سنگ قبل از ورود ما به حیاط وجود ندارد.

به نظر می‌رسد که زمان انتظار برای مشاهده اولین شهاب‌سنگ به صورت نمایی منفی تغییر کند. شیوه محاسبه برای چنین متغیر تصادفی (زمان انتظار برای مشاهده اولین موفقیت) مطابق رابطه زیر است.

$$\large \operatorname{P}(T>t)=e^{-\lambda\times t}$$

بر این اساس برای مشاهده اولین موفقیت احتیاج به حداقل t واحد زمانی است. در مثال شهاب‌سنگ‌ها احتمال آنکه اولین موفقیت بیش از ۶ دقیقه طول بکشد مطابق الگوی بالا، به صورت زیر قابل محاسبه است.

$$\large \operatorname{P}(T>t)=e^{-0.08333\times 6}= 0.6065$$

نکته: توجه داشته باشید که در اینجا واحد اندازه‌گیری زمان برای همه متغیرها باید یکسان باشد به همین علت پارامتر $$\lambda$$ را برحسب دقیقه محاسبه کرده و به کار برده‌ایم زیرا زمان انتظار را برحسب دقیقه در نظر گرفته‌ایم.

از  آنجایی که متغیر تصادفی پواسن، دارای خاصیت عدم حافظه است، فاصله زمانی بین هر دو پیشامد در میزان احتمال در فاصله‌های زمانی دیگر تغییری ایجاد نخواهد کرد. تابع مربوط به احتمال $$P(T>t)$$ به ازای مقدارهای مختلف t در نمودار بعدی قابل مشاهده است. همانطور که می‌بینید این نمودار به صورت نمایی نزولی پیدا می‌کند.

exponent time waiting in Poisson process

در نمودار دیده می‌شود که با احتمال ۱۰۰٪ باید بیش از ۰ واحد زمانی منتظر باشیم. این احتمال برای زمان انتظار بیش از ۸۰ واحد زمانی، به حدود ۰٪ کاهش پیدا می‌کند. مشخص است که با توجه به این احتمال مطمئن هستیم که قبل از ۸۰ واحد زمانی (مثلا دقیقه) حتما یک موفقیت، مشاهده شده است. به بیان دیگر هرچه شروع زمان انتظار دیرتر آغاز شود، احتمال مشاهده اولین موفقیت کاهش می‌یابد. به همین ترتیب می‌توانیم شیوه محاسبه احتمال اینکه زمان انتظار کمتر از مقدار $$t$$ باشد را به صورت زیر بدست آوریم.

$$\large \operatorname{P}(T\leq t)=1-e^{-\lambda \times t}$$

به کمک رابطه بالا می‌توان مشخص کرد، احتمال آن که برای مشاهده اولین شهاب‌سنگ کمتر از ۶ دقیقه انتظار لازم داشته باشیم چقدر است! به نظر می‌رسد که این احتمال خیلی هم کم نیست و تقریبا حدود ۴۰٪ مواقع با زمان انتظار ۶ دقیقه‌ای، یک شهاب‌سنگ خواهیم دید.

$$\large \operatorname{P}(T\leq 6)=1-e^{-0.08333 \times 6}=0.3935 $$

با توجه به دیگر نوشتارهای فرادرس به نظر می‌رسد که توزیع متغیر تصادفی $$T$$ در این حالت، توزیع نمایی خواهد بود.

اگر هر ساعت، ۵ شهاب‌سنگ (یا در هر ۱۲ دقیقه یک شهاب‌سنگ) قابل مشاهده باشد، می‌توانیم زمان‌های محتمل برای مشاهده اولین شهاب‌سنگ را مانند تصویر زیر مدل‌سازی کنیم. این نمودار توسط شبیه‌سازی ۱ ساعت از مشاهدات مربوط به بارش شهابی ایجاد شده است. فرض کنید که یک ساعت در انتظار دیدن شهاب‌سنگ‌ها ایستاده‌اید. زمان مورد انتظار برای مشاهده شهاب‌سنگ ها در این نمودار دیده می‌شود.

meteors over one hour

در این نمودار به خوبی دیده می‌شود که بطور متوسط ۵ شهاب‌سنگ‌ در یک ساعت قابل مشاهده است (تعداد ستاره‌های نمودار برابر با ۵ است) و از طرفی زمان تقریبی مشاهده هر کدام از این شهاب‌سنگ‌ها نیز مشخص شده است.

ارتباط توزیع پواسن با توزیع دوجمله‌ای

همانطور که در دیگر مطالب وبلاگ فرادرس خوانده‌اید، توزیع دوجمله‌ای (Binomial Distribution) براساس تعداد موفقیت‌ها در $$N$$ تکرار آزمایش برنولی معرفی می‌شود. بر این اساس می‌توان توزیع پواسن را مرتبط با توزیع دوجمله‌ای در نظر گرفت. زمانی که $$N\rightarrow\infty$$ یعنی تعداد آزمایشات برنولی بسیار زیاد بوده ولی مقدار $$Np$$ یا امید ریاضی (متوسط تعداد موفقیت‌ها) ثابت باقی بماند یا به بیان دیگر اگر در تکرار آزمایش برنولی تعداد آزمایش‌ها، زیاد و احتمال موفقیت، کوچک باشد، بطوری که حاصلضرب آن‌ها $$N\times p$$ عدد معقولی بدست آید، می‌توان از توزیع پواسن با پارامتر $$N\times p$$ برای تقریب توزیع دوجمله‌ای استفاده کرد.

معمولا در این حالت باید $$N>20$$ و $$Np<10$$ باشد. بنابراین در یک آزمایش ۱۰۰ بار پرتاب سکه سالم، باید مدل مناسب را دو جمله‌ای در نظر گرفت، زیرا $$100\times 0.5=50 \nleq 10$$ است ولی مدل مناسب برای برای تعداد تماس‌ها در ۱۲۰ دقیقه در یک مرکز تلفنی که در هر ۳۰ دقیقه بطور متوسط یک تماس دارند، توزیع پواسن خواهد بود. زیرا احتمال موفقیت در هر واحد زمانی (۳۰ دقیقه) برابر با $$P(X=1)=\frac{1}{30}$$ و تعداد آزمایشات نیز $$N=\frac{120}{30}=4$$ است. در نتیجه $$Np=120 \times \frac{1}{30}=4$$، پس مدل پواسن قابل استفاده است.

نتیجه‌گیری

همانطور که گفته شد، توزیع پواسن، برای محاسبه احتمال پیشامدهای فرآیندهای پواسن به کار می‌رود. از عناصر اصلی در شناسایی و محاسبه احتمال فرآیندهای پواسن، نرخ رخداد پیشامدها است که البته در هر بازه ثابت در نظر گرفته شده است.

مقدار نرخ رخداد پیشامدها، همان امید ریاضی یا مقدار متوسط تعداد رخدادها در یک فاصله است. همانطور که دیدید، بیشتر پیشامدهایی که مربوط به پدیده‌های نادر هستند (مشاهده شهاب‌سنگ‌ها) می‌توانند با توزیع پواسن مدل‌بندی شوند. جالب است که متوسط تعداد رخدادها همان واریانس تعداد رخدادها را نیز نشان می‌دهد. پس امید ریاضی و واریانس توزیع پواسن یکسان بوده و با مقدار $$\lambda$$ برابر هستند.

همچنین براساس توزیع نمایی، می‌توان زمان انتظار برای مشاهده اولین پیشامد فرایند پواسن را مدل‌سازی کرد.

نکته: در متغیرها و توزیع‌های تصادفی گسسته، فقط توزیع و متغیر تصادفی پواسن و در بین متغیرها و توزیع‌های تصادفی پیوسته، فقط توزیع نمایی دارای خاصیت عدم حافظه هستند.

اگر مطلب بالا برایتان مفید بوده است، آموزش‌هایی که در ادامه به آن‌ها اشاره شده نیز به شما پیشنهاد می‌شوند:

^^

به عنوان حامی، استارتاپ، محصول و خدمات خود را در انتهای مطالب مرتبط مجله فرادرس معرفی کنید.

telegram
twitter

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *