توزیع لجستیک و متغیر تصادفی آن — به زبان ساده
در نظریه آمار و احتمال، توزیع لجستیک (Logistic Distribution) و متغیر تصادفی آن (Logistic Distribution Random Variable) از اهمیت زیادی برخوردار هستند. بخصوص در مبحث مربوط به رگرسیون لجستیک، از این توزیع و متغیر تصادفی آن بسیار استفاده میشود. متغیر تصادفی لجستیک، دارای یک توزیع پیوسته بوده و تابع توزیع احتمال تجمعی (Cumulative Distribution Function) آن یک تابع لجستیک (Logistic Function) است. جالب است که بدانید رگرسیون لجستیک در شبکه عصبی و دستهبندی (Classification) نیز به کار گرفته میشود.
از آنجایی که در این نوشتار از متغیر تصادفی و تابع احتمال صحبت به میان خواهد آمد، بهتر است ابتدا مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال را مطالعه کرده باشید. همچنین اگر به رگرسیون لجستیک و خصوصیات آن علاقهمند باشید، میتوانید مطلب رگرسیون لجستیک (Logistic Regression) — مفاهیم، کاربردها و محاسبات در SPSS را بخوانید.
توزیع لجستیک و متغیر تصادفی آن
توزیع متغیر تصادفی لجستیک، شبیه توزیع نرمال است ولی در دمها، میزان احتمال بیشتر از توزیع نرمال است. بنابراین میتوان توزیع لجستیک را در گروه توزیعهای دم-سنگین در نظر گرفت. توزیع لجستیک نوع خاصی از «توزیع لاندا توکی» (Tukey Lambda Distribution) است.
به عنوان یک تعریف رسمی میتوان گفت که متغیر تصادفی دارای توزیع لجستیک است اگر تابع چگالی احتمال (Probability Density Function) آن به صورت زیر نوشته شود.
پارامترهای این توزیع یا پارامتر مکان (Location) و نیز پارامتر مقیاس (Scale) بوده و تابع چگالی حول میانگین متقارن است. در نتیجه میتوان گفت که میانگین (Mean)، میانه (Median) و نما (Mode) برای این متغیر تصادفی همگی با برابر خواهد بود. تکیهگاه متغیر تصادفی لجستیک، مجموعه اعداد حقیقی است. بنابراین اگر متغیر تصادفی دارای توزیع لجستیک باشد، مینویسیم،
و میخوانیم دارای توزیع لجستیک با پارامترهای مکان و مقیاس است.
از آنجایی که این تابع چگالی برحسب تابع «سکانت هایپربولیک» (Sech) است، گاهی به آن توزیع سکانت هایپربولیک (Hyperbolic Secant Distribution) نیز میگویند.
نکته: زمانی که میانگین توزیع صفر بوده () و پارامتر مقیاس نیز برابر با ۱ باشد ()، آنگاه توزیع لجستیک را استاندارد مینامیم و مینویسیم.
در تصویر ۱ نمودارهای چگالی احتمال متغیر تصادفی لجستیک با پارامترهای مختلف مرکزی و مقیاس نمایش داده شده است.
تابع توزیع تجمعی احتمال متغیر تصادفی لجستیک
توزیع لجستیک نام خود را از توزیع تجمعی (انباشته) گرفته است، که نمونهای از خانواده توابع لجستیک است. به این ترتیب تابع توزیع تجمعی متغیر تصادفی به صورت زیر نوشته خواهد شد.
در تصویر ۲ نیز نمودار تابع توزیع تجمعی احتمال برای متغیر تصادفی لجستیک با پارامترهای مختلف ترسیم شده است. همانطور که انتظار داریم، شکل این منحنیها به صورت بوده و کمترین مقدار برابر با صفر و بیشترین مقدار این تابع برابر با ۱ است. شیب این تغییرات وابسته با پارامتر مقیاس است به طوری که برای مقدار ، شیب تغییرات کم بوده و به ازاء شیب تغییرات، بیشتر است.
ارتباط با توزیعهای دیگر
توزیع متغیر تصادفی لجستیک با دیگر توزیعهای آماری در ارتباط است. در ادامه به بعضی از این توزیعها اشاره خواهیم کرد.
- اگر آنگاه
- اگر آنگاه .
- اگر و آنگاه .
- برای دو متغیر ، داریم به این معنی که مجموعه دو توزیع گامبل، دارای توزیع لجستیک نیست هر چند که تفاضل آنها دارای توزیع لجستیک است.
- امید ریاضی در توزیع لجستیک خاصیت جمعی ندارد به این معنی که
- اگر آنگاه تابع نمایی از دارای توزیع لگلجستیک خواهد بود.
- اگر (توزیع نمایی) باشد، آنگاه
- همچنین اگر و دارای توزیع نمایی با پارامتر ۱ باشند، آنگاه
کاربرد توزیع لجستیک
از نکات مهم و کاربردی برای توزیع و متغیر تصادفی لجستیک میتوان به ارتباط آن با تابع لجستیک (Logistic Function) اشاره کرد. تابع شکل به فرم زیر را تابع لجستیک یا منحنی سیگموئید (Sigmoid Curve) مینامیم.
که در آن نقطه مرکزی نمودار سیگموئید و نیز حداکثر این تابع را مشخص میکند. پارامتر نیز نرخ تغییرات در بین حداکثر و حداقل این تابع را تعیین میکند.
همچنین در بحث یادگیری عمیق (Deep Learning) تابع لوجیت (Logit Function) نیز که به مانند تابع لجستیک حالت شکل دارد، به کار گرفته میشود. اگر نشان دهنده تابع احتمال باشد، آنگاه رابطه زیر را تابع لوجیت مینامند.
رگرسیون لجستیک (Logistic Regression)
یکی از رایج ترین کاربردهای توزیع لجستیک و متغیر تصادفی آن، رگرسیون لجستیک است که برای مدلسازی متغیرهای وابسته از نوع طبقهای (مثلاً گزینههای بله-خیر ) مورد استفاده قرار میگیرد. این امر درست به مانند حالتی است که از رگرسیون خطی ساده برای مدلسازی متغیرهای وابسته از نوع پیوسته کمک گرفته میشود.
به طور خاص، رگرسیون لجستیک میتواند به عنوان مدلهایی براساس «متغیر پنهان» (Latent Variable) و «متغیرهای خطا» (Error Variables) با توزیع لجستیک، بیان شود. به این ترتیب توزیع لجستیک همان نقشی را در رگرسیون لجستیک خواهد داشت که در رگرسیون باینری (Probit Regression)، توزیع نرمال (Normal Distribution) ایفا میکند.
از آنجایی که توزیع لجستیک دارای دمهای سنگینتری نسبت به توزیع نرمال است، اغلب، تحلیلها و برآوردهای استوارتری (Robust) نسبت به تحلیلهای با توزیع نرمال ایجاد میکند.
کاربرد در فیزیک
تابع چگالی احتمال متغیر تصادفی لجستیک (PDF) دارای فرم عملکردی مشابه با مشتق تابع فِرمی (Fermi Function) است. مشتق این تابع در نظریه خواص الکترون در نیمه هادیها و فلزات، وزنهای متفاوتی را برای انرژی الکترونهای مختلف محاسبه میکند. توجه داشته باشید که توزیع احتمال مربوط به این پدیده شبیه توزیع لجستیک است.
توزیع لجستیک را میتوان به عنوان توزیع حدی سرعت نهایی حرکت تصادفی میرای یک ذره در فرآیند برنولی در نظر گرفت که در آن تغییرات سرعت در زمانهای تصادفی رخ داده و دارای توزیع نمایی با پارامترهای صعودی خطی است.
کاربرد در علوم آب
در هیدرولوژی و علوم آب، توزیع تخلیه رودخانه و بارندگی در طولانی مدت (به عنوان مثال، در مقاطع ماهانه و سالانه) غالباً طبق قضیه حد مرکزی (Central Limit Theorem) به طور مجانبی دارای توزیع نرمال است.
از آنجای که توزیع لجستیک، مشابه توزیع نرمال، دارای روشهای تحلیلی است، در بسیاری از موارد میتواند جایگزین توزیع نرمال شود. در تصویر ۴، از توزیع لجستیک برای برآورد کردن میزان بارندگی در ماه اکتبر، استفاده شده و نمونه تصادفی جمعآوری شده به خوبی با توزیع لجستیک با یک فاصله اطمینان ۹۰ درصدی، همخوانی دارد.
خلاصه و جمعبندی
در این نوشتار با تابع توزیع لجستیک و متغیر تصادفی آن آشنا شدیم و خصوصیات آن را مورد بررسی قرار دادیم. از طرفی ارتباط این متغیر تصادفی را با توزیعهای دیگر مشخص کردیم. همچنین کاربردهای مختلف این توزیع را در علوم دیگر متذکر شدیم. از آنجایی که این توزیع نسبت به توزیع نرمال دارای دمهای سنگینتری در چگالی احتمال است، در مواردی که با دادهها دم-سنگین (Heavy Tail Data) مواجه هستیم، استفاده از این توزیع و مدلسازی برمبنای آن باعث افزایش دقت در برآوردها خواهد شد.
اگر این مطلب برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای SPSS
- آموزش یادگیری عمیق (Deep learning)
- مجموعه آموزشهای آمار و احتمال
- مهمترین الگوریتمهای یادگیری ماشین (به همراه کدهای پایتون و R) — بخش دوم: رگرسیون خطی
- توزیع های آماری — مجموعه مقالات جامع وبلاگ فرادرس
- توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها
^^