توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها
در نظریه آمار و احتمال، توزیع نرمال (Normal Distribution) یکی از مهمترین توزیعهای آماری است. البته به این توزیع گاهی «توزیع گاوسی» (Gaussian Distribution) یا توزیع «گاوس-لاپلاس» (Laplace-Gauss) گفته میشود. از آنجایی که این توزیع دارای منحنی به شکل زنگ است، گاهی به آن «منحنی زنگی شکل» (Bell Curve) نیز گفته میشود.
قواعد حاکم بر بیشتر پدیدههای تصادفی در زندگی از توزیع نرمال پیروی میکنند و از طرف دیگر طبق قضیه «قضیه حد مرکزی» (Central Limit Theorem) میتوان توزیع تقریبی پدیدههای دیگر را نیز نرمال تصور کرد. به همین علت کاربرد این توزیع در همه زمینهها از جامعه شناسی تا پزشکی و مهندسی گسترده است.
در این مطلب به بررسی متغیر تصادفی یک و چند متغیره با توزیع نرمال میپردازیم و همچنین در مورد قضیه حد مرکزی نیز بحث خواهیم کرد. برای درک بهتر این نوشتار، بهتر است که ابتدا مطلب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال و توزیع نرمال و توزیع نرمال استاندارد — به زبان ساده را که در این لینک در دسترس است مطالعه کنید.
توزیع نرمال و متغیر تصادفی نرمال
اهمیت و کاربرد توزیع نرمال به علت «قضیه حد مرکزی» (Central Limit Theorem) است. این قضیه بیان میدارد که برای متغیرهای تصادفی که دارای واریانس متناهی هستند، میانگینهای نمونههای تصادفی متغیرهای تصادفی همتوزیع و مستقل (iid) به توزیع نرمال میل خواهند کرد. به همین علت است که توزیع بیشتر کمیتهای فیزیکی که به صورت جمع چندین فرآیند مستقل بدست میآیند، (مثلا خطای اندازهگیری) نرمال فرض میشود.
به همین ترتیب بسیاری از روشهای دیگر مانند برازش پارامترها به کمک کمترین مربعات زمانی به کار میروند که توزیع دادهها نرمال باشد. این دلایل، اهمیت توزیع نرمال را در تحلیل دادهها مشخص میکند.
در سال 1809، «کارل گووس» (Carl Gauss)، فیزیکدان، ریاضیدان و دانشمند آلمانی، به بررسی پدیدههایی پرداخت که تابع احتمال آنها به صورت زنگی شکل بود. او در دستنوشتهاش با عنوان «نظریه حرکت اجرام آسمانی در بخشهای مخروطی خورشید» (Theoria motus corporum coelestium in sectionibus conicis solem ambientium) به بررسی میزان خطا، «روش کمترین مربعات» (Least Square method)، «بیشینه درستنمایی» (Maximum Likelihood) و «توزیع نرمال» (Normal Distribution) پرداخت.
از طرف دیگر لاپلاس (Marquis de Laplace) ریاضیدان، دانشمند آمار و فیزیکدان شهیر فرانسوی در قرن ۱۸ توانست نشان دهد که و به این ترتیب توزیع جمع چند متغیر تصادفی را مشخص کرد. او به این ترتیب توانست قضیه حد مرکزی را اثبات کند که در آمار بسیار با اهمیت است.
تابع چگالی احتمال توزیع نرمال
پارامترهای چگالی احتمال برای توزیع نرمال «میانگین» () و «انحراف استاندارد» () است و فرم چگالی به صورت زیر نوشته میشود.
برای چنین متغیر تصادفی مینویسیم و میخوانیم X دارای توزیع نرمال با پارامترهای و است.
گاهی به میانگین، پارامتر مرکزی و به انحراف استاندارد، پارامتر مقیاس گفته میشود زیرا اولی مرکز توزیع و دومی میزان پراکندگی را نشان میدهد.
نکته: در این توزیع، میانگین، میانه و نما با یکدیگر برابرند.
در تصویر بالا، منحنی چگالی احتمال متغیر تصادفی با توزیع نرمال با پارامترهای مختلف ترسیم شده است. همانطور که مشخص است پارامتر میانگین، مرکز ثقل منحنی و واریانس کشیدگی افقی منحنی را تعیین میکند. همانطور که مشخص است، تکیهگاه برای این متغیر تصادفی، اعداد حقیقی است.
مقدار چگالی احتمال برای این متغیر تصادفی را گاهی به صورت نشان میدهند. شکل توزیع تجمعی احتمال برای این متغیر تصادفی نیز در شکل زیر ترسیم شده است.
توزیع نرمال استاندارد
شاید سادهترین حالت برای تعیین پارامترهای توزیع نرمال، انتخاب صفر برای میانگین و ۱ برای واریانس باشد. به چنین توزیعی «نرمال استاندارد» (Standard Normal Distribution) گفته میشود.
به این ترتیب میتوان تابع احتمال را برای چنین متغیر تصادفی به صورت زیر نوشت:
در این حالت مینویسیم و میخوانیم، Z دارای توزیع نرمال استاندارد است.
نکته: عبارت تضمین میکند که سطح زیر منحنی برای این توزیع برابر با ۱ خواهد بود. عبارت در نمای عبارت نیز تضمین میکند که واریانس برابر با ۱ است. همچنین با توجه به عبارت در چگالی احتمال، مشخص میشود که این توزیع متقارن حول صفر است.
با توجه به نمودارهای قبلی و همچنین شکل تابع چگالی احتمال، مشخص است که حداکثر مقدار برای این توزیع در نقطه ۰ بدست میآید و مشخص است که مقدار تابع چگالی در این نقطه برابر با است. همچنین نقاط عطف برای این تابع در x=1 و x=-1 حاصل میشود.
به این ترتیب میتوان هر توزیع نرمال را براساس توزیع نرمال استاندارد بازنویسی کرد. همچنین محاسبه احتمال برای یک توزیع نرمال، براساس تابع توزیع تجمعی نرمال استاندارد قابل صورت میپذیرد. شکل این رابطه در زیر قابل مشاهده است:
مشخص است که رابطه بین متغیر تصادفی X و Z در این حالت به صورت یا نوشته میشود.
تابع توزیع تجمعی (Cumulative Distribution Function)
اگر Z دارای توزیع نرمال استاندارد باشد، تابع توزیع تجمعی آن را براساس انتگرال زیر میتوان محاسبه کرد.
$$\large {\displaystyle F_Z(z)=P(Z<z)=\Phi (z)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{z}e^{-t^{2}/2}\,dt}$$
همانطور که دیده میشود، تابع توزیع تجمعی برای متغیر تصادفی نرمال استاندارد به شکل معرفی شده است.
اگر برای متغیر تصادفی X با توزیع نرمال با میانگین و واریانس بخواهیم تابع توزیع تجمعی را محاسبه کنیم، بهتر است به کمک رابطه زیر مقدار احتمال را بدست آوریم.
به همین منظور فقط برای توزیع نرمال استاندارد جدولهایی احتمال محاسبه شده و در دسترس است. در زیر یک نمونه از این جدولها قابل مشاهده است.
به کمک این جدول میتوان مقدار احتمال تجمعی را برای هر نقطه، محاسبه کرد. برای مثال اگر به احتیاج دارید کافی است از ستون اول (که با علامت Z مشخص شده) مقدار 1.5 و از سطر اول جدول نیز مقدار 0.05 را انتخاب کنید. خانهای از جدول که محل برخورد سطر و ستون حاصل از جستجوی شماست، مقدار احتمال تا نقطه 1.55 را نشان میدهد. این مقدار در جدول 0.9394 است.
با توجه به تقارن توزیع نرمال استاندارد اگر بخواهیم احتمال را پیدا کنیم (که در جدول دیده نمیشود) کافی است به صورت زیر عمل کنیم.
دلیل انجام این کار در تصویرهای زیر به خوبی دیده میشود. در ابتدا به دلیل تقارن مشخص است که مقدار با مقدار احتمال برای مقادیر بزرگتر از a برابر است.
در نتیجه برای محاسبه این احتمال از روی جدول توزیع احتمال تجمعی باید طبق شکل زیر از احتمال متمم پیشامد مورد نظر استفاده کرد.
ترکیب متغیرهای تصادفی نرمال
فرض کنید که و دارای توزیع نرمال با میانگین صفر و واریانس ۱ باشند. آنگاه میتوان گفت:
- مجموع دارای توزیع نرمال با میانگین صفر و واریانس ۲ است. حتی میتوان نوشت:
- حاصلضرب این دو متغیر تصادفی (بدون در نظر گرفتن استقلال) دارای توزیع «حاصلضرب نرمال» (Product-Normal) است که چگالی آن به صورت است که در آن تابع تغییر یافته بسل از نوع دوم (Modified Bessel Function of the Second Kind) است. این توزیع حول صفر متقارن و در z=0 نامتناهی میشود. همچنین تابع مشخصه این توزیع به صورت نوشته میشود.
- نسبت دو متغیر تصادفی و دارای توزیع کوشی است و به این ترتیب میتوان نوشت .
توزیع نرمال چند متغیره و متغیر تصادفی آن
فرض کنید متغیر تصادفی دارای k بعد باشد. اگر تابع چگالی احتمال آن را بتوان به شکل زیر نوشت، میگوییم دارای توزیع چند متغیره نرمال با پارامترهای و است و مینویسیم:
باید توجه داشت که در اینجا همه متغیرها و پارامترها k بعدی هستند. مشخص است که در اینجا برای پارامتر میانگین () خواهیم داشت:
همچنین برای ماتریس واریانس-کوواریانس که یک ماتریس بعدی است، میتوان نوشت:
در اینجا منظور از E همان امید ریاضی متغیر تصادفی X و COV نیز کوواریانس را نشان میدهد. شکل نمایش تابع چگالی برای چنین متغیر تصادفی به صورت زیر است.
باید توجه داشت که در این رابطه منظور از همان دترمینان ماتریس و علامت T نیز نشاندهنده ترانهاده بردار است. بنابراین بردار دارای توزیع نرمال چند متغیره است اگر یکی از شرایط زیر را داشته باشد:
- هر ترکیب خطی از اجزای آن (برای مثال ) دارای توزیع نرمال باشد. به بیان دیگر متغیر تصادفی دارای توزیع نرمال یک متغیره باشد.
- برای بردار Z با مولفههایی که دارای توزیع نرمال یک متغیره استاندارد مستقل از یکدیگر هستند داشته باشیم: بطوری که ماتریس کوواریانس برای X و نیز بردار میانگین مولفههای X باشد.
- اگر برای بردار kبعدی و ماتریس نیمه معین مثبت تابع مشخصه X به صورت زیر باشد:
توزیع نرمال دو متغیره
در حالتی که متغیر تصادفی X دو بعدی باشد، بردار میانگین و ماتریس واریانس و کوواریانس به صورت زیر نوشته میشوند.
البته برای نمایش تابع چگالی متغیر تصادفی نرمال دو بعدی، میتوان فرمی خارج از شکل ماتریسی به صورت زیر نیز در نظر گرفت.
در اینجا مشخص است که مقدار نشاندهنده مقدار ضریب همبستگی پیرسون بین دو متغیر X , Y است.
در تصویر زیر رویه مربوط به چگالی نرمال دو متغیره ترسیم شده است. تقارن و نقطه میانگین که در نقطه (5۰و5۰) قرار دارد در این شکل دیده میشود.
قضیه حد مرکزی (Central Limit Theorem)
قضیه حد مرکزی تحت شرایط معمول، بیان میدارد که جمع چندین متغیر تصادفی، دارای توزیع نرمال است. به صورت خاص در مورد این قضیه میتوان گفت که اگر متغیرهای تصادفی هم توزیع و مستقل (iid) با میانگین صفر و واریانس باشند، آنگاه با افزایش n، توزیع Z که به صورت زیر تعریف میشود، نرمال با میانگین صفر و واریانس خواهد بود.
در بسیاری از آمارههای آزمون، برآوردگرها و ... از این خاصیت استفاده کرده و برای مجموع یا میانگین متغیرهای تصادفی مستقل و هم توزیع، چگالی احتمال را نرمال در نظر میگیرند.
این قضیه حتی برای توزیعهای گسسته نیز صادق است. میتوانید به کمک تصویری که در زیر نمایش داده شده این واقعیت را به خوبی ببینید.
به عنوان کاربردهایی از این قضیه میتوان به گزارههای زیر اشاره کرد:
- به عنوان یک تقریب برای احتمال در توزیع دو جملهای با پارامترهای میتوان از توزیع نرمال با میانگین np و واریانس استفاده کرد در صورتی که n بزرگ باشد ولی p به صفر یا ۱ خیلی نزدیک نباشد.
- برای توزیع پواسن با پارامتر ، میتوان از توزیع نرمال با میانگین و واریانس استفاده کرد، به شرطی که مقدار بزرگ باشد.
- تقریب محاسبه تابع توزیع احتمال برای توزیع کای ۲، توسط توزیع نرمال با میانگین و واریانس انجام میشود، به شرطی که بزرگ باشد.
- توزیع t برای مقدارهای بزرگ به توزیع نرمال با میانگین صفر و واریانس ۱ میل میکند.
در تصویر زیر تمایل مقدار احتمال برای مجموع اعداد مشاهده شده از پرتاب یک تاس با توجه به تعداد پرتابها مشخص شده است. برای یکبار پرتاب تاس، مشخص است که احتمال مشاهده هر یک از اعداد برابر با 1/6 است. ولی با افزایش تعداد پرتابها احتمال مشاهده برای مجموع ارقام متفاوت است. برای مثال اگر تاس را سه بار پرتاب کنیم، حداقل مقدار برابر با ۳ و حداکثر مقدار ۱۸ خواهد بود. در هر بار پرتاب تاس، متغیر تصادفی X که مشاهده شماره تاس است دارای توزیع یکنواخت گسسته است. ولی همانطور که میبینید مجموع این متغیرهای تصادفی با افزایش تعداد پرتابها به سمت نرمال میل خواهد کرد.
اگر به فراگیری مباحث مشابه مطلب بالا علاقهمند هستید، آموزشهایی که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آزمایش تصادفی، پیشامد و تابع احتمال
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای SPSS
- مجموعه آموزشهای نرمافزارهای آماری
- آموزش آزمون های فرض مربوط به میانگین جامعه نرمال در SPSS
- آموزش آزمون آماری و پی مقدار (p-value)
- جامعه آماری — انواع داده و مقیاسهای آنها
- تحلیلها و آزمونهای آماری — مفاهیم و اصطلاحات
- آزمون فرض میانگین جامعه در آمار — به زبان ساده
- فاصله اطمینان (Confidence Interval) — به زبان ساده
^^
با سلام اگر n برابر 30 باشد از z یا t استفاده میکنیم
سلام وقت بخیر
اگر به ما یه محدوده ای واسه x داده باشند چجوری باید از روی جدول توزیع نرمال به دست بیاریم این محدوده رو؟؟
مثلا x های بین ۷۵ تا ۹۰ رو چجوری از روی جدول توزیع نرمال این بازه رو به دست بیاریم؟
درود بر استاد گرامی
ممنون از پاسختون
و همچنین از مطالب مفید و ارزشمندی که ارایه میکنید
6.9 به نظر شما کدام یک از این نمودارها بیشتر شبیه توزیع نرمال است؟ استدلال خود را بیان کنید. الف. یک تاس شش وجهی یک میلیارد بار پرتاب می شود و از این یک میلیارد عدد حاصل برای ساخت نمودار استفاده می شود. ب. پنج تاس شش وجهی پرتاب می شود و میانگین عدد محاسبه می شود. این آزمایش یک میلیون بار تکرار می شود و از این یک میلیون میانگین بدست آمده برای ساخت نمودار استفاده می شود.
سلام دوست عزیز،
این موضوع به قضیه حد مرکزی مربوط است. طبق این قضیه میانگین متغیرهای تصادفی به توزیع نرمال میل میکنند. بنابراین زمانی که پنج تاس را پرتاب کرده و میانگین می گیریم، مقادیر تصادفی تولید میشوند که هر یک از آنها میتوانند بک نمونه از توزیع نرمال باشند. بنابراین رسم نمودار مربوطه بهتر توزیع نرمال را نشان میدهد. به نظر من قسمت ب صحیح است. ولی در مورد قسمت الف، این یک توزیع چند جملهای است که به توزیع نرمال میل میکند ولی به علت گسسته بودن، تمایل نمودار آن به توزیع نرمال کمتر است.
پیشنهاد می کنم که متن قضیه حد مرکزی و تعمیم آن — به زبان ساده را مطالعه کنید.
پیروز و موفق باشید.