علم داده و تفسیر مقدار احتمال p–Value – به زبان ساده

۸۱۹۳

۱۴۰۳/۰۵/۲۷

۹ دقیقه

PDF

آموزش متنی جامع

بیان ساده برای مقدار احتمال (Probability Value) که گاهی به آن p-Value‌ نیز گفته می‌شود شاید کار سختی باشد. در این نوشتار سعی داریم که مفهوم و نحوه به کارگیری p-Value‌ را به زبان ساده و قابل درک برای کسانی که کاملا با آمار آشنایی ندارند، ارائه کنیم به همین علت نیز نام نوشتار را «علم داده و تفسیر مقدار احتمال p-Value --- به زبان ساده» انتخاب کرده‌ایم. این مفهوم اغلب در مباحث مربوط به آزمون فرض آماری مورد استفاده قرار می‌گیرد و ابزاری در اختیار ما قرار می‌دهد تا نسبت به رد یک فرضیه اقدام کنیم.

فهرست مطالب این نوشته

علم داده و تفسیر مقدار احتمال p-Value

واقعیت و مفهوم آن در زندگی روزمره

آزمون فرض آماری

توزیع نرمال به عنوان توزیع نمونه‌

استنباط بر مبنای آزمون فرض آماری

خلاصه و نتیجه‌گیری

به منظور آشنایی بیشتر با مفاهیم و اصطلاحات آزمون فرض آماری بهتر است مطلب تحلیل‌ها و آزمون‌های آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین برای آشنایی با شیوه محاسبه مقدار احتمال نیز خواندن نوشتار مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز خالی از لطف نیست.

علم داده و تفسیر مقدار احتمال p-Value

اغلب نرم‌افزارهای محاسبات آماری برای مشخص کردن نتیجه آزمون فرض آماری برای کاربران، مقداری به نام «مقدار احتمال» (p-Value) را محاسبه می‌کنند که براساس آن می‌توان با تعیین احتمال خطای نوع اول، نسبت به رد فرض صفر تصمیم گرفت.

فیلم آموزش آزمون‌ آماری و p-value در فرادرس

کلیک کنید

در حقیقت مقدار احتمال به تحلیل‌گران داده کمک می‌کند که بدون مراجعه به جداول توزیع‌های احتمالی مربوط به آماره آزمون، در مورد رد یا عدم رد فرض صفر تصمیم بگیرند. در مباحث آماری به p-Value گاهی «سطح با معنایی» (Significant Level) یا p-مقدار نیز می‌گویند. در نرم‌افزار R‌ مقدار احتمال با p-Value، در پایتون و توابع موجود در کتابخانه statmodel به صورت $P(>.)$ و در نرم‌افزار SPSS مقدار احتمال با Sig نشان داده می‌شود.

ابتدا به تعریفی که در ویکی‌پدیا برای مقدار احتمال ارائه شده است مراجعه می‌کنیم.

در آزمون فرضیه آماری، مقدار p یا مقدار احتمال برای یک مدل آماری، احتمال این است که وقتی فرضیه صفر صحیح است، آماره آزمون (مثلا میانگین اختلاف اختلاف بین دو گروه) یا با مقدار مشاهده حاصل از نمونه برابر بوده یا از آن بسیار دور باشد.

به نظر می‌رسد که این توصیف بسیار نامناسب است و حتی ممکن است خواننده را گمراه کند. ولی آنچه واقعا به آن در دنیای واقعی نیاز داریم، تعریفی است که قابل درک باشد.

واقعیت و مفهوم آن در زندگی روزمره

اغلب در زندگی روزمره در مورد دو گزاره منطقی دست به قضاوت می‌زنیم و یکی را در مقابل دیگر درست تشخیص می‌دهیم. گزاره‌هایی صحیح یا همیشه درست را گاهی درست‌نما یا تاتولوژی (Tautology) می‌نامند. برای مثال گزاره‌هایی مانند «زمین گرد است.» یا «زمین دور خورشید می‌گردد.» و همچنین «خورشید در شرق طلوع می‌کند.» همگی گزار‌های درست‌نما هستند.

در مقابل ممکن است به جای گزاره، از گزاره‌نما استفاده شود که درستی یا نادرستی آن به یک یا چند پارامتر بستگی دارد. ممکن است گزاره‌نما براساس مقادیر احتمالاتی صحیح یا غلط باشد. برای مثال عبارت‌های «ورزش باعث کاهش وزن می‌شود.» ممکن است همیشه صادق نباشد و مقدار احتمالی را برای صحت آن در نظر بگیریم. عبارت‌هایی نظیر «هشت ساعت خواب در شبانه روز در سلامت جسم و روح موثر است.» یا «داروی X در درمان بیماری سرطان تاثیرگذار است.» از این گونه گزاره‌نماها محسوب می‌شوند که درست یا غلط بودن آن صریح نبوده و درجاتی از درستی برای آن می‌توان در نظر گرفت که همان مفهوم احتمال را خواهد داشت.

تفاوت عبارت‌ یا گزاره‌های درست‌نما با گزاره‌نماهای احتمالاتی در این است که اولی همیشه درست بوده و نتیجه یا استنباط از آن، از فردی به فرد دیگر تفاوتی ندارد ولی گروه دوم که گزاره‌نماهای احتمالاتی نامیده می‌شوند، دارای درجه درستی متفاوتی هستند که از فردی به فرد دیگر می‌تواند متفاوت باشد.

برای مثال اگر گفته شود که «ورزش باعث کاهش وزن نمی‌شود.» کسی نمی‌تواند بگوید که این گزاره صحیح نیست. بلکه شاید همه واقعیت را بیان نکرده باشد. البته با این گفته ممکن است مورد شکایت از طرف باشگاه‌های ورزشی قرار گیریم.

درست برعکس اگر بگوییم که «ورزش باعث کاهش وزن می‌شود.» ممکن است عوامل دیگر در کاهش وزن را نادیده گرفته باشیم. سوال در اینجا این است که آیا روشی آماری و منطقی وجود دارد که این تناقض را حل کنیم.

در این میان، مفهوم آزمون آماری و فرضیاتی آماری پیش می‌آید.

آزمون فرض آماری

آزمون فرض آماری، به ما این اجازه را می‌دهد که به واسطه یک نمونه تصادفی در مورد یک گزاره یا واقعیت جامعه دست به قضاوت بزنیم. یک آزمون فرض آماری از دو فرضیه تشکیل شده است. فرض اولیه را به عنوان فرض صفر (Null Hypothesis) نام‌گذاری کرده‌اند. این فرض را با علامت $H_0$ ‌ نشان می‌دهند. ادعای اولیه ما که گزاره «ورزش باعث کاهش وزن نمی‌شود.» در این قسمت قرار می‌گیرد. از طرف دیگر ادعای افرادی که به باشگاه‌های ورزشی می‌روند و معتقدند که «ورزش باعث کاهش وزن می‌شود.» در گزاره یا فرض مقابل (Alternative Hypothesis) قرار می‌گیرد. فرض مقابل را با $H_A$ نمایش می‌دهند.

فیلم آموزش آمار ریاضی ۲ در فرادرس

کلیک کنید

آزمون فرض آماری، روشی است که براساس مشاهدات صورت گرفته از یک نمونه تصادفی نسبت به صحت هر یک از فرض‌های صفر یا مقابل دست به قضاوت می‌زند.

تحقیق ما نسبت به تاثیر ورزش در کاهش وزن به صورتی که در ادامه قابل مطالعه است، طرح‌ریزی شده است. کاهش وزن ۱۰ نفر از ورزشکاران باشگاه که در سه ماه گذشته به طور مرتب ورزش کرده‌اند را اندازه‌گیری کرده‌ایم. نتایج به صورت زیر است:

میانگین تغییرات وزن = ۲ کیلوگرم

انحراف استاندارد تغییرات وزن = ۱ کیلوگرم

آیا مشاهده و در نظر گرفتن این ارقام ما را قانع می‌کند که ورزش کردن باعث کاهش وزن می‌شود. واضح است که به طور متوسط این افراد، دارای کاهش وزنی برابر با ۲ کیلوگرم هستند. ولی این امر نشان می‌دهد که برای بعضی از آن‌ها، کاهش وزن بیشتر از ۲ و برای بعضی دیگر نیز کمتر از ۲ کیلوگرم بوده است.

از طرفی اگر میانگین تغییرات وزن برابر با ۰.۲ بود باز هم می‌توانستیم به تاثیر ورزش در کاهش وزن رای بدهیم یا تغییرات کوچک وزن ما را به سمتی هدایت می‌کرد که این تاثیر را نادیده بگیریم؟

اجازه دهید که گزاره‌های مورد نظر را در قالب یک آزمون فرض آماری بنویسیم:

$H_0:$ یا ورزش باعث کاهش وزن نمی‌شود $\mu=0$

$H_A:$ یا ورزش باعث کاهش وزن می‌شود $\mu >0$

براساس مشاهدات حاصل از نمونه ۱۰ تایی مشخص است که این متوسط یا میانگین اختلاف یا کاهش وزن برابر با ۲ کیلوگرم است. ولی آیا می‌توان این اختلاف را ناشی از تاثیر ورزش در کاهش وزن دانست یا این تفاوت یا کاهش در وزن ناشی از نمونه‌گیری بوده و فقط برای نمونه ما این اتفاق افتاده است؟

در این هنگام سوال مناسب می‌تواند این باشد: اگر فرض صفر درست باشد، احتمال مشاهده نمونه‌ای که میانگین تغییرات وزن در آن ۲ کیلوگرم یا بیشتر است، چقدر است؟

در صورتی که قادر به محاسبه این احتمال باشیم، می‌توانیم با مقایسه آن با آستانه‌ای که در نظر گرفته‌ایم نسبت به رد یا عدم رد فرض صفر اقدام کنیم. معمولا زمانی که فرض صفر رد نمی‌شود می‌گوییم نمونه گرفته شده، شواهدی بر رد فرض صفر نمی‌دهد. معمولا از گفتن اینکه «فرض مقابل را می‌پذیریم» می‌پرهیزیم. دلیل آن را در ادامه متوجه خواهیم شد.

مقدار احتمالی که توسط گزاره بالا بدست می‌آید، در حقیقت همان مقدار احتمال یا p-Value است که احتمال مشاهده مقادیر بزرگ را با فرض درست بودن $H_0$ نشان می‌دهد. اگر این احتمال از میزان خطایی که در نظر می‌گیریم بیشتر باشد، به نظر می‌رسد که نمونه تصادفی از فرض صفر پشتیبانی می‌کند در نتیجه دلیلی بر رد فرض صفر وجود ندارد. برعکس اگر مقدار احتمال از خطای مورد نظر کوچکتر باشد، فرض صفر توسط نمونه تصادفی پشتیبانی نمی‌شود در نتیجه به کمک این نمونه تصادفی، فرض صفر را رد می‌کنیم.

این کار به مانند آن است که به کمک یک مثال نقض بتوانیم یک گزاره یا قضیه را رد کنیم. قضیه در اینجا همان فرض صفر است که نمونه تصادفی توانست برعکس آن را نشان دهد در نتیجه قضیه یا حکم یا فرض صفر همیشه درست نیست.

برعکس اگر فرض صفر رد نشود، درست به مانند آن است که به وسیله یک مثال (یک نمونه تصادفی) تاییدی بر قضیه انجام داده‌ایم. از آنجایی که مثال آوردن دلیلی بر اثبات یک قضیه محسوب نمی‌شود، نمی‌توان گفت که فرض صفر صحیح است یا فرض مقابل رد می‌شود.

نکته: مقدار آستانه یا خطای نوع اول در آزمون فرض آماری را سطح آزمون می‌نامند و با $\alpha$ ‌ نشان می‌دهند. مقدار $\alpha$ ‌ در حوزه‌های صنعتی و آزمایشگاهی، $0.05$ ‌ و در علوم پزشکی و آزمایش‌های حساس $0.01$ در نظر گرفته می‌شود، زیرا رد کردن فرض صفر این اشکال را بوجود می‌آورد که نظریه‌ای که تا به حال درست عمل می‌کرده را به غلط رد کنیم بنابراین باید احتمال این خطا تا حد ممکن کوچک باشد.

به منظور محاسبه این احتمال باید از توزیع احتمالی اختلاف یا تغییرات وزن آگاه باشیم تا براساس الگوی احتمالی آن، محاسبات را انجام دهیم. اینجا است که پای توزیع نرمال به عنوان یک توزیع عمومی برای پدیده‌های تصادفی به میان می‌آید.

توزیع نرمال به عنوان توزیع نمونه‌

در این قسمت به بررسی توزیع میانگین اختلاف یا تغییر وزن تحت فرض صفر (با در نظر گرفتن درست بودن فرض صفر) می‌پردازیم. طبق قضیه حد مرکزی می‌دانیم که توزیع نمونه‌ای میانگین یک متغیر تصادفی از جامعه‌ای با پارامتر $\mu$ و انحراف استاندارد $\sigma$ به طور تقریبی و حدی با توزیع نرمال با میانگین $\mu$ و انحراف استاندارد $\dfrac{\sigma}{\sqrt{n}}$ برابر است. بنابراین اگر $x_1,x_2,\cdots,x_n$ یک نمونه تصادفی از چنین جامعه‌ای باشند آنگاه:

$\large \bar{X} \sim N(\mu,\frac{\sigma}{\sqrt{n}})$

با توجه به این موضوع توزیع میانگین نمونه‌ای در دسترس بوده و امکان محاسبه احتمال براساس مشاهدات حاصل از نمونه فراهم می‌شود. بنابراین براساس مثال مربوط به کاهش وزن، میانگین کاهش وزن تحت فرض صفر، دارای توزیعی به صورت زیر خواهد بود.

$\large \bar{X}\sim N(0,\frac{1}{10})$

برای محاسبه مقدار احتمال باید محاسبه $\large P_{H_0}(\bar{X}>2)$ را انجام دهیم.

تصویر زیر نشانگر مقدار احتمال روی توزیع نرمال براساس مقدار مشاهده شده آماره آزمون در نقطه $x$ است. هر چه این احتمال کوچکتر باشد، نمونه تصادفی در رد فرض صفر مصمم‌تر است. بنابراین اگر مقدار احتمال نزدیک صفر (یا کوچکتر از $0.05$ ) باشد، فرض صفر را رد می‌کنیم.

normal curve

برای انجام محاسبه احتمال مربوطه از زبان پایتون و کتابخانه scipy.stats‌ کمک می‌گیریم. کدهای زیر به این منظور تهیه شده‌اند.

نتیجه اجرای این دستورات مقدار احتمال یا همان p-Value‌ را نشان می‌دهد که برابر با $1.269814\times e^{-10}$ است که بسیار به صفر نزدیک است. بنابراین با توجه به کوچکتر بودن مقدار احتمال از احتمال خطای نوع اول یا همان آستانه خطا که معمولا برابر با $0.05$ در نظر گرفته شد، فرض صفر رد می‌شود. این امر نشان می‌دهد که ورزش بر کاهش وزن تاثیر گذار است و باعث کاهش بیش از ۲ کیلوگرم در سه ماه می‌شود.

نکته: مقدار پارامترهای توزیع نرمال برای میانگین نمونه تصادفی در این کد با متغیرهای $loc=0$ و $scale=1/np.sqrt(10)$ مشخص شده است که به ترتیب میانگین و انحراف استاندارد میانگین نمونه تصادفی یا همان $\bar{X}$ ‌ است. از آنجایی که به مقدار احتمال در سطح بالایی منحنی نرمال احتیاج هست، مقدار یک را از تابع توزیع تجمعی احتمال کم کرده‌ایم.

با توجه به تکنیک آماری به کار رفته، می‌توان نتیجه گرفت که اختلافی که در وزن افراد در اثر ورزش رخ داده، ناشی از تصادف یا فقط نمونه گرفته شده نبوده بلکه با فرض نرمال بودن توزیع تغییرات وزن، ورزش به عنوان یک عامل اثر گذار باعث این امر شده است.

استنباط بر مبنای آزمون فرض آماری

همانطور که در مثال مورد نظر ذکر شد، فرض صفر براساس اصول آماری و توسط آزمون فرض، رد شد. به این ترتیب نمونه تصادفی گواهی به رد فرض صفر داد. ولی اگر مقدار احتمال بزرگتر از $0.05$ بدست می‌آمد، چه نتیجه‌ای می‌گرفتیم. آیا می‌توان گفت که فرض صفر پذیرفته می‌شود؟

فیلم آموزش پردازش سیگنال‌ واقعی در MATLAB در فرادرس

کلیک کنید

اغلب در چنین مواردی گفته می‌شود که دلیل بر رد فرض صفر توسط نمونه تصادفی وجود ندارد. دلیل این امر را به وسیله یک مثال از دادگاه و نحوه قضاوت در آن بازگو می‌کنیم. در محاکمه‌ها و دادگاه‌ها، فرض بر بی‌گناهی فرد گذاشته می‌شود و دادستان سعی در ارائه مدارکی دارد که مضنون را مجرم نشان دهد. اگر گواهی و عدله به شکلی باشند که قاضی را در گناهکار بودن فرد مضنون قانع کند، فرض بی‌گناهی او نقض شده و مجرم شناخته می‌شود. این درست به مانند روشی است که فرض صفر در یک آزمون آماری رد می‌شود.

در مقابل اگر عدله دادستان، کافی نبوده و قاضی رای به گناه‌کاری او ندهد، او را از هر خطای مبرا نمی‌کند بلکه می‌گوید: «برمبنای شواهد و عدله، دلیلی بر گناه‌کاری فرض مضنون وجود ندارد.»

به عنوان یک مثال دیگر فرض کنید قرار است در مورد حیات در دیگر سیاره‌ها تصمیم بگیریم. فرض صفر در اینجا عدم حیات در سیارات دیگر است.

$\large H_0:$ عدم حیات در سیارات دیگر

با استفاده از یک سفینه فضایی، به چند سیاره نزدیک (مانند ماه و مریخ) سری می‌زنیم و با یک یا چند موجود زنده (نظیر باکتری یا حتی انسان‌های فضایی) مواجه می‌شویم. واضح است که به این ترتیب فرض صفر رد می‌شود.

ولی اگر در این سفر فضایی با هیچ موجود زنده‌ای مواجه نشویم، نمی‌توانیم دلیلی ارائه کنیم که در همه سیارات، هیچ موجود زنده‌ای وجود ندارد. زیرا مشاهدات ما حاصل از یک یا چند نمونه از سیارات بدست آمده و همه سیاره‌های منظومه شمسی را مورد بررسی قرار نداده‌ایم. بنابراین اگر فرض صفر توسط آزمون فرض آماری رد نشود، بهتر است در اعلام نتیجه یا گزارش‌دهی بیان کنیم که اطلاعات جدیدی کسب نشده است و وضعیت نسبت به فرض صفر تغییری نیافته.

خلاصه و نتیجه‌گیری

در علم داده، آزمون فرض آماری و به دنبال آن مقدار احتمال، ابزاری مهم در تصمیم‌گیری محسوب می‌شود. بنابراین در این نوشتار به بررسی مفهوم مقدار احتمال p-Value و شیوه به کارگیری آن در آزمون فرض آماری پرداختیم. مشخص شد که در فرض آماری، سعی در ارائه شواهدی در جهت رد فرض صفر داریم. اگر چنین شواهدی براساس نمونه تصادفی جمع‌آوری شده، وجود نداشته باشد، بهتر است بگوییم که مطلب جدید یا جالبی بیشتر از فرض صفر حاصل نشده است.

نکته‌ای که در این بین باید به آن توجه کرد آن است که از مقدار احتمال به عنوان یک معیار استفاده می‌شود و شرط رد فرض صفر فقط به صورت کوچکتر بودن مقدار احتمال از خطای نوع اول است. اگر مثلا مقدار احتمال برابر با $0.049$ هم باشد در نتیجه و تصمیم ما در رد فرض صفر خللی وارد نمی‌شود. بنابراین نباید از مقدار احتمال به عنوان میزان درستی فرض صفر استفاده کرد. این کار ممکن است کاربران مباحث آماری و آزمون فرض آماری را به گمراهی بکشد.

اگر مطلب بالا برای‌تان مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۳۶ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

فرادرس toward data science

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

مطالب مرتبط