آمار ریاضی چیست؟ – به زبان ساده

۴۵۵۱

۱۴۰۲/۰۳/۱۳

۶ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

یکی از شاخه‌های مهم در تئوری و نظریه آمار، «آمار ریاضی» (Mathematical Statistics) است. این بخش از علم آمار، با تکیه بر نظریه احتمال و ریاضیات، در مقابل روش‌های تحلیلی و کار روی داده‌ها به حل مسائل و اثبات قضیه‌هایی می‌پردازد که به مفاهیم ریاضیاتی آمار نزدیک‌تر هستند. در این نوشتار با عنوان آمار ریاضی چیست؟ به این پرسش پاسخ داده و کاربردهای آمار ریاضی را بازگو خواهیم کرد.

فهرست مطالب این نوشته

آمار ریاضی چیست؟

توزیع‌های احتمالی در آمار ریاضی

استنباط و تحلیل در آمار ریاضی

رگرسیون در آمار ریاضی

روش‌های ناپارامتری در آمار ریاضی

خلاصه و جمع‌بندی

به عنوان مقدمه و آشنایی با مفاهیم به کار رفته در این نوشتار، خواندن مطالب برآوردگر اریب و نااریب — به زبان ساده و تابع درست نمایی (Likelihood Function) و کاربردهای آن — به زبان ساده را مطالعه کنید. همچنین خواندن برآوردگر سازگار در آمار — به زبان ساده و استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات نیز خالی از لطف نیست.

آمار ریاضی چیست؟

بخشی از تئوری یا نظریه آمار (Statistical Theory)، مربوط به جمع‌آوری داده‌ (Statistical Data Collection) است که شامل نظریه نمونه‌گیری (Sampling) و طرح آزمایشات تصادفی (Design of randomized experiments) است. ولی قسمتی دیگری از نظریه آمار قبل از کاربردهای تکنیک‌های آماری، نحوه ایجاد این روش‌ها است که بیشتر ریشه در ریاضیات، بخصوص نظریه احتمال (Probability Theory)، نظریه اندازه (Measure Theory)، جبر خطی (Linear Algebra) و معادلات دیفرانسیل (Differential Equation) دارد.

فیلم آموزش آمار ریاضی ۱ – مرور و حل تست کنکور ارشد در فرادرس

کلیک کنید

تمامی قضیه‌ها و نامساوی‌هایی آماری که در بسیاری از مسائل مربوط به نظریه آمار مورد استفاده قرار می‌گیرند در بخش آمار ریاضی مورد بررسی و اثبات قرار می‌گیرند. برای مثال قضیه حد مرکزی (CLT) و نامساوی‌های چبیشف و مارکف همگی نتایجی هستند که در حوزه مباحث مربوط به آمار ریاضی قرار دارند.

بعد از اینکه اطلاعات و داده‌ها جمع‌آوری شدند، عمل تحلیل آن‌ها به کمک روش‌های آمار ریاضی صورت می‌گیرد. معمولا این بخش از تحلیل داده‌ها (Data Analysis) را به دو قسمت تقسیم می‌کنند:

آمار توصیفی (Descriptive Statistics): توصیف رفتار داده‌ها و محاسبه شاخص‌های تمرکز و پراکندگی در این قسمت تجزیه و تحلیل می‌شود.
آمار استنباطی (Inferential Statistics): استخراج تحلیل‌ها و نسبت دادن نتایج حاصل از نمونه به جامعه آماری مرتبط با آمار استنباطی است. مدل‌سازی و بررسی صحت و سازگاری مدل با داده‌ها در این بخش صورت می‌گیرد.

هر دو این قسمت‌ها مرتبط با آمار ریاضی هستند. با توجه به این موضوع، می‌توان آمار ریاضی را وابسته به شاخه‌های زیر در نظر گرفت:

توزیع‌های احتمالی
استنباط و تحلیل آماری
تحلیل رگرسیون
روش‌های ناپارامتری

در ادامه هر یک از این شاخه‌ها را معرفی کرده و نقش آن‌ها را در آمار ریاضی بیان می‌کنیم.

توزیع‌های احتمالی در آمار ریاضی

در بیشتر پدیده‌های علمی و حتی جامعه شناختی، با داده‌های تصادفی مواجه هستیم. همچنین ممکن است داده‌های اندازه‌گیری شده از پدیده‌های قطعی، با خطای اندازه‌گیری مواجه باشد. در این صورت تشخیص رفتار تصادفی و احتمالاتی آن‌ها امری ضروری است.

بسیاری از الگوهای احتمالاتی برای پدیده‌های مختلف معرفی شده و مدل ریاضی آن‌ها استخراج شده است. «توزیع احتمال» (Probability Distribution) در حقیقت توابع ریاضی برای نمایش رفتار تصادفی داده‌ها محسوب می‌شود.

به بیان دقیق‌تر می‌توان گفت که توزیع احتمال، تابعی است که به هر یک از مقادیر تصادفی (یا پیشامدها) یک عدد در فاصله صفر تا یک نسبت می‌دهد که متناسب با میزان یا نرخ رخداد و مشاهده آن مقدار است. واضح است که این پدیده‌های تصادفی مربوط به پیشامدهای ناشی از یک تحقیق یا آزمایش تصادفی هستند.

معمولا به توزیع احتمال برای متغیرها تصادفی که مرتبط با مقادیر گسسته یا طبقه‌ای (Discrete Random Variable) هستند، «تابع احتمال» (Probability Function) گفته می‌شود. در عوض برای متغیرهای تصادفی با مقادیر پیوسته (Continues Random Variable) از عبارت «تابع چگالی احتمال» (Density Probability Function) استفاده می‌شود.

dice distribution

از طرفی ممکن است تابع احتمال به صورت «تک متغیره» (Univariate) یا «چند متغیره» (Multivariate) در نظر گرفته شود. تابع احتمال تک متغیره، مربوط به یک پدیده تصادفی است در حالیکه، برداری از متغیرهای تصادفی مرتبط با هم، دارای یک تابع احتمال چند متغیره خواهند بود. گاهی تابع احتمال چند متغیره را با صورت «تابع احتمال توام» (Joint Probability Distribution) نیز به کار می‌برند.

برای مثال تابع احتمال «دو جمله‌ای» (Binomial Distribution) و «احتمال هندسی» (Geometric Distribution) از گروه توزیع احتمالی تک متغیره و گسسته محسوب می‌شوند. در عوض تابع احتمال «چند جمله‌ای» (Multinomial Distribution) از نوع گسسته ولی چند متغیره است. برای مشاهده لیستی از متغیرها تصادفی و توزیع‌های گسسته همچنین نحوه ارتباط آن‌ها با یکدیگر به نوشتار دیگری از مجله فرادرس با عنوان توزیع های گسسته آماری و رابطه بین آنها — به زبان ساده مراجعه کنید.

تابع احتمال «نمایی» (Exponential Distribution) و نرمال (Normal Distribution) در گروه توزیع‌های پیوسته تک متغیره قرار می‌گیرند و تابع احتمال «نرمال چند متغیره» (Multivariate Normal) و تابع «توزیع دریکله» (Dirichlet Distribution)، پیوسته و از نوع چند متغیره هستند. به منظور آشنایی با متغیرهای تصادفی پیوسته و نحوه ارتباط آن‌ها به نوشتاری از مجله فرادرس با عنوان توزیع های پیوسته آماری و رابطه بین آنها — به زبان ساده مراجعه کنید. همچنین برای مشاهده نامساوی‌های معمول در آمار ریاضی بهتر است نگاهی به نوشتارهای نامساوی های ریاضی — به زبان ساده و نامساوی هولدر — به زبان ساده بیاندازید.

استنباط و تحلیل در آمار ریاضی

عملیات و محاسباتی که طی آن‌ها یک نتیجه یا تصمیم از داده‌ها استخراج می‌شود، مرتبط با استنباط آماری و به عنوان یکی از شاخه‌های آمار ریاضی است. بیشتر موضوعات مربوط به استنباط آماری، به متغیر تصادفی و تغییرات آن بستگی داشته و محاسبات شاخص‌های مربوط به نمونه تصادفی را به جامعه آماری نسبت می‌دهند. همانطور که آماری توصیفی، رفتار نمونه تصادفی را توصیف می‌کند، استنباط آماری، رفتار متغیرها و داده‌های حاصل از آن را در جامعه آماری بررسی می‌کند.

از نتایج حاصل از استنباط آماری برای اتخاذ انجام یا عدم اجرای یک تصمیم کمک می‌گیریم. این قسمت از استنباط آماری مربوط به آزمون‌های فرض آماری می‌شود. نحوه انتخاب آماره آزمون، تعیین توزیع آماره آزمون و ... همگی از بخش‌های اصلی آمار ریاضی هستند.

مدل‌های آماری استخراج شده از استنباط آماری برای پدیده‌های تصادفی برای تولید داده‌های جدید مانند شبیه‌سازی (Simulation) و پیش‌بینی رفتار آن‌ها مورد استفاده قرار می‌گیرد. به این ترتیب درک ما از چنین پدیده‌های که بدون قاعده به نظر می‌رسند بیشتر شده و قوانین تصادفی آن‌ها را درک می‌کنیم.

Statistical Inference

رگرسیون در آمار ریاضی

«تحلیل رگرسیونی» (Regression Analysis) به عنوان یک بخش از آمار ریاضی به مدل‌سازی و تشکیل ساختارهای رابطه‌ای بین متغیرهای مستقل و وابسته می‌پردازد. این قسمت از آمار ریاضی متصل به احتمال و «توزیع‌های شرطی» (Conditional Probability) است. همانطور که در دیگر نوشتارهای فرادرس دیده‌اید، یک رابطه رگرسیونی خطی ساده معمولا به صورت امید ریاضی شرطی و به شکل زیر نوشته می‌شود.

$\large E( Y | X = x ) = a + b x$

این امر نشان می‌دهد که مقدار متغیر وابسته به شرط مشاهده مقادیر متغیرهای مستقل، یک پدیده تصادفی است و مدل رگرسیونی، متوسط این مقادیر را به عنوان پیش‌بینی برای متغیر وابسته در نظر می‌گیرد.

شیوه‌های رگرسیونی با توجه به شرایط مسئله متفاوت است و در بیشتر مواقع، با توجه به محدودیت‌هایی که وجود دارد، مدل مناسب و تکنیک بهینه برای تشخیص این رابطه توسط محقق انتخاب می‌شود.

برای مثال، روش‌های رگرسیون خطی (Linear Regression) به عنوان یک روش پارامتری (Parametric Technique)، برای نمایش رابطه خطی بین متغیرهای مستقل و وابسته به کار گرفته می‌شوند. به کمک داده‌های زوجی (چندتایی مرتب) پارامترهای مدل برآورد شده و آزمون‌های مربوط به صحت مدل رگرسیون انجام شده و در صورت مطابقت مدل با شرایط جامعه آماری، از مدل ارائه شده برای پیش‌بینی استفاده می‌شود.

شیوه‌های مختلف پارامتری و ناپارامتری برای اجرای رگرسیون و برازش یک تابع به داده‌ها وجود دارد. برای مشاهده انواع روش‌های رگرسیونی و شرایط اجرای آن‌ها، نوشتار دیگر مجله فرادرس با عنوان انواع روش های رگرسیونی — راهنمای جامع را مطالعه کنید.

fancy regression plot

روش‌های ناپارامتری در آمار ریاضی

اگر در آمار ریاضی از شیوه‌هایی استفاده شود که بدون در نظر گرفتن شرایط خاص یا آگاهی از توزیع داده‌ها، عمل تجزیه و تحلیل داده‌ها یا حتی مدل‌سازی صورت گیرد، این روش‌ها را در گروه روش‌های ناپارامتری در نظر می‌گیرند.

فیلم آموزش آمار ریاضی ۲ – آزمون فرض در فرادرس

کلیک کنید

اغلب در روش‌های ناپارامتری به جای استفاده از مقادیر داده‌های عددی، از رتبه‌ها (Rank) استفاده می‌شود. همچنین اگر بدون در نظر گرفتن توزیع داده‌ها یا آماره‌های مورد استفاده، آزمون فرض یا مدل‌سازی صورت گیرد، روش‌های مذکور را توزیع-آزاد (Distribution-Free) می‌نامند.

روش‌های ناپارامتری ممکن است به علت پیچیده بودن تابع توزیع پدیده تصادفی یا در دسترس نبودن توزیع آماره مورد نظر مورد استفاده قرار گیرد. تکنیک‌های مختلفی از آمار ناپارامتری و روش‌های مبتنی بر آن استفاده می‌کنند. آزمون‌های مربوط به میانه (Median test) و رگرسیون چندکی (Quantile Regression) از جمله تکنیک‌هایی هستند که به روش‌های ناپارامتری تکیه دارند.

Distribution free tests

خلاصه و جمع‌بندی

در این نوشتار با آمار ریاضی و حوزه نفوذ آن در آمار و تحلیل‌های آماری آشنا شدیم. همانطور که مشخص است بیشتر قضیه‌ها و نامساوی‌های احتمالاتی در آمار ریاضی اثبات و مطرح شده‌اند. آمار استنباطی و مدل‌سازی نیز بخشی از آمار ریاضی است که با استفاده از توزیع احتمالی جامعه آماری، دست به تصمیم‌سازی می‌زند. البته هر یک از شاخه‌های آمار ریاضی دارای نظریه‌ای خاص خود هستند که در دیگر نوشتارهای فرادرس به آن‌ها پرداخته خواهد شد.

اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالبی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۹ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

مجله فرادرس Wikipedia

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

مطالب مرتبط