آمار ریاضی چیست؟ — به زبان ساده
یکی از شاخههای مهم در تئوری و نظریه آمار، «آمار ریاضی» (Mathematical Statistics) است. این بخش از علم آمار، با تکیه بر نظریه احتمال و ریاضیات، در مقابل روشهای تحلیلی و کار روی دادهها به حل مسائل و اثبات قضیههایی میپردازد که به مفاهیم ریاضیاتی آمار نزدیکتر هستند. در این نوشتار با عنوان آمار ریاضی چیست؟ به این پرسش پاسخ داده و کاربردهای آمار ریاضی را بازگو خواهیم کرد.
به عنوان مقدمه و آشنایی با مفاهیم به کار رفته در این نوشتار، خواندن مطالب برآوردگر اریب و نااریب — به زبان ساده و تابع درست نمایی (Likelihood Function) و کاربردهای آن — به زبان ساده را مطالعه کنید. همچنین خواندن برآوردگر سازگار در آمار — به زبان ساده و استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات نیز خالی از لطف نیست.
آمار ریاضی چیست؟
بخشی از تئوری یا نظریه آمار (Statistical Theory)، مربوط به جمعآوری داده (Statistical Data Collection) است که شامل نظریه نمونهگیری (Sampling) و طرح آزمایشات تصادفی (Design of randomized experiments) است. ولی قسمتی دیگری از نظریه آمار قبل از کاربردهای تکنیکهای آماری، نحوه ایجاد این روشها است که بیشتر ریشه در ریاضیات، بخصوص نظریه احتمال (Probability Theory)، نظریه اندازه (Measure Theory)، جبر خطی (Linear Algebra) و معادلات دیفرانسیل (Differential Equation) دارد.
تمامی قضیهها و نامساویهایی آماری که در بسیاری از مسائل مربوط به نظریه آمار مورد استفاده قرار میگیرند در بخش آمار ریاضی مورد بررسی و اثبات قرار میگیرند. برای مثال قضیه حد مرکزی (CLT) و نامساویهای چبیشف و مارکف همگی نتایجی هستند که در حوزه مباحث مربوط به آمار ریاضی قرار دارند.
بعد از اینکه اطلاعات و دادهها جمعآوری شدند، عمل تحلیل آنها به کمک روشهای آمار ریاضی صورت میگیرد. معمولا این بخش از تحلیل دادهها (Data Analysis) را به دو قسمت تقسیم میکنند:
- آمار توصیفی (Descriptive Statistics): توصیف رفتار دادهها و محاسبه شاخصهای تمرکز و پراکندگی در این قسمت تجزیه و تحلیل میشود.
- آمار استنباطی (Inferential Statistics): استخراج تحلیلها و نسبت دادن نتایج حاصل از نمونه به جامعه آماری مرتبط با آمار استنباطی است. مدلسازی و بررسی صحت و سازگاری مدل با دادهها در این بخش صورت میگیرد.
هر دو این قسمتها مرتبط با آمار ریاضی هستند. با توجه به این موضوع، میتوان آمار ریاضی را وابسته به شاخههای زیر در نظر گرفت:
- توزیعهای احتمالی
- استنباط و تحلیل آماری
- تحلیل رگرسیون
- روشهای ناپارامتری
در ادامه هر یک از این شاخهها را معرفی کرده و نقش آنها را در آمار ریاضی بیان میکنیم.
توزیعهای احتمالی در آمار ریاضی
در بیشتر پدیدههای علمی و حتی جامعه شناختی، با دادههای تصادفی مواجه هستیم. همچنین ممکن است دادههای اندازهگیری شده از پدیدههای قطعی، با خطای اندازهگیری مواجه باشد. در این صورت تشخیص رفتار تصادفی و احتمالاتی آنها امری ضروری است.
بسیاری از الگوهای احتمالاتی برای پدیدههای مختلف معرفی شده و مدل ریاضی آنها استخراج شده است. «توزیع احتمال» (Probability Distribution) در حقیقت توابع ریاضی برای نمایش رفتار تصادفی دادهها محسوب میشود.
به بیان دقیقتر میتوان گفت که توزیع احتمال، تابعی است که به هر یک از مقادیر تصادفی (یا پیشامدها) یک عدد در فاصله صفر تا یک نسبت میدهد که متناسب با میزان یا نرخ رخداد و مشاهده آن مقدار است. واضح است که این پدیدههای تصادفی مربوط به پیشامدهای ناشی از یک تحقیق یا آزمایش تصادفی هستند.
معمولا به توزیع احتمال برای متغیرها تصادفی که مرتبط با مقادیر گسسته یا طبقهای (Discrete Random Variable) هستند، «تابع احتمال» (Probability Function) گفته میشود. در عوض برای متغیرهای تصادفی با مقادیر پیوسته (Continues Random Variable) از عبارت «تابع چگالی احتمال» (Density Probability Function) استفاده میشود.
از طرفی ممکن است تابع احتمال به صورت «تک متغیره» (Univariate) یا «چند متغیره» (Multivariate) در نظر گرفته شود. تابع احتمال تک متغیره، مربوط به یک پدیده تصادفی است در حالیکه، برداری از متغیرهای تصادفی مرتبط با هم، دارای یک تابع احتمال چند متغیره خواهند بود. گاهی تابع احتمال چند متغیره را با صورت «تابع احتمال توام» (Joint Probability Distribution) نیز به کار میبرند.
برای مثال تابع احتمال «دو جملهای» (Binomial Distribution) و «احتمال هندسی» (Geometric Distribution) از گروه توزیع احتمالی تک متغیره و گسسته محسوب میشوند. در عوض تابع احتمال «چند جملهای» (Multinomial Distribution) از نوع گسسته ولی چند متغیره است. برای مشاهده لیستی از متغیرها تصادفی و توزیعهای گسسته همچنین نحوه ارتباط آنها با یکدیگر به نوشتار دیگری از مجله فرادرس با عنوان توزیع های گسسته آماری و رابطه بین آنها — به زبان ساده مراجعه کنید.
تابع احتمال «نمایی» (Exponential Distribution) و نرمال (Normal Distribution) در گروه توزیعهای پیوسته تک متغیره قرار میگیرند و تابع احتمال «نرمال چند متغیره» (Multivariate Normal) و تابع «توزیع دریکله» (Dirichlet Distribution)، پیوسته و از نوع چند متغیره هستند. به منظور آشنایی با متغیرهای تصادفی پیوسته و نحوه ارتباط آنها به نوشتاری از مجله فرادرس با عنوان توزیع های پیوسته آماری و رابطه بین آنها — به زبان ساده مراجعه کنید. همچنین برای مشاهده نامساویهای معمول در آمار ریاضی بهتر است نگاهی به نوشتارهای نامساوی های ریاضی — به زبان ساده و نامساوی هولدر — به زبان ساده بیاندازید.
استنباط و تحلیل در آمار ریاضی
عملیات و محاسباتی که طی آنها یک نتیجه یا تصمیم از دادهها استخراج میشود، مرتبط با استنباط آماری و به عنوان یکی از شاخههای آمار ریاضی است. بیشتر موضوعات مربوط به استنباط آماری، به متغیر تصادفی و تغییرات آن بستگی داشته و محاسبات شاخصهای مربوط به نمونه تصادفی را به جامعه آماری نسبت میدهند. همانطور که آماری توصیفی، رفتار نمونه تصادفی را توصیف میکند، استنباط آماری، رفتار متغیرها و دادههای حاصل از آن را در جامعه آماری بررسی میکند.
از نتایج حاصل از استنباط آماری برای اتخاذ انجام یا عدم اجرای یک تصمیم کمک میگیریم. این قسمت از استنباط آماری مربوط به آزمونهای فرض آماری میشود. نحوه انتخاب آماره آزمون، تعیین توزیع آماره آزمون و ... همگی از بخشهای اصلی آمار ریاضی هستند.
مدلهای آماری استخراج شده از استنباط آماری برای پدیدههای تصادفی برای تولید دادههای جدید مانند شبیهسازی (Simulation) و پیشبینی رفتار آنها مورد استفاده قرار میگیرد. به این ترتیب درک ما از چنین پدیدههای که بدون قاعده به نظر میرسند بیشتر شده و قوانین تصادفی آنها را درک میکنیم.
رگرسیون در آمار ریاضی
«تحلیل رگرسیونی» (Regression Analysis) به عنوان یک بخش از آمار ریاضی به مدلسازی و تشکیل ساختارهای رابطهای بین متغیرهای مستقل و وابسته میپردازد. این قسمت از آمار ریاضی متصل به احتمال و «توزیعهای شرطی» (Conditional Probability) است. همانطور که در دیگر نوشتارهای فرادرس دیدهاید، یک رابطه رگرسیونی خطی ساده معمولا به صورت امید ریاضی شرطی و به شکل زیر نوشته میشود.
این امر نشان میدهد که مقدار متغیر وابسته به شرط مشاهده مقادیر متغیرهای مستقل، یک پدیده تصادفی است و مدل رگرسیونی، متوسط این مقادیر را به عنوان پیشبینی برای متغیر وابسته در نظر میگیرد.
شیوههای رگرسیونی با توجه به شرایط مسئله متفاوت است و در بیشتر مواقع، با توجه به محدودیتهایی که وجود دارد، مدل مناسب و تکنیک بهینه برای تشخیص این رابطه توسط محقق انتخاب میشود.
برای مثال، روشهای رگرسیون خطی (Linear Regression) به عنوان یک روش پارامتری (Parametric Technique)، برای نمایش رابطه خطی بین متغیرهای مستقل و وابسته به کار گرفته میشوند. به کمک دادههای زوجی (چندتایی مرتب) پارامترهای مدل برآورد شده و آزمونهای مربوط به صحت مدل رگرسیون انجام شده و در صورت مطابقت مدل با شرایط جامعه آماری، از مدل ارائه شده برای پیشبینی استفاده میشود.
شیوههای مختلف پارامتری و ناپارامتری برای اجرای رگرسیون و برازش یک تابع به دادهها وجود دارد. برای مشاهده انواع روشهای رگرسیونی و شرایط اجرای آنها، نوشتار دیگر مجله فرادرس با عنوان انواع روش های رگرسیونی — راهنمای جامع را مطالعه کنید.
روشهای ناپارامتری در آمار ریاضی
اگر در آمار ریاضی از شیوههایی استفاده شود که بدون در نظر گرفتن شرایط خاص یا آگاهی از توزیع دادهها، عمل تجزیه و تحلیل دادهها یا حتی مدلسازی صورت گیرد، این روشها را در گروه روشهای ناپارامتری در نظر میگیرند.
اغلب در روشهای ناپارامتری به جای استفاده از مقادیر دادههای عددی، از رتبهها (Rank) استفاده میشود. همچنین اگر بدون در نظر گرفتن توزیع دادهها یا آمارههای مورد استفاده، آزمون فرض یا مدلسازی صورت گیرد، روشهای مذکور را توزیع-آزاد (Distribution-Free) مینامند.
روشهای ناپارامتری ممکن است به علت پیچیده بودن تابع توزیع پدیده تصادفی یا در دسترس نبودن توزیع آماره مورد نظر مورد استفاده قرار گیرد. تکنیکهای مختلفی از آمار ناپارامتری و روشهای مبتنی بر آن استفاده میکنند. آزمونهای مربوط به میانه (Median test) و رگرسیون چندکی (Quantile Regression) از جمله تکنیکهایی هستند که به روشهای ناپارامتری تکیه دارند.
خلاصه و جمعبندی
در این نوشتار با آمار ریاضی و حوزه نفوذ آن در آمار و تحلیلهای آماری آشنا شدیم. همانطور که مشخص است بیشتر قضیهها و نامساویهای احتمالاتی در آمار ریاضی اثبات و مطرح شدهاند. آمار استنباطی و مدلسازی نیز بخشی از آمار ریاضی است که با استفاده از توزیع احتمالی جامعه آماری، دست به تصمیمسازی میزند. البته هر یک از شاخههای آمار ریاضی دارای نظریهای خاص خود هستند که در دیگر نوشتارهای فرادرس به آنها پرداخته خواهد شد.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالبی که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای ریاضی
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای آمار و احتمالات
- توزیعهای آماری — مجموعه مقالات جامع وبلاگ فرادرس
- توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها
- فاصله اطمینان (Confidence Interval) — به زبان ساده
^^
بسیار عالی از این نظر که یک دید جامع و یا یک bird view به خواننده میده.
لینکهای درون متن بسبار کاربردی هستن.
ممنون