انحراف استاندارد و خطای استاندارد — از صفر تا صد
اغلب در محاسبات و آزمونهای آماری با دو واژه شبیه به هم به نامهای انحراف استاندارد و خطای استاندارد مواجه میشویم. از آنجایی که این دو عبارت هر دو کلمه استاندارد را یدک میکشند، به نظر میرسند که یک ملاک عمومی برای سنجش ویژگیهایی آماری باشند. ولی آیا انحراف استاندارد و خطای استاندارد با یکدیگر تفاوت دارند یا واژهای برای بیان یک خاصیت از جامعه آماری هستند؟ در این نوشتار میخواهیم به تفاوت و البته ارتباطی که بین این دو اصطلاح آماری وجود دارند، بپردازیم.
به این منظور بهتر است ابتدا نوشتارهای دیگر مجله فرادرس مانند واریانس و اندازههای پراکندگی — به زبان ساده و امید ریاضی (Mathematical Expectation) — مفاهیم و کاربردها را مطالعه کنید. همچنین خواندن مطالب متغیر تصادفی، تابع احتمال و تابع توزیع احتمال، آزمایش تصادفی، پیشامد و تابع احتمال و میانگین وزنی — به زبان ساده نیز خالی از لطف نیست.
انحراف استاندارد و خطای استاندارد
در مباحث آماری، دادههای جمعآوری شده، اغلب با استفاده از مقدار «میانگین» (Mean) و «انحراف استاندارد نمونهای» (Sample Standard Deviation) توصیف میشوند. همچنین ممکن است این کار بوسیله مشخص کردن مقدار میانگین و «خطای استاندارد» (Standard Error) صورت گیرد.
با توجه به نزدیک بودن معنی دو اصطلاح انحراف استاندارد و خطای استاندارد اغلب ممکن است با یکدیگر اشتباه گرفته شده یا به شکل یکسانی تفسیر شوند. به یاد داشته باشید که میانگین و انحراف استاندارد، شاخصهای توصیفی برای جامعه یا نمونه آماری هستند، در حالی که خطای استاندارد یا به طور دقیقتر، «خطای استاندارد میانگین» (Standard Error of Mean)، شاخصی برای سنجش خطای برآوردگر و توصیفی از روش نمونهگیری تصادفی است.
انحراف استاندارد از دادههای حاصل از جامعه یا نمونه آماری تولید میشود. در مقابل، خطای استاندارد میانگین، یک عبارت احتمالی در مورد نسبت اندازه نمونه و انحراف استاندارد نمونهای است. این شاخص، با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، سعی در اندازهگیری خطای برآورد میانگین جامعه آماری دارد.
به عبارت ساده، خطای استاندارد میانگین نمونه، تخمین میزند که میانگین نمونه از میانگین جمعیت تا چه حد دور یا نزدیک است. در مقابل انحراف استاندارد شاخصی است که متوسط اختلاف مقادیر از میانگین نمونه یا جامعه آماری را نشان میدهد.
اگر انحراف استاندارد جمعیت متناهی باشد، خطای استاندارد میانگین نمونه با افزایش حجم نمونه به صفر میرسد، زیرا برآورد میانگین جمعیت بهبود مییابد، در حالی که انحراف استاندارد (نمونه یا جامعه) اغلب با اضافه شدن مشاهده جدید به دادهها، افزایش مییابد.
به این ترتیب مشخص است که باید بین انحراف استاندارد و خطای استاندارد تفاوت قائل شد. در ادامه توضیحات بیشتری نیز ارائه میشود.
انحراف استاندارد یک شاخص توصیفی
همانطور که گفته شد، انحراف استاندارد ابزاری برای نمایش میزان پراکندگی دادهها است. شیوه محاسبه «انحراف استاندارد» درست شبیه «واریانس» (Variance) است. به فرمول زیر توجه کنید. در نظر بگیرید که جامعهای شامل مقدار مختلف مانند داریم و میخواهیم واریانس و انحراف استاندارد را محاسبه کنیم.
که در آن ، میانگین مقادیر است. براساس واریانس، انحراف استاندارد بدست میآید.
البته شایان ذکر است که اگر به جای جامعه آماری، مشاهدات حاصل از یک نمونهای آماری از جامعه بودند، محاسبه واریانس و انحراف استاندارد کمی با تغییر همراه بود. نحوه محاسبه واریانس نمونهای و انحراف استاندارد نمونهای در ادامه دیده میشود.
در اینجا فرض بر این است که یک نمونه تایی از جامعه آماری به صورت در اختیارمان قرار گرفته است.
نکته: توجه داشته باشید که در فرمول مربوط به واریانس یا انحراف معیار جامعه از استفاده کردیم، زیرا متغیر تصادفی نیستند. ولی برای محاسبه واریانس و انحراف معیار نمونهای از نماد استفاده میشود تا نشان دهنده تصادفی بوده آنها باشد، زیرا مقدار آنها از نمونهای به نمونه دیگر متفاوت است.
و همچنین برای انحراف معیار نمونهای نیز همان ارتباط با واریانس را خواهیم داشت.
نکته: در مخرج محاسبه واریانس نمونهای از استفاده شده تا یک «برآوردگر نااریب» (Unbiased Estimator) حاصل شود.
موضوع مهم در محاسبه واریانس و انحراف معیار، استفاده از میانگین به عنوان یک نقطه مرکزی و سنجش مجموع مربعات فاصلههای مقادیر دیگر نسبت به آن است. در این حالت فقط از معیار مرکزی برای انجام محاسبات استفاده شده ولی برای برآورد آن، این عمل صورت نگرفته است و مستقیما براساس انحراف استاندارد بدست میآید.
خطای استاندارد میانگین
نمونهگیری از جامعه آماری با هدف برآورد پارامترها و شناخت آن جامعه صورت میپذیرد. به این ترتیب میانگین حاصل از یک نمونه تصادفی به اسم میتواند برآورد مناسبی برای میانگین جامعه آماری باشد. ولی از آنجایی که مقدار این برآورد از نمونهای به نمونه دیگر متفاوت است، آن را یک «متغیر تصادفی» (Random Variable) یا «آماره» (Statistics) مینامیم.
پس مشخص است که برآورد میانگین که توسط یک نمونه تصادفی حاصل شده، دارای خطا است. این خطا توسط «خطای استاندارد میانگین» (Standard Error) اندازه گیری میشود.
بنابراین باید مشخص کنیم که اگر میانگین واقعی برای جامعه آماری باشد، برآورد آن یعنی چقدر از آن فاصله دارد. این فاصله را میتوان به وسیله واریانس معرفی و محاسبه کرد.
البته میدانیم که انتظار داریم میانگین برآوردگرها () به میانگین واقعی نزدیک و تقریبا با آن فاصلهای نداشته باشد. این ویژگی را برای یک برآوردگر، «نااریبی» (Unbiasness) مینامند. پس به این ترتیب داریم:
که در آن ، نماد یا عملگر «امید ریاضی» (Mathematical Expectation) یا «مقدار مورد انتظار» (Expected Value) یا چشم داشتی است. حال فاصله برآوردگر از پارامتر یا مقدار مورد انتظار را برحسب واریانس محاسبه میکنیم. طبق تعریف واریانس مجموع متغیرهای تصادفی مستقل داریم:
از طرفی انحراف معیار براساس این واریانس نیز به صورت زیر حاصل میشود.
رابطه محاسبه خطای استاندارد میانگین برحسب انحراف معیار
توجه داشته باشید که اگر انحراف معیار جامعه () مشخص نباشد، باید از برآوردگر انحراف معیار نمونهای استفاده کرد. البته این کار احتیاج به یک ضریب تصحیح نیز دارد که در ادامه این مطلب به آن اشاره خواهیم کرد.
نکته: همانطور که مشاهده میشود، با افزایش تعداد نمونهها، واریانس خطای میانگین و در نتیجه خطای استاندار میانگین، کاهش مییابد. زیرا اثر افزایش تعداد، دوبار تاثیر گذار است. یکبار در محاسبه واریانس یا انحراف استاندارد نمونهای که مجموع مربعات به تعداد تقسیم میشود و یکبار هم هنگام محاسبه خطای استاندارد میانگین، عمل تقسیم صورت میگیرد.
ضریب تصحیح جامعه متناهی و همبستگی نمونهای
محاسبه خطای استاندارد میانگین به دلیل اهمیت آن در برآورد میانگین و اندازه خطای آن، باید با دقت صورت گیرد. در این میان دو دلیل برای به کار بردن ضریب تصحیح وجود دارد که اولی متناهی بودن جامعه آماری و دومی همبستگی بین نمونههای تصادفی است. ابتدا ضریب تصحیح جامعه متناهی را توضیح داده، سپس به بررسی همبستگی نمونهها خواهیم پرداخت.
ضریب تصحیح برای محاسبه انحراف استاندارد و خطای استاندارد
معمولا هنگام محاسبه انحراف معیار و خطای استاندارد میانگین، فرض بر این است که اندازه جامعه () بسیار بزرگ بوده و در مقابل، حجم نمونه () کوچک است. ولی اگر حجم نمونه بزرگ باشد و بیش از ۵٪ جامعه آماری را شامل شود، بهتر است انحراف استاندارد و خطای استاندارد میانگین را به کمک یک ضریب تصحیح، بهینه کرد. این ضریب برای هر یک از این شاخصها به صورت زیر نوشته میشود.
ضریب تصحیح جامعه متناهی برای انحراف استاندارد
ضریب تصحیح جامعه متناهی برای خطای استاندارد میانگین