آماره کامل و آماره کمکی — به زبان ساده
در تئوری آماری «برآوردیابی نقطهای» (Point Estimation) و انتخاب بهترین برآوردگر مسئله مهمی است. با توجه به خصوصیاتی که برآوردگرها برای پارامتر جامعه () دارند، نمیتوان بهترین برآوردگر را انتخاب کرد. بنابراین بهتر است که براساس این خصوصیات، آنها را دستهبندی کرده و از بین هر دسته، بهترین برآوردگر را انتخاب کرد. برای مثال میتوان گروه برآوردگرهای نااریب را مورد بررسی قرار داد و برآوردگری که بیشترین دقت (کمترین واریانس) را دارد از بین آنها انتخاب کرد. در این میان توزیعها یا آمارههای کامل (Complete Statistic) و آمارههای کمکی (Ancillary Statistic) نقش مهمی در انتخاب برآوردگرهای مناسب دارند.
در نوشتارهای دیگر فرادرس در مورد آمارههای بسنده (Sufficient Statistics) خواندهاید. در این نوشتار نیز به بررسی برخی از خصوصیات جالب توجه برای آمارههای بسنده و آماره بسنده مینیمال خواهیم پرداخت. البته خواندن مطلب آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات که به مباحث برآوردیابی میپردازد، توصیه میشود. همچنین مطالعه نوشتار فاصله اطمینان (Confidence Interval) — به زبان ساده که موضوع برآوردگرهای فاصلهای را مورد بررسی قرار میدهد، نیز خالی از لطف نیست.
آماره کامل (Complete Statistic) و آماره کمکی (Ancillary Statistic)
همانطور که در نوشتار آزمونهای آماری خواندهاید، میدانید منظور از آماره، تابعی از یک نمونه تصادفی است که مقدار آن به پارامتر مجهول جامعه بستگی ندارد. فرض کنید یک نمونه تصادفی باشند. آنگاه به عنوان میانگین نمونهای میتواند یک آماره برای پارامتر میانگین جامعه محسوب شود.
در مطلب آماره بسنده به آمارهای توجه کردیم که بیشترین میزان اطلاعات را در مورد پارامتر مجهول داشته باشد. همچنین مشخص کردیم که آماره بسندهای که تابعی از همه آمارههای بسنده باشد، آماره بسنده مینیمال نامیده شده و بهتر است برای انجام عمل برآوردیابی از آن استفاده شود.
ولی هدف از ایحاد آماره کامل، تولید یا انتخاب آمارهای است که بتواند با کمترین میزان بُعد بیشترین اطلاعات را در مورد پارامتر در اختیارمان قرار دهد. به این معنی که ممکن است در یک آماره بسنده مینیمال، اطلاعات اضافهای نیز که مربوط به استنباط پارامتر جامعه نباشد، وجود داشته باشد. با انتخاب «آماره بسنده مینیمال کامل» (Complete Minimal Sufficient Statistic) به آمارهای خواهیم رسید که فقط و فقط در مورد پارامتر جامعه اطلاعات در خود ذخیره کرده است و هیچ اطلاعات زائدی ندارد.
آماره کامل یا خانواده توزیع کامل
مفهوم اماره کامل، درست به مانند مفهوم «فضای کامل» (Complete Space) است. بنابراین بهتر است ابتدا به مفهوم فضای کامل بپردازیم. مجموعه بردارهای را «کامل» (Complete) میگویند اگر این بردارها بتوانند همه فضا را بپوشانند، یا (Span) کنند. به این ترتیب میتوانیم هر برداری مثلا را به صورت ترکیب خطی از بردارهای بنویسیم.
از آنجایی که این مجموعه بردارها، کل فضا را پوشش دادهاند، هر برداری مثل که بر همه آنها عمود باشد، طولی برابر با صفر دارد. در جبر خطی، فضای حاصل از بردارهای را فضای کامل pبُعدی مینامند. حال به بررسی آماره کامل میپردازیم.
تعریف آماره کامل
آماره را برای خانواده توزیع آن، کامل میگویند اگر برای هر تابع اندازه پذیر و هر مقدار پارامتر رابطه زیر برقرار باشد.
این تعریف را میتوان دقیقا مشابه تعریفی که در مورد فضای کامل داشتیم در نظر بگیریم. فرض کنید که متغیر تصادفی گسسته باشد. در نتیجه امید ریاضی برای و مفهوم کامل بودن، به صورت زیر نوشته خواهد شد.
واضح است که طرف راست علامت بیان میکند که به طور قطع به یقین (تقریبا مطمئن - Almost Surely) تابع برابر با صفر است (به جز در نقاطی که احتمال آن صفر باشد). از آنجایی که امید ریاضی را میتوان به صورت ضرب داخلی بردارهای و در نظر گرفت مفهوم فضای کامل نیز در اینجا قابل استفاده است. به این ترتیب اگر قرار باشد فضای حاصل از برآوردگر کامل باشد، هیچ تابعی مثل نمیتواند شامل اطلاعات اضافهای در مورد پارامتر در این فضا باشد.
در این تعریف، از آن جهت خانواده توزیع را کامل خواندیم که همه مقدارهای پارامتر که خانواده توزیع را مشخص میکنند یک مجموعه غنی از بردارهایی را میسازند که منجر به ایجاد یک فضای کامل میشود.
نکته: اگر تابع که در شرایط کامل بودن به کار گرفته شد، کراندار نیز باشد، آماره یا خانواده حاصل از را «کامل کراندار» (Boundedly Complete) میگویند.
در ادامه نیز با توجه به مفهوم آماره کمکی، متوجه میشویم که آماره بسنده کامل، بیشترین اطلاعات را در مورد پارامتر جامعه بدون هیچ اضافاتی دارد. بهتر است برای روشنتر شدن موضوع به بررسی یک مثال بپردازیم.
نکته: اگر توزیعی، کامل باشد میتوان آن را «قابل تشخیص» (Identifiable) دانست به این معنی که براساس دادههای در دسترس توسط نمونه تصادفی، قادر به تشخیص توزیع و پارامتر آن خواهیم بود.
مثال ۱
یک آزمایش برنولی را در نظر بگیرید. اگر یک نمونه تصادفی از این توزیع باشند، نشان میدهیم که مجموع آنها (که دارای توزیع دوجملهای است) یک آماره کامل است. به این ترتیب مشخص میشود که خانواده توزیع دوجملهای، یک خانواده کامل است. فرض کنید آماره به صورت جمع این نمونه تصادفی در نظر گرفته شده باشد. مشخص است که توزیع دوجملهای با پارامترهای و است یعنی داریم، .
در این صورت مطابق با قسمت اول تعریف کامل بودن، رابطه زیر را فرض میکنیم.
توجه داشته باشید که در اینجا فضای پارامتری () شامل دو نقطه ۰ و ۱ نیست. از آنجایی که جملات این بسط (به غیر از ) همگی مثبت هستند، فقط زمانی حاصل جمع صفر خواهد بود که تابع صفر باشد. در نتیجه برای خانواده توزیعهای دوجملهای کامل است. یعنی رابطه زیر برقرار است.
نکته: توزیع حاصل از آماره ، یک توزیع دوجملهای است به همین دلیل را برای این خانواده کامل نامیدیم.
مثال ۲
در مثال قبلی اگر فضای پارامتر محدود به و باشد، دیگر تشکیل یک خانواده کامل را نمیدهد. با توجه به تفسیر برداری که ارائه شد این فضا کامل نیست. زیرا فضای پارامتری سه بُعدی است ولی مقدار شامل نقاط است که در نتیجه این سه پارامتر نمیتوانند همه فضا را پوشش دهند. مثلا فرض کنید که و باشد. در این حالت خانواده توزیع دوجملهای کامل نیست در صورتی که این خانواده کامل باشد باید برای هر تابعی مثلا رابطه زیر برقرار باشد.
به این معنی که اگر امیدریاضی تابع صفر باشد، رابطه زیر برقرار است.
به این ترتیب باید باشد، که طبق تعریف این تابع داریم:
پس امید ریاضی تابع صفر شده، ولی با این وجود نمیتوان نتیجه گرفت که تابع در همه نقاط تکیهگاه (مثلا ۰ و 1) برابر با صفر است. پس این خانواده، کامل نیست. زیرا مقدار تابع در دو نقطه 0 , 1 مخالف صفر است.
آماره کمکی (Ancillary Statistic)
آماره را در نظر بگیرید. با توجه به مفهوم آماره، مشخص است که شامل پارامتر جامعه نیست. از طرفی توزیع آماره کمکی نیز به پارامتر جامعه بستگی ندارد. بنابراین میتوان آماره کمکی را مبنایی برای محاسبه فاصله اطمینان (Confidence Interval) و کمیت محوری (Pivotal Quantity) در نظر گرفت. تعریف آماره کمکی توسط دانشمند بزرگ آمار «رونالد فیشر» (Sir Ronald Fisher) صورت گرفته است.
مثال ۳
فرض کنید نمونه تصادفی دارای توزیع نرمال با میانگین نامعلوم و واریانس معلوم باشند. در این صورت با توجه به به عنوان میانگین نمونهای، یک آماره کمکی است زیرا توزیع آن به پارامتر بستگی ندارد.
نکته: اگر واریانس نمونهای را برآوردگر نااریب واریانس بدانیم، مشخص است که است بنابراین توزیع به پارامتر بستگی ندارد و به نوعی از توزیع کای ۲ پیروری میکند، بنابراین یک آماره کمکی است.
آماره نااریب (Unbiased Estimator)
قبل از اینکه به قضیههای بعدی در زمینه آماره بسده کامل و مینیمال بپردازیم، بهتر است مفهوم «آماره نااریب» (Unbiased Estimator) را مرور میکنیم. را آماره نااریب مینامیم اگر مقدار مورد انتظار (امید ریاضی) آن برابر با پارامتر جامعه باشد.
برای مثال میتوان نشان داد که میانگین نمونهای () یک برآوردگر نااریب برای پارامتر میانگین جامعه () است.
این مفهوم نشان میدهد که انتظار داریم با تکرار نمونهگیری، برآیند حاصل از میانگین نمونهها، با میانگین جامعه آماری برابر باشد.
قضیه باسو (Basu's Theorem)
در تئوری آمار استنباطی، «آماره کامل کراندار» و «آماره کمکی»، نقش مهمی در قضیه باسو دارند. این قضیه کمک میکند که در بسیاری از موارد بتوانیم استقلال متغیرهای تصادفی یا توابعی از آنها را مشخص کنیم. صورت این قضیه به صورت زیر است.
قضیه باسو: اگر یک آماره بسنده کامل کراندار و نیز یک آماره کمکی برای پارامتر باشند، آنگاه از مستقل است.
در اینجا از اثبات این قضیه صرف نظر میکنیم ولی میتوانید این اثبات را در کتابهای «آمار-ریاضی» (Mathematical Statistics) مشاهده کنید. با توجه به این قضیه میتوان استقلال میانگین نمونهای و واریانس نمونهای را اثبات کرد. به این ترتیب و مستقل هستند. جالب آن است که برای محاسبه احتیاج به هست ولی این دو متغیر تصادفی، مستقل از یکدیگرند.
قضیه بهادر (Bahadur's Theorem)
یکی دیگر از کاربردهای آماره کامل، در قضیه بهادر نهفته است. به این ترتیب میتوان روشی ساده برای پیدا کردن آماره بسنده مینمال پیدا کرد. در ادامه صورت این قضیه قابل مشاهده است.
قضیه بهادر: اگر یک آماره بسنده کامل کراندار باشد، در صورتی که آماره بسنده مینیمال برای پارامتر وجود داشته باشد، آماره بسنده مینیمال است.
این قضیه روشی برای پیدا کردن آماره بسنده مینیمال ارائه میدهد. بنابراین کافی است که به دنبال آماره بسنده کامل کراندار باشیم.
قضیه رائو-بلکول (Rao–Blackwell Theorem)
قضیه رائو-بلکول به منظور انتخاب برآوردگر مناسب برای پارامتر به کار میآید. این قضیه توسط دو دانشمند بزرگ آمار به نامهای «رائو» (Calyampudi Radhakrishna Rao) و «بلکول» (David Blackwell) اثبات و مورد استفاده قرار گرفته است. صورت این قضیه به شکل زیر است.
قضیه رائو-بلکول: فرض کنید یک آماره بسنده برای پارامتر باشد. همچنین را هر برآوردگر دیگری برای این پارامتر در نظر بگیرید. آماره یا برآوردگر جدیدی که به صورت (برآوردگری به صورت امیدریاضی به شرط ) تعریف شود، دارای واریانس کمتری نسبت به است. به این ترتیب برآوردگر به کمک آماره بسنده، بهبود یافته است. مشخص است که آماره جدید تابعی از آماره بسنده خواهد بود.
بنابراین اگر را یک برآوردگر نااریب برای پارامتر در نظر بگیریم، براساس واریانس برآوردگرها خواهیم داشت:
از این قضیه میتوان برای پیدا کردن برآوردگر نااریب با کمترین واریانس (Minimum Variance Unbiased Estimator- MVUE) استفاده کرد. برای انجام این کار کافی است که برآوردگر نااریبی را پیدا کرده و امید شرطی آن را برحسب آماره بسنده پارامتر بدست آوریم. برآوردگر حاصل دارای واریانس کوچکتری نسبت به واریانس برآوردگر اولیه خواهد بود. به منظور تعیین بهترین برآوردگر در کلاس یا مجموعه برآوردگرهای نااریب، باید از قضیه لهمن-شفه استفاده کرد. این قضیه تضمین میکند که برآوردگر نااریبی که توسط قضیه رائو-بلکول ایجاد میشود بطور یکنواخت، دارای واریانس کوچکتری نسبت به هر برآوردگر نااریب دیگر است.
قضیه لهمن-شفه (Lehmann–Scheffé Theorem)
در انتهای این بحث به بررسی قضیه لهمن-شفه میپردازیم. این قضیه کمک میکند که در کلاس برآوردگرها نااریب بهترین برآوردگر شناسایی شود. همچنین با استفاده از این قضیه شرایط بدست آوردن چنین برآوردگری نیز تعیین میشود. این قضیه را میتوان مکملی برای قضیه رائو-بلکول دانست.
با استفاده از این قضیه میتوان نشان داد که برآوردگر نااریب با کمترین واریانس تحت چه شرایطی یکتا است. به این ترتیب میتوان یک «برآوردگر با کمترین واریانس یکنواخت» (Uniformly Minimum Variance Unbiased Estiamtor- UMVUE) بدست آورد. منظور از یکنواخت این است که این برآوردگر در کلاس برآوردگرهای نااریب برای همه نقاط فضای پارامتری () دارای کمترین واریانس است.
قضیه لهمن-شفه: اگر یک برآوردگر بسنده کامل کراندار و یک برآوردگر نااریب برای پارامتر باشند، آنگاه برآوردگر UMVUE برای است.
براساس این قضیه، مشخص است که در بین برآوردگرهای نااریب میانگین جامعه ()، میانگین نمونهای () دارای کمترین واریانس بوده، بنابراین UMVUE محسوب میشود.
اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزشهایی که در ادامه آمدهاند نیز برایتان کاربردی خواهند بود.
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای نرمافزارهای آماری
- آموزش آزمون های فرض مربوط به میانگین جامعه نرمال در SPSS
- آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات
- آماره بسنده (Sufficient Statistic) و بسنده مینیمال — به زبان ساده
- احتمال شرطی (Conditional Probability) — اصول و شیوه محاسبه
^^