برآوردگر M یا M-Estimator — به زبان ساده

۱۰۱۹ بازدید
آخرین به‌روزرسانی: ۱۰ خرداد ۱۴۰۲
زمان مطالعه: ۷ دقیقه
دانلود PDF مقاله
برآوردگر M یا M-Estimator — به زبان ساده

در آمار و روش‌های برآوردیابی، برآوردگر ام (M-Estimator) در گروه برآوردگرهایی قرار می‌گیرد که براساس بیشینه‌سازی یک تابع هدف برحسب میانگین نمونه تصادفی حاصل می‌شوند. برآوردیابی حداکثر درستنمایی (Maximum Likelihood Estimation) و حداقل مربعات عیر خطی حالت خاصی از برآوردگر ام محسوب می‌شوند. برای آنکه خواندن نام این برآوردگر در فارسی راحت‌تر شود از این به بعد آن را برآوردگر M یا M-Estimator و شیوه‌ای که برای بدست آوردن این برآوردگر به کار می‌رود را برآوردیابی M می‌نامیم.

997696

برای آشنایی بیشتر با شیوه برآوردیابی و استفاده از تابع درستنمایی بهتر است نوشتار تابع درست نمایی (Likelihood Function) و کاربردهای آن — به زبان ساده را مطالعه کنید. همچنین خواندن آماره‌ کامل و آماره کمکی — به زبان ساده نیز خالی از لطف نیست.

برآوردگر M یا M-Estimator

انگیزه ایجاد برآوردگر M، آن است که بتوان به یک برآوردگر استوار (Robust) دست یافت که حتی برای داده‌هایی خارج از توزیع نرمال نیز قابل اتکا باشد. معمولا برآوردگر M براساس صفر شدن یک تابع برحسب برآوردگر حاصل می‌شود. تابع برآوردگر (Estimating Function) اغلب مشتق یک تابع آماری دیگر است.

برای مثال برآورد حداکثر درستنمایی (Maximum Likelihood Estimate)، نقطه‌ای را پیدا می‌کند که در آن مشتق تابع درستنمایی نسبت به پارامتر، صفر باشد. واضح است که در این حالت برآوردگر درستنمایی یک نقطه بحرانی برای «تابع امتیاز» (Score Function) است. به این ترتیب می‌توان برآوردگرهای M را به عنوان مشخصه جامعه آماری در نظر گرفت.

نکته: معمولا به مشتق لگاریتم تابع درستنمایی نسبت به پارامتر مجهول، تابع امتیاز یا Score Function می‌گویند.

 s(θ)logL(θ)θ\large {\displaystyle s(\theta )\equiv {\frac {\partial \log {\mathcal {L}}(\theta )}{\partial \theta }}}

تعریف برآوردگر M

می‌توان برآوردگر M را الگویی برای روش حداقل مربعات (Least Square) در نظر گرفت، زیرا مبنای پیدا کردن برآوردگر در این روش، کمینه‌سازی یک تابع هدف است. همچنین روش حداکثر درستنمایی (ML) نیز در گروه برآوردگر M یا M-Estimator قرار می‌گیرد. بنابراین اگر f(x;θ)f(x;\theta) را تابع چگالی یک توزیع و θ\theta را پارامتر توزیع در نظر بگیریم، برآوردگر حداکثر درستنمایی، نقطه‌ای است که در رابطه زیر صدق کند. چنین برآوردگری را معمولا به صورت MLE یا Maximum Likelihood Estimator نشان می‌دهند.

θ^=argmaxθ(i=1nf(xi,θ)) ⁣\large \widehat {\theta }=\arg \max _{{\displaystyle \theta }}{\left(\prod _{{i=1}}^{n}f(x_{i},\theta )\right)}\,\!

یا به صورت مشابه می‌توان رابطه زیر را برای این برآوردگر در نظر گرفت.

θ^=argminθ(i=1nlog(f(xi,θ))) ⁣\large {\displaystyle {\widehat {\theta }}=\arg \min _{\displaystyle \theta }{\left(\sum _{i=1}^{n}-\log {(f(x_{i},\theta ))}\right)}\,\!}

نکته: از خصوصیات جالب برای برآوردگرهای درستنمایی می‌توان به سازگاری آن‌ها اشاره کرد. به این معنی که با افزایش تعداد نمونه، برآوردگر حاصل از روش حداکثر درستنمایی به پارامتر جامعه میل خواهد کرد. ولی این امر ممکن است برای اندازه نمونه‌های کوچک صادق نباشد.

هوبر (Peter Huber) در سال ۱۹۶۴، برآوردگرهای حداکثر درستنمایی تعمیم یافته (Generalize Maximum Likelihood Estimator) را به شکلی معرفی کرد که تابع زیر را کمینه سازند.

i=1nρ(xi,θ), ⁣\large \sum _{{i=1}}^{n}\rho (x_{i},\theta ),\,\!

رابطه ۱

بطوری که رابطه زیر برقرار باشد.

θ^=argminθ(i=1nρ(xi,θ)) ⁣\large {\hat {\theta }}=\arg \min _{{\displaystyle \theta }}\left(\sum _{{i=1}}^{n}\rho (x_{i},\theta )\right)\,\!

رابطه ۲

در این بین تابع ρ\rho دارای خصوصیاتی است که در ادامه فهرست شده‌ است.

  • این تابع نامنفی است و مقدار کمینه آن صفر خواهد بود.

ρ(r)0,    r\large \rho(r)\geq 0 ,\;\;\forall r

  • تابع ρ\rho یک تابع زوج است.

ρ(r)=ρ(r)\large \rho(r)=\rho(-r)

  • این تابع نسبت به پارامترش یعنی rr یک تابع صعودی است. ولی شدت رشد آن به میزان رشد rr نیست.

ρ(r)r0\large \frac{\partial \rho(r)}{\partial r}\geq 0

انواع برآوردگر M

همانطور که در قسمت قبل بیان شد، برآوردگر M از طریق کمینه سازی تابع ρ(x,θ)\rho(x,\theta) حاصل می‌شود.

اگر این تابع را براساس یک نمونه تصادفی nnتایی، ایجاد کنیم، خواهیم داشت:

i=1nρ(xi,θ) ⁣\large\sum _{{i=1}}^{n}\rho (x_{i},\theta )\,\!

کمینه‌سازی این تابع ممکن است به روش مستقیم صورت گیرد. البته شاید ساده‌تر باشد که بوسیله مشتق‌گیری نسبت به θ\theta و حل معادله و بدست آوردن ریشه‌های معادله برحسب مشتق، به مقدار کمینه و در نتیجه برآوردگر M برسیم. ولی شاید مشتق تابع ρ\rho به سادگی صورت نگیرد و یا امکان حل معادله وجود نداشته باشد.

در زمانی که به روش مشتق‌گیری به پاسخی برای ریشه‌های مشتق تابع ρ\rho می‌رسیم، برآوردگر M را «نوع Ψ\Psi» یا (Ψ\Psi Type) می‌نامند. در غیر اینصورت اگر کمینه‌سازی به روش‌های دیگر صورت گیرد، برآوردگر M را «نوع ρ\rho» یا (ρ\rho Type) می‌گویند.

در اغلب موارد برآوردگر M‌ از نوع Ψ\Psi است.

برآوردگر M از نوع Ψ\Psi

زمانی که تابع ρ\rho مشتق‌پذیر باشد، بدست آوردن برآوردگر M برای پارامتر θ\theta ساده خواهد بود. هر چند ممکن است مشتق‌گیری مراحل طولانی و زمان‌بری داشته باشد ولی به هر حال با بدست آوردن مشتق و برابر قرار دادن آن با صفر، به یک معادله خواهیم رسید که برآوردگر M‌ ریشه‌های این معادله خواهند بود.

فرض کنید که TT یک برآوردگر M برای پارامتر θΘ\theta \in \Theta باشد. به این ترتیب می‌توان تابع Ψ\Psi را به صورت زیر در نظر گرفت:

Ψ:X×ΘRr\large \Psi :{\mathcal {X}}\times \Theta \rightarrow {\mathbb {R}}^{r}

در این جا TT یک تصویر از تابع توزیع احتمال FF به فضای پارامتر ایجاد می‌کند.

T(F)Θ\large T(F) \in \Theta

به این ترتیب دستگاه معادلاتی که باید حل شوند به شکل زیر خواهند بود.

Xψ(x,θ)dF(x)=0 Xψ(x,T(F))dF(x)=0\large \int _{{{\mathcal {X}}}}\psi (x,\theta )\,dF(x)=0\\ \large {\displaystyle \int _{\mathcal {X}}\psi (x,T(F))\,dF(x)=0}

برای مثال، برآوردگر حداکثر درستنمایی به شکل زیر نوشته خواهد شد به شرطی که تابع چگالی موجود بوده یعنی f(x,θ)=F(x,θ)xf(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}.

ψ(x,θ)=(log(f(x,θ))θ1,,log(f(x,θ))θp)\large\psi (x,\theta )=\left({\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{1}}},\dots ,{\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{p}}}\right)

به این ترتیب اگر تابع ρ\rho‌ پیوسته و دارای مشتق مرتبه اول برحسب θ\theta باشد، آنگاه شرط لازم برای آنکه برآوردگر M‌ از نوع Ψ\Psi باشد آن است که:

ψ(x,θ)=θρ(x,θ)\large {\displaystyle \psi (x,\theta )=\nabla _{\theta }\rho (x,\theta )}

برآوردگر نوع ρ\rho

فرض کنید که (X,Σ) {\displaystyle ({\mathcal {X}},\Sigma )} و (ΘRr,S) (\Theta \subset {\mathbb {R}}^{r},S) فضای اندازه‌پذیر براساس مقادیر صحیح rr باشند. از طرفی θΘ\theta\in \Theta نیز برداری از پارامترها است که علاقمند به برآورد کردن آن‌ها هستیم. برآوردگر M از نوع ρ\rho را که با TT‌ نشان می‌دهیم، بوسیله تابع ρ\rho به صورت زیر تعریف می‌شود.

ρ:X×ΘR\large {\displaystyle \rho :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R} }

آنگاه T(F)ΘT(F) \in \Theta مقدار انتگرال زیر را کمینه می‌سازد.

Xρ(x,θ)dF(x)\large {\displaystyle \int _{\mathcal {X}}\rho (x,\theta )dF(x)}

به این ترتیب خواهیم داشت:

T(F)=argminθΘXρ(x,θ)dF(x)\large T(F)=\arg \min _{{\theta \in \Theta }}\int _{{{\mathcal {X}}}}\rho (x,\theta )dF(x)

برای مثال برآوردگر حداکثر درستنمایی، همان برآوردگر M‌ است اگر:

ρ(x,θ)=log(f(x,θ))\large {\displaystyle \rho (x,\theta )=-\log(f(x,\theta ))}

و

f(x,θ)=F(x,θ)x\large f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}

نیز تابع چگالی احتمال باشد.

خصوصیات برآوردگر M

فرض کنید که با nn مشاهده از متغیر تصادفی XX مواجه هستید. از آنجایی که این مشاهدات از یکدیگر مستقل و هم توزیع با Fθ(x)F_\theta(x) هستند، برآوردگر حداکثر درستنمایی Tn=Tn(x1,x2,,xn)T_n=T_n(x_1,x_2,\ldots,x_n) که تابع زیر را بیشینه سازد، برآوردگر درستنمایی یا همان برآوردگر M خواهد بود.

i=1nfTn(xi)\large \prod_{i=1}^nf_{T_n}(x_i)

واضح است که برای حداکثر سازی این تابع می‌توان از مشتق استفاده کرد. با توجه به اینکه fθ(x)f_{\theta}(x)‌ به ازاء همه مقادیر xx و θ\theta‌ مثبت است، می‌توانیم تابع ρ\rho‌ را به صورت زیر در نظر بگیریم.

ρ(x,θ)=i=1n[ln(fTn(xi)]\large \rho(x,\theta) = \sum_{i=1}^n[-\ln(f_{T_n}(x_i)]

به این ترتیب در یک نمونه متناهی، برآوردگر M‌ تعریف می‌شود. ولی در حالت کلی می‌توان با توجه به رابطه ۱ و ۲، برآوردگر M را تعریف کرد. متاسفانه پیدا کردن تابع ρ\rho همیشه به سادگی صورت نمی‌گیرد. به همین دلیل کمتر از برآوردگر M استفاده می‌شود.

می‌توان نشان داد که برآوردگر M بطور مجانبی دارای توزیع نرمال است. به این ترتیب می‌توان فواصل اطمینان و آزمون فرض را با استفاده از «رویکرد والد» (Wald Approach) تشکیل داد. همچنین «تابع اثر» (Influence Function) برای یک برآوردگر M از نوع Ψ\Psi متناسب با تابع Ψ\Psi‌ است. در نظر بگیرید که GG یک تابع توزیع احتمال و TT نیز یک برآوردگر M برای پارامتر T(G)T(G) باشد. تابع اثر که با IFIF نشان داده می‌شود به صورت زیر خواهد بود.

IF(x;T,G)=ψ(x,T(G))[ψ(y,θ)θ]f(y)dy\large \operatorname {IF}(x;T,G)=-{\frac {\psi (x,T(G))}{\int \left[{\frac {\partial \psi (y,\theta )}{\partial \theta }}\right]f(y){\mathrm {d}}y}}

در رابطه بالا به خوبی دیده می‌شود که تابع اثر با تابع Ψ\Psi در یک تناسب است و مخرج این نسبت نیز امید ریاضی مشتق تابع Ψ\Psi برحسب θ\theta است. البته فرض بر این است که تابع چگالی توزیع gg وجود دارد و با f(y)f(y) نشان داده است.

از برآوردگر M در برآورد کردن پارامترهای مکان و مقیاس می‌توان استفاده کرد. همچنین در «رگرسیون استوار» (Robust Regression) نیز از برآوردگر M برای پارامترهای مدل استفاده می‌شود.

loss functions

برآوردگر M برای میانگین و میانه

فرض کنید (X1,,XnX_1,\ldots,X_n) یک نمونه تصادفی مستقل و هم‌توزیع (Independent Identical Distribution) یا iid با توزیع FF باشند. ρ\rho را به صورت زیر در نظر بگیرید:

ρ(x,θ)=(xθ)22, ⁣\large \rho (x,\theta )={\frac {(x-\theta )^{2}}{2}},\,\!

واضح است که زمانی این تابع به حداقل مقدار خود می‌رسد که θ\theta با میانگین XX‌ها برابر باشد. در نتیجه میانگین نمونه تصادفی یک برآوردگر M برای θ\theta خواهد بود.

واضح است که در این بین ρ(x,θ)\rho(x,\theta) یک تابع مشتق‌پذیر و پیوسته برحسب θ\theta‌ است. به این ترتیب می‌توان میانگین را یک برآوردگر M از نوع Ψ\Psi با Ψ(x,θ)\Psi(x,\theta)  به صورت زیر در نظر گرفت.

ψ(x,θ)=θρ(x,θ)=(xθ)22θ=θx\large {\displaystyle \psi (x,\theta )=\nabla _{\theta }\rho (x,\theta )=\dfrac{\partial\frac{(x-\theta)^2}{2}}{\partial \theta}}=\theta-x

برآوردگر M برای میانه

باز هم یک نمونه تصادفی از توزیع FF را به شکل X1,,XnX_1,\ldots,X_n، مستقل و هم‌توزیع در نظر بگیرید. به منظور برآورد میانه (Median) این توزیع، تابع ρ\rho را برای محاسبات بعدی به صورت زیر در نظر می‌گیریم.

ρ(x,θ)=xθ\large {\displaystyle \rho (x,\theta )=|x-\theta |}

به این ترتیب مقدار کمینه برای این تابع در نقطه‌ای حاصل می‌شود که θ\theta میانه XX‌ها باشد. از آنجایی که تابع ρ\rho در این حالت مشتق‌پذیر نیست، می‌توانیم تابع Ψ\Psi را برحسب زیرمشتق تابع در نظر گرفته و به این ترتیب خواهیم داشت:

ψ(x,θ)=sgn(xθ)\large {\displaystyle \psi (x,\theta )=\operatorname {sgn}(x-\theta )}

در نتیجه

$$\large {\displaystyle \psi (x,\theta )={\begin{cases}\{-1\},&{\mbox{if }}x-\theta <0\\\{1\},&{\mbox{if }}x-\theta >0\\\left[-1,1\right],&{\mbox{if }}x-\theta =0\end{cases}}}$$

برآوردگر M برای مدل رگرسیونی

فرض کنید که در یک مدل رگرسیونی خطی عادی (ordinary Least Square Regression Model) بخواهیم پارامترها را برآورد کنیم.

در این حالت تابع ρ\rho را می‌توان به صورت زیر در نظر گرفت.

i=1nρ(yi,β)=i=1n(yij=1kβjxij)2\large \sum_{i=1}^n\rho(y_i,\beta)=\sum_{i=1}^n(y_i-\sum_{j=1}^k\beta_jx_{ij})^2

بوسیله مشتق‌گیری از این تابع به تابع Ψ\Psi خواهیم رسید. پس کافی است که معادله زیر را برای پیدا کردن برآوردگر M پارامترهای β\beta به کار ببریم.

i=1nΨ(yi,β)=i=1nρ(yi,β)β=i=1nΨ(yij=1kβjxij)xij=0\large \sum_{i=1}^n\Psi(y_i,\beta)=\sum_{i=1}^n\dfrac{\partial \rho(y_i,\beta)}{\partial \beta}=\sum_{i=1}^n\Psi(y_i-\sum_{j=1}^k\beta_jx_{ij})x_{ij}=0

حال اگر به جای استفاده از رگرسیون خطی عادی (OLS) یا (Ordinary Least Square Error) که معمولا از توابع خطای مربع زیان (MSE) یا (Mean Square Error) استفاده می‌شود، از تابع حداقل قدر مطلق تفاضل (LAD) یا (Least Absolute Difference) بهره می‌بردیم، به یک برآوردگر M دیگر برای پارامترهای مدل رگرسیونی دست می‌یافتیم.

خلاصه و جمع‌بندی

در این نوشتار به بررسی برآوردگر M یا M-Estimator پرداختیم و انواع آن را مورد بررسی قرار دادیم. همچنین شیوه بدست آوردن آن را براساس یک مثال برای میانگین و میانه جامعه آماری مرور کردیم. با توجه به اینکه ممکن است جامعه آماری، از توزیع نرمال برخوردار نباشد، برآورد پارامترها از طریق برآوردگرهای M دارای استواری (Robust) بیشتری نسبت به به روش‌های عادی برآوردگریابی مانند روش گشتاوری است.

جدول زیر به بررسی چند تابع ρ\rho و نوع تابع اثر پرداخته است. ستون اول تابع زیان و ستون دوم نیز تابع ρ\rho‌ را نشان می‌دهد. همچنین تابع اثر Ψ\Psi نیز در ستون آخر مشخص شده است.

نوع تابع زیانρ(x)\rho(x)Ψ(x)\Psi(x)
مربع خطا (L2L^2)x22\frac{x^2}{2}xx
قدر مطلق خطا (L1L_1)x\mid x\mid sgn(x)\operatorname{sgn}(x)
تابع زیان LpL^pxpp\dfrac{|x|^p}{p}sgn(x)xp1\operatorname{sgn}(x)|x|^{p-1}

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۸ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
مجله فرادرسWikipedia
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *