معیار ارزیابی AIC در مدل های احتمالی — از صفر تا صد

۱۸۹۵ بازدید
آخرین به‌روزرسانی: ۰۸ خرداد ۱۴۰۲
زمان مطالعه: ۹ دقیقه
معیار ارزیابی AIC در مدل های احتمالی — از صفر تا صد

اغلب به منظور ارزیابی مدلی که برای «پدیده‌های تصادفی» (Random Phenomena) ایجاد شده است از شاخص‌هایی استفاده می‌کنیم که براساس داده‌ها و توزیع مقدارهای آن پدیده تصادفی حاصل می‌شود. معمولا شکل همگونی داده‌ها با توزیع مورد نظر را با «تابع درستنمایی» (Likelihood Function) اندازه‌گیری می‌کنند. از طرفی اگر تعداد پارامترهای مدل زیاد باشد ممکن است مدل برای داده‌های موجود به خوبی برازش شده ولی برای داده‌های جدید مناسب نباشد. به این موضوع مسئله «بیش‌برازش» (Overfitting) گفته می‌شود. به این ترتیب با توجه به تاثیر تعداد پارامترها و تابع درستنمایی، معیار ارزیابی AIC یا «معیار ارزیابی اطلاع آیکاکه» (Akaike Information Criterion - AIC) یکی از این شاخص‌ها است که به هر دو معیار برای مناسب بودن مدل توجه داشته و بخصوص در «تئوری اطلاع» (Information Theory) نیز مورد بهره‌برداری قرار می‌گیرد. همانطور که در ادامه مشاهده خواهیم کرد، معیار ارزیابی AIC، نمایانگر میزان اطلاعاتی است که توسط مدل از دست رفته و در نتیجه هر چه مقدار معیار ارزیابی AIC کوچکتر باشد، مدل مورد نظر نسبت به بقیه مدل‌ها، بهتر و مناسب‌تر است.

شاخص AIC توسط دانشمند ژاپنی آمار، «هیروتاگا آکایکه» (Hirotugu Akaike) در سال‌های 1970 برای تشخیص مدل مناسب از بین مدل‌های موجود، معرفی شد و امروز به عنوان یک ابزار مهم در تشکیل و تشخیص مدل‌ها براساس تابع درستنمایی به کار گرفته می‌شود. در این نوشتار به بررسی معیار ارزیابی مدل AIC می‌پردازیم و به کمک مثال‌هایی کاربردهای آن را معرفی می‌کنیم.

Hirotugu Akaike
هیروتاگا آکایکه- Hirotugu Akaike

از آنجایی که در محاسبه AIC باید از تابع درستنمایی استفاده شود، بهتر است برای آشنایی با تابع درستنمایی ابتدا مطلب تابع درستنمایی (Likelihood Function) و کاربردهای آن — به زبان ساده و برای آگاهی از تئوری و نظریه اطلاع نیز نوشتار نظریه اطلاع و بی نظمی — آشنایی و مفاهیم اولیه را بخوانید. همچنین خواندن نوشتارهای معیار واگرایی کولبک لیبلر (Kullback Leibler)— پیاده سازی در پایتون و اعتبار سنجی متقابل (Cross Validation) — به زبان ساده نیز خالی از لطف نیست.

معیار ارزیابی AIC

به عنوان یک شاخص سنجش و انتخاب مدل مناسب، معیار ارزیابی AIC، میزان اطلاعاتی که توسط مدل از دست می‌رود را اندازه‌گیری می‌کند. به این ترتیب AIC یک تعادل بین تعداد پارامترهای مدل (پیچیدگی مدل) و میزان برازش مدل روی داده‌ها ارائه می‌کند. با در نظر گرفتن این موضوع می‌توان گفت مدلی که توسط AIC مدل مناسب تشخیص داده شود، نه دارای «بیش‌برازش» (Overfitting) است و نه از «کم‌برازش» (Underfitting) رنج می‌برد و می‌توان آن را مدلی با برازش مناسب در نظر گرفت.

معیار ارزیابی AIC را می‌توان برآوردگر کیفیت نسبی مدل آماری با توجه به داده‌های جمع‌آوری شده در نمونه تصادفی دانست. به این ترتیب به کمک معیار ارزیابی AIC می‌توان یک «رابطه ترتیبی» (Ordered Relation) بین مدل‌ها، به منظور مقایسه و سنجش برتری بین ‌آن‌ها بدست آورد. بنابراین از این شاخص به منظور انتخاب بهترین مدل از بین مدل‌های آماری موجود می‌توان استفاده کرد.

model selection
مدل‌های مختلف برای بیان توزیع یک مجموعه داده؛ کدامیک مناسب‌تر؟

تعریف و محاسبه AIC

فرض کنید در یک مدل آماری $$k$$ تعداد پارامترهای مدل باشد. اگر $$\widehat{L}$$ را حداکثر تابع درستنمایی برای مدل در نظر بگیریم، معیار ارزیابی AIC توسط رابطه زیر قابل محاسبه است.

$$\large \mathrm {AIC} \,=\,2k-2\ln({\hat {L}})$$

بنابراین مناسب‌ترین مدل برحسب معیار اطلاع آکایکه، دارای کمترین مقدار AIC‌ است. از آنجایی که معیار ارزیابی AIC برحسب حداکثر تابع درستنمایی محاسبه می‌شود، به شکلی «میزان نیکویی برازش» (Goodness of fit) را اندازه‌گیری می‌کند. از طرفی نیز به منظور تعیین جریمه برای تعداد پارامترهای مدل و جلوگیری از پیچیدگی آن از $$k$$‌ نیز کمک گرفته شده است. مشخص است که هر چه مقدار $$k$$ یعنی تعداد پارامترهای مدل، بیشتر باشد، مقدار AIC نیز بزرگتر در نتیجه میزان اطلاعاتی که توسط مدل نادیده گرفته شده است، بیشتر خواهد بود. بنابراین مدلی که بتواند کمترین میزان پیچیدگی و در عین حال بیشترین میزان برازش را داشته باشد، مدل مناسب تشخیص داده خواهد شد.

همانطور که گفته شد معیار AIC، به صورت نسبی عمل می‌کند و نمی‌توان صرفا با اندازه‌گیری معیار ارزیابی AIC برای یک مدل، تشخیص داد که بهترین مدل حاصل شده است، بلکه AIC مدل را باید با AIC مدل‌های دیگر که به نظر مناسب می‌رسند، مقایسه کرده و بهترین مدل را از بین مدل‌های موجود براساس کمترین مقدار AIC‌ انتخاب کرد.

فرض کنید داده‌هایی توسط یک فرآیند نامشخص به نام $$f$$ تولید شده است. می‌خواهیم مدل تولید این داده‌ها یعنی تابع چگالی احتمال برای فرآیند تولید داده‌ها را مشخص کنیم. در این بین، دو مدل (یا تابع احتمال) $$g_1$$ و $$g_2$$ به ما معرفی شده‌اند. می‌خواهیم از بین این دو مدل یا تابع چگالی، مناسب‌ترین مدل را برای داده‌ها یا فرآیند تولید آن‌ها (یعنی $$f$$) انتخاب کنیم.

اگر تابع چگالی $$f$$‌ از قبل مشخص شده باشد، به راحتی می‌توان به کمک «میزان واگرایی کولبک-لیبرل» (Kullback-Liebrel) برای هر دو تابع چگالی $$g_1$$ و $$g_2$$ مقدارها‌ی $$D_{KL}(f||g_1)$$ و $$D_{KL}(f||g_۲)$$ را محاسبه کرده و میزان اطلاعاتی که توسط چگالی‌های $$g_1$$ و $$g_2$$ از بین می‌رود را اندازه‌گیری کرده، سپس تابع چگالی با کمترین میزان کولبک-لیبرل را به عنوان بهترین مدل انتخاب و معرفی نمود. همانطور که می‌دانید، معیار کولبک-لیبرل به عنوان ابزاری برای مطابقت دو توزیع به کار گرفته می‌شود که در صورت معلوم بودن $$f$$ به خوبی مسئله انتخاب توزیع مناسب را حل می‌کند.

ولی مشکلی که معمولا با آن مواجه هستیم، نامشخص بدون مکانیسم یا فرآیند تولید داده‌ها است، در حقیقت ما از توزیع $$f$$‌ اطلاع نداریم و تنها باید به داده‌های حاصل از نمونه‌گیری از این توزیع اکتفا کنیم. در نتیجه در این حالت، امکان استفاده از میزان واگرایی کولبک-لیبرل وجود ندارد. خوشبختانه معیار AIC می‌تواند برآوردی از مقدار اطلاعات از دست رفته توسط مدل یا چگالی‌های $$g_1$$ و

$$g_2$$  بدون آگاهی از فرآیند تولید داده‌ها یعنی $$f$$‌ و در اختیارمان قرار دهد و فقط به داده‌ها تکیه داشته باشد.

فرض کنید که سه مدل با مقدار AIC مختلف به صورت AIC1 ،AIC2 ،AIC3 وجود دارند. همچنین در نظر بگیرید که AICmin کوچکترین مقدار این سه معیار باشد. دراین صورت می‌تون رابطه زیر را به عنوان احتمال کمینه‌سازی میزان از دست دادن اطلاعات برای مدل iام در نظر گرفت.

$$\large \exp \left(\dfrac{(AIC_{min}-AIC_i)}{2}\right) $$

رابطه ۱

به این ترتیب اگر میزان AIC برای سه مدل به ترتیب برابر با 100 و102 و 110 باشد، مدل دوم حدود $$\exp(100-102)/2=0.368$$ برابر بیشتر از مدل اول محتمل است که میزان از دست رفتن اطلاعات را کمینه کند. همچنین مدل سوم نسبت به مدل اول حدود $$\exp((100-110)/2)=0.007$$ برابر بیشتر احتمال دارد که میزان از دست دادن اطلاعات را حداقل ممکن کند.

مقداری که توسط رابطه ۱ حاصل می‌شود، به عنوان «میزان درستنمایی نسبی مدل»  (Relative Likelihood) برای مدل i نامیده می‌شود. به نظر می‌رسد که این مقدار ارتباط نزدیکی با «نسبت درستنمایی» (Likelihood Ratio) و «آزمون نسبت درستنمایی» (Likelihood Ratio Test) دارد. به این معنی که اگر همه مدل‌های مورد نظر دارای تعداد پارامترهای یکسانی باشند، استفاده از معیار AIC درست به مانند استفاده از آزمون نسبت درستنمایی است.

کاربردهای معیار ارزیابی AIC در آزمون فرض آماری

هر آزمون فرض آماری را می‌توان به صورت مقایسه مدل‌های آماری مختلف در نظر گرفت. به این ترتیب برای اجرای آزمون فرض آماری، معیار ارزیابی AIC نیز قابل استفاده خواهد بود.

آزمون فرض میانگین دو جامعه مستقل

فرض کنید که قرار است میانگین دو جامعه آماری مستقل را با یکدیگر مقایسه کنیم. برای انجام این کار از آزمون t-test یا آزمون مقایسه میانگین دو جامعه مستقل کمک می‌گیریم. فرض بر این است که هر دو جامعه دارای توزیع نرمال بوده ولی در پارامترهای میانگین و واریانس با یکدیگر متفاوت هستند. تابع درستنمایی برای یک نمونه $$n_1$$ تایی از جامعه اول و نمونه $$n_2$$‌ تایی از جامعه دوم به شکل زیر نوشته می‌شود.

$$\large \begin{align}{\mathcal {L}}(\mu _{1},\sigma _{1},\mu _{2},\sigma _{2})&=\\&\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}\right) \end{align}$$

مدل دیگری که برای داده‌ها در نظر می‌گیریم، توزیع نرمال برای هر دو جامعه با میانگین‌های برابر ولی واریانس‌های متفاوت است. در این صورت می‌توان تابع درستنمایی برای چنین مدلی را به صورت زیر نوشت.

$$\large \begin{align}{\mathcal {L}}(\mu ,\sigma _{1},\sigma _{2})&=\\&\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu)^{2}}{2\sigma _{2}^{2}}}\right) \end{align}$$

زمانی که داده‌ها را درون تابع درستنمایی قرار داده و لگاریتم تابع درستنمایی را حداکثر می‌کنیم به راحتی می‌توان مقدار AIC را بدست آورد. به این ترتیب زمانی که درستنمایی نسبی برای مدل دوم تقریبا 0.01 نسبت به مدل اول باشد، یعنی مدل دوم تقریبا 0.01 برابر نسبت به مدل اول محتمل‌تر است که میزان از دست دادن اطلاعات را کمینه کند. در این صورت می‌توان رای به صحیح بودن مدل اول داد. بنابراین به نظر می‌رسد که میانگین دو جامعه از لحاظ آماری دارای اختلاف معنی‌داری هستند.

آزمون فرض نسبت برای دو جامعه یا دو متغیر طبقه‌ای

به عنوان یک مثال دیگر فرض کنید که دو جامعه وجود دارد که اعضای آن‌ها یا به گروه یک تعلق دارند یا به گروه دو. برای مثال فرض کنید در دو جامعه زنان و مردان، کسانی که دارای گواهینامه رانندگی هستند در گروه یک و کسانی که گواهینامه رانندگی دریافت نکرده‌اند در گروه دوم طبقه‌بندی شده‌اند.

مشاهدات مربوط به این دو گروه از توزیع دوجمله‌ای گرفته شده‌اند. لازم است به کمک آزمون فرض مشخص کنیم که آیا این دو جامعه یکسان هستند یا خیر. یا به بیان دیگر می‌خواهیم نشان دهیم که نسبت کسانی که دارای گواهینامه هستند در هر دو جامعه زنان و مردان یکسان است و این نسبت به جنسبت بستگی ندارد.

فرض کنید که تعداد نمونه از جامعه اول برابر با $$m$$ باشد. مشخص شده است که اگر $$m_1$$ تا از آن‌ها متعلق به گروه اول یک باشند $$m-m_1$$ تعداد اعضای گروه دوم در نمونه را نشان می‌دهد . همچنین در جامعi دوم نیز اگر $$n$$ نمونه تهیه شده باشد، $$n_1$$ را تعداد مشاهدات در گروه ۱ و $$n-n_1$$ را تعداد مشاهدات در گروه دوم از جامعه دوم می‌نامیم.

همچنین در نظر بگیرید که $$p$$‌ احتمال آن است که یک فرد از جامعه اول (جامعه زنان) در گروه یک (دارای گواهینامه) باشد. در نتیجه احتمال آنکه فردی از جامعه اول (جامعه زنان) در گروه دوم (بدون گواهینامه) قرار گیرد برابر با $$1-p$$ خواهد بود. به این ترتیب تابع توزیع در جامعه اول فقط دارای یک پارامتر است.

به طور مشابه $$q$$ را احتمال آن در نظر می‌گیریم که در جامعه دوم (جامعه مردان)، فردی متعلق به گروه یک (دارای گواهینامه) باشد و به طور مشابه $$1-q$$ نیز احتمال آن را نشان می‌دهد که فرد از جامعه دوم (مردان) در گروه دوم (بدون گواهینامه) باشد. دیده می‌شود که تابع توزیع احتمال برای جامعه دوم نیز به صورت تک پارامتری است.

به منظور مقایسه توزیع این دو جامعه دو مدل متفاوت ایجاد کرده‌ایم. در مدل اول، فرض بر این است که دو جامعه دارای توزیع متفاوتی هستند، یعنی $$p \neq q$$. در این صورت تابع درستنمایی به صورت حاصلضرب دو توزیع دوجمله‌ای با پارمترهای $$m,p$$ و $$n,q$$ خواهد بود.

$$\large \begin{align}{\mathcal {L}}(p,q)&\\=&\,{\frac {m!}{m_{1}!(m-m_{1})!}}p^{m_{1}}(1-p)^{m-m_{1}}\;\,{\boldsymbol {\cdot }}\;\;{\frac {n!}{n_{1}!(n-n_{1})!}}q^{n_{1}}(1-q)^{n-n_{1}} \end{align}$$

مدل دوم را به صورتی در نظر می‌گیریم که احتمال گواهینامه داشتن در هر دو جامعه یکسان باشد به این ترتیب خواهیم داشت $$p=q$$، پس تابع درستنمایی به شکل زیر نوشته خواهد شد.

$$\large \begin{align}{\mathcal {L}}(p)&\\=&\,{\frac {m!}{m_{1}!(m-m_{1})!}}\cdot\,{\frac {n!}{n_{1}!(n-n_{1})!}}p^{m_{1}+n_1}(1-p)^{m+n-(m_{1}+n_1)}\end{align}$$

معیار اصلاح شده AICc

زمانی که اندازه نمونه کوچک باشد، معیار ارزیابی مدل AIC ممکن است به سمت مدلی با تعداد پارامترهای بیشتر تمایل پیدا کند. به این معنی که مشکل بیش‌بردازش رخ دهد. به منظور حل چنین مشکلی، بهتر است که تعداد مشاهدات $$n$$ نیز در محاسبه AIC به کار گرفته شود.

به این ترتیب معیار اصلاح شده AIC با هدف رفع چنین مشکلی، معرفی شده است. کافی است محاسبات زیر را برحسب AIC انجام دهیم.

$$\large {\displaystyle \mathrm {AICc} \,=\,\mathrm {AIC} +{\frac {2k^{2}+2k}{n-k-1}}}$$

رابطه ۲

مشخص است که عبارت دوم در طرف راست تساوی به منظور تصحیح اندازه نمونه‌های کوچک ایجاد شده است. همانطور که دیده می‌شود، فرمول محاسبه AICc با در نظر گرفتن یک عبارت جریمه با توجه به تعداد پارامترها و مقدار اصلی AIC تعیین شده. به این معنی که با افزایش تعداد پارامترهای مدل، مقدار AICc نیز بزرگتر خواهد شد که این امر نشانگر آن است که مدل میزان اطلاعات بیشتری را با پارامترهای بیشتر (با فرض ثابت بودن AIC) از دست خواهد داد. از طرفی با افزایش تعداد مشاهدات $$n$$ مقدار این جریمه کاهش می‌یابد.

نکته: زمانی که اندازه نمونه بزرگ باشد $$n\to \infty$$، شاخص AICc‌ به سمت AIC میل خواهد کرد.

ولی متاسفانه محاسبه معیار اصلاح شده AICc با توجه به نوع توزیع و فرضیات مدل ممکن است به شکل‌های مختلفی انجام شود به این ترتیب اگر توزیع نرمال نبوده و مدل نیز تک متغیره نباشد، ممکن است رابطه ۲ به شکل‌های دیگری محاسبه شده و یا به کار گرفته شود.

شمارش تعداد پارامترها

منظور از یک مدل آماری، پیدا کردن رابطه‌ای است که بیشترین برازش را روی داده‌ها داشته باشد. اغلب چنین کاری را می‌توان براساس یک متغیر وابسته و مستقل نیز با شیوه رگرسیون خطی انجام داد. در این حالت رابطه بین متغیر وابسته و مستقل براساس معادله یک خط و به شکل زیر بیان می‌شود.

$$\large y_i=b_0+b_1x_i+\epsilon_i$$

به نظر می‌رسد که در این مدل، یک متغیر مستقل وجود داشته و پارامتر مدل $$b_1$$ است. پس هنگام محاسبه AIC باید $$k = 1$$‌ در نظر گرفته شود. ولی هنگامی که چنین مدل رگرسیونی برآورد می‌شود، پارامترهای دیگر مانند واریانس باقی‌مانده $$\widehat{\sigma^2}$$ و البته $$b_0$$‌ به عنوان عرض از مبدا نیز باید محاسبه شده و نسبت به آن نیز آزمون صورت گیرد. بنابراین اگر تعداد متغیرهای مستقل یک مدل رگرسیونی برابر با $$m$$ باشد، تعداد پارامترها در محاسبه AIC در چنین مدل‌هایی به صورت $$k=m+2$$ خواهد بود.

همچنین فرض کنید که در یک مدل سری زمانی که به صورت «اتورگرسیو» (Autoregressive) در نظر گرفته شده است، رابطه زیر (مدل اتورگرسیو مرتبه ۱) نوشته شده است.

$$x(t)=a_0+a_1x(t-1)+Z(t)$$

در نگاه اول به نظر می‌رسد که تعداد پارامترها در چنین مدل سری زمانی برابر با ۲ است. در حالیکه تعداد پارامترها برای محاسبه AIC باید ۳ در نظر گرفته شود زیرا واریانس باقی‌مانده‌ها ($$Z(t)$$) نیز یکی دیگر از پارامترهایی است که در روند تحلیل سری زمانی، باید برآورد شود.

اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزش‌هایی که در ادامه آمده‌اند نیز برایتان کاربردی خواهند بود.

^^

بر اساس رای ۱۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
۳ دیدگاه برای «معیار ارزیابی AIC در مدل های احتمالی — از صفر تا صد»

با سپاس از توضیحات شما،
برای محاسبه QAIC مربوط به مدل از خانواده quasipoisson، تعداد پارامترهای مدل را چگونه متوجه شویم؟

ممنون از توضیحات خوبتون.
پس بنابراین تعداد پارامتر ها در رگرسیون خطی چندگانه برابر با عرض از مبدا به علاوه ضرایب تابعیت اون مدل هستنش؟

درود به شما همراه گرامی،
بله همان طور که اشاره شد، تعداد پارامترهای برآورد شده در مدل رگرسیونی ملاک است. در این بین میانگین کل (عرض از مبدا) به همراه برآورد واریانس نیز در تعداد پارامترها باید لحاظ شوند.

همواره پیروز و تندرست باشید.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *