درجه آزادی در آمار — مفاهیم و کاربردها

۱۴۳۸۱ بازدید
آخرین به‌روزرسانی: ۳۰ خرداد ۱۴۰۲
زمان مطالعه: ۱۳ دقیقه
دانلود PDF مقاله
درجه آزادی در آمار — مفاهیم و کاربردهادرجه آزادی در آمار — مفاهیم و کاربردها

درجه آزادی در آمار (Degree of Freedom) بیانگر تعداد مقادیری است که در یک محاسبه مرتبط با شاخص یا برآوردگرهای آماری، می‌توانند آزادانه تغییر کنند. این مفهوم در بسیاری از موضوعات و حوزه‌های علم آمار مورد استفاده قرار می‌گیرد. برای مثال درجه آزادی در توزیع نمونه‌ای فیشر (Fisher Distribution) یا در برآوردگر واریانس جامعه آماری، مشخص بوده و در توصیف جامعه آماری به کار می‌رود. این مفهوم مانند بعضی از دیگر مفاهیم آماری، از فیزیک به عاریت گرفته شده است. در فیزیک به تعداد روش‌هایی که یک سیستم پویا (Dynamic System) می‌تواند بدون نقض هیچ شرطی، تغییر کند، درجه آزادی گفته می‌شود. در حقیقت درجه آزادی را می‌توان حداقل تعداد مختصات عمود بر هم و مستقلی در نظر گرفت که موقعیت یک سیستم را به طور کامل شناسایی و بیان می‌کنند.

997696

در آمار نیز برآوردگرهای مربوط به پارامترهای جامعه آماری نیز برحسب داده‌ها بیان می‌شوند. تعداد مشاهدات یا داده‌هایی که هنگام برآورد پارامتر می‌توانند بدون هیچ قید و شرطی، مقدارهای متفاوتی داشته باشند، درجه آزادی خوانده می‌شوند. باز هم در اینجا تعداد امتیازات (Scores) مستقل، درجه آزادی خواهند بود. برای مثال درجه آزادی برای توزیع برآورد واریانس جامعه آماری که براساس یک نمونه nn تای حاصل می‌شود برابر با n1n-1‌ است. زیرا هنگام محاسبه این برآوردگر، میانگین جامعه آماری باید در ابتدا برآورد شود. این امر باعث می‌شود که یک قید روی همه مشاهده‌ها منظور شود. به این معنی که مجموعه آن‌ها ثابت است. در نتیجه هنگام محاسبه برآوردگر واریانس، همه مقادیر به جز یکی از آن‌ها می‌توانند آزادانه تغییر کرده و مقادیر متفاوتی اختیار کنند. به همین علت گاهی درجه آزادی را از تفاضل تعداد برآوردگرهای مورد استفاده و تعداد مشاهدات بدست می‌آورند.

برای آشنایی بیشتر با اصطلاحات به کار رفته در این متن بهتر است ابتدا مطالب توزیع های آماری F و T — مفاهیم و کاربردها و آماره‌ کامل و آماره کمکی — به زبان ساده را مطالعه کنید. همچنین خواندن نوشتارهای آماره‌های بسنده (Sufficient Statistics) و آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات که به مباحث برآوردیابی می‌پردازند، توصیه می‌شود.

درجه آزادی در آمار

در ریاضیات، درجه آزادی، تعداد ابعادی است که یک بردار تصادفی را در حوزه مورد بحث نشان می‌دهد. به بیان دیگر می‌توان درجه آزادی را تعداد مولفه‌های آزاد برای یک بردار تصادفی در نظر گرفت. این امر به این معنی است که چند مولفه لازم است تا بردار به شکل کامل، مشخص و نسبت به بردارهای دیگر متمایز شود.

واژه درجه آزادی، بیشتر در مباحث مربوط به مدل‌های خطی مانند رگرسیون و تحلیل واریانس به کار می‌رود. در این حوزه‌ها، بردارهای تصادفی مقید به قرارگیری در یک زیرفضای خطی (Linear Subspace) هستند و تعداد ابعاد این زیر فضا، درجه آزادی را نشان می‌دهد.

گاهی درجه آزادی را برحسب مربع طول (یا مجموع مربعات) چنین بردارهایی مشخص می‌کنند. برای مثال پارامتر توزیع کای ۲ (Chi Square) یا توزیع‌هایی دیگری که برحسب آن ساخته شده و در آزمون‌های آماری به کار می‌روند، براساس طول چنین بردارهایی است.

در این متن فارغ از مباحثی که در کتاب‌های تدریسی آمار، درباره درجه آزادی گفته شده، به موضوع هندسی و برداری درجه آزادی خواهیم پرداخت و خصوصیات آن را مورد بررسی قرار می‌دهیم.

تاریخچه و معرفی درجه آزادی

مفهوم درجه آزادی و به کارگیری ان به سال ۱۸۲۱ میلادی باز می‌گردد. در این سال ستاره‌شناس و ریاضیدان بزرگ آلمانی «کارل گاوس» (Carl Freidrich Gauss) از آن برای نشان دادن تعداد مشاهدات برای محاسبه برآوردگر واریانس استفاده کرد.

تعریف مدرن درجه آزادی نیز به آمارشناس انگلیسی «ویلیام گوزت» (William Sealy Gosset) و مقاله او در مجله Biometrika در سال ۱۹۰۸ باز می‌گردد. او به مفهوم امروزی در مقاله‌اش با نام «خطای محتمل میانگین» (The Probable Error of a Mean) که با نام مستعار Student منتشر کرد به توصیف و بررسی توزیع نرمال (Normal Distribution) و توزیع تی (t- Distribution) پرداخت و از درجه آزادی برای این توزیع استفاده کرد.

William Gosset
تصویر ۱: ویلیام گوزت، معرف توزیع تی در آمار

ولی کسی که درجه آزادی را به صورت عمومی و به شکلی که امروزه شناخته می‌شود، اشاعه داد، کسی جز دانشمند انگلیسی آمار، «رونالد فیشر» (Ronald Fisher) نبود که در سال ۱۹۲۲ با معرفی توزیع کای ۲ (Chi Square Distribution)، مفهوم درجه آزادی را برای بسیاری از توزیع‌های آماری به کار برد.

او برای نمایش درجه آزادی از حرف nn استفاده کرد ولی امروزه در بیشتر مواقع از nn برای نمایش حجم نمونه استفاده می‌کنیم. گاهی در جدول‌ها و متن‌های آماری برای نمایش درجه آزادی از مخفف عبارت یعنی d.f.d.f. استفاده می‌شود. ولی آنچه که معمول است به کارگیری علامت حرف یونانی «نو» (ν\nu) برای نمایش درجه آزادی در فرمول‌ها و جدول‌های آماری است.

ronald fisher
تصویر ۲: رونالد فیشر، آمارشناس انگلیسی

درجه آزادی از دیدگاه بردارهای تصادفی

همانطور که قبلا نیز اشاره کردیم، در هندسه برداری و فیزیک، درجه آزادی به عنوان ابعاد زیرفضای مشخص‌کننده بردارها، در نظر گرفته می‌شود. برای توضیح بیشتر این موضوع و بهره‌گیری از آن در مباحث آماری، یک نمونه تصادفی nn تایی X1,X2,,XnX_1, X_2, \ldots,X_n از توزیع نرمال را در نظر بگیرید.

این نمونه تصادفی را به صورت یک بردار نمایش می‌دهیم.

(X1Xn)\large {\begin{pmatrix}X_{1}\\ \vdots \\ X_{n}\end{pmatrix}}

از آنجایی که این بردار می‌تواند در این فضای برداری nn بُعدی در هر جایی قرار گیرد، درجه آزادی آن برابر با nn است.

این بار میانگین نمونه‌ای (Sample Mean) یا X\overline{X} را در نظر بگیرید. بردار تصادفی را به شکلی که در ادامه می‌بینید برحسب میانگین نمونه‌ای خواهیم نوشت:

(X1Xn)=Xˉ(11)+(X1XˉXnXˉ)\large {\begin{pmatrix}X_{1}\\\vdots \\X_{n}\end{pmatrix}}={\bar {X}}{\begin{pmatrix}1\\\vdots \\1\end{pmatrix}}+{\begin{pmatrix}X_{1}-{\bar {X}}\\\vdots \\X_{n}-{\bar {X}}\end{pmatrix}}

رابطه ۱

اولین بردار در سمت راست رابطه ۱، یک بردار از مقادیر یک است که در X\overline{X} ضرب شده و فقط مقدار X\overline{X} آزادانه تغییر می‌کند. در نتیجه درجه آزادی برای این عبارت برابر با ۱ است.

بردار دوم در سمت راستی تساوی رابطه ۱، دارای یک قید است. همانطور که می‌دانید با توجه به تعریف میانگین رابطه زیر همیشه برقرار است. پس مجموع فاصله مقادیر نسبت به میانگین برابر با صفر است.

i=1n(XiX)=0\large \sum_{i=1}^n (X_i-\overline{X}) = 0

در نتیجه n1n-1 مقدار می‌توانند هر مقداری داشته باشند و یکی از مقادیر قابلیت تغییرات آزاد را نخواهد داشت. در نتیجه درجه آزادی بردار دوم برابر با n1n-1 است.

از جنبه ریاضیاتی، بردار اول، یک بردار عمود (Orthogonal) یا تصویر کمترین مربعات (Least-square Projection) روی زیرفضای حاصل از بردار یکه است. همانطور که دیدید درجه آزادی این بردار برابر با ۱ است. بردار باقی‌مانده‌ها که در جمله دوم دیده می‌شود، تصویر کمترین مربعات تصویر شده روی زیرفضای مکمل عمودی با ابعاد n1n-1 است در نتیجه درجه آزادی آن n1n-1 خواهد بود.

در حوزه آزمون‌های آماری، ممکن است به مقادیر مربعات طول این بردارها احتیاج داشته باشیم. برای مثال مجموع مربعات خطا (Residual sum of Squares) را برای بردار بالا در نظر بگیرید.

i=1n(XiXˉ)2=X1XˉXnXˉ2\large \sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}={\begin{Vmatrix}X_{1}-{\bar {X}}\\\vdots \\X_{n}-{\bar {X}}\end{Vmatrix}}^{2}

اگر مشاهدات یعنی XiX_iها، دارای توزیع نرمال با میانگین صفر و واریانس σ2\sigma^2 باشد، مجموع مربعات خطا دارای توزیع کای ۲ (Chi Square Distribution) با n1n-1 درجه آزادی خواهد بود. البته توجه داشته باشید که این مجموع توسط نرمال سازی بوسیله معکوس ضریب σ2\sigma^2 انجام شده است.

درجه آزادی که در اینجا همان پارامتر توزیع است، باز هم بوسیله زیرفضای برداری قابل تفسیر است. همچنین آماره آزمون تی تک نمونه‌ای (One-sample t-test) که دارای n1n-1 درجه آزادی است همین گونه تفسیر خواهد شد. نحوه محاسبه این آماره را در ادامه مشاهده می‌کنید.

n(Xˉμ0)i=1n(XiXˉ)2/(n1)\large {\frac {{\sqrt {n}}({\bar {X}}-\mu _{0})}{\sqrt {\sum \limits _{i=1}^{n}(X_{i}-{\bar {X}})^{2}/(n-1)}}}

رابطه ۲: آماره آزمون تی تک نمونه‌ای

آماره آزمون مربوط به رابطه ۲، زمانی که فرض صفر صحیح باشد (یعنی μ0\mu_0 میانگین جامعه آماری باشد)، دارای توزیع t با n1n-1 درجه آزادی است

درجه آزادی در مدل‌‌های معادلات ساختاری

زمانی که نتایج معادلات ساختاری (Structural Equation Models) یا به اختصار SEM ارائه می‌شود، گزارشات حاصل شامل چندین شاخص برای نشان دادن میزان برازش مدل است که معمولا توزیع این شاخص‌ها، کای ۲ (χ2\chi^2) است. به همین دلیل درجه آزادی برای نسبت‌های دیگر که از توزیع کای ۲ استخارج می‌شوند نیز ضروری است.

درجه آزادی در مدل‌های SEM به شکل خاصی محاسبه می‌شود. معمولا تعداد مشاهدات یا واحدهای اطلاعاتی که توسط ورودی در مدل به کار رفته‌اند، مبنا قرار گرفته و از این مقدار، تعداد پارامترهای برآورد شده در مدل، کاسته می‌شود. برای مثال در تحلیل عاملی تاییدی تک عاملی (One-factor Confirmatory Factor Analysis) با چهار سطح برای عامل، تعداد ۱۰ پارامتر معلوم وجود دارد (شش پارامتر مربوط به کواریانس بین متغیرها و چهار پارامتر نیز مربوط به واریانس یا عناصر قطر اصلی ماتریس واریانس-کوواریانس است). در این بین هشت پارامتر نیز  نامعلوم هستند که ۴ تا از آن‌ها مربوط به بارهای عاملی (Factor Loads) و چهار تا هم مربوط به واریانس خطای هر سطح از عامل است. در نتیجه درجه آزادی از طریق تفاضل تعداد پارامترهای معلوم از مجهول حاصل می‌شود که برابر با 108=210 - 8 = 2 است.

درجه آزادی در برازش مدل‌های SEM نقش مهمی دارد، بطوری که هر چه درجه آزادی توزیع کای ۲ در مدل‌های SEM کمتر باشد، عمل برازش بهتر صورت گرفته است.

در مدل‌های SEM بر اساس باقی‌مانده‌ها (Residuals) هم می‌توان درجه آزادی را تفسیر کرد. به این ترتیب درجه آزادی، تعداد مشاهداتی است که بطور مستقل از دیگران می‌توانند مقدار اختیار کرده و برای محاسبه پارامتر جامعه آماری به کار روند.

فرض کنید دو مشاهده یا دو نمونه تصادفی از یک جامعه در اختیارمان قرار گرفته است و می‌خواهیم میانگین را محاسبه کنیم. واضح است که هر دو مقدار بی هیچ قیدی (البته محدودیت‌های که توزیع جامعه آماری برای این دو نمونه دارند را در نظر نمی‌گیریم.) تغییر کرده و هر مقداری را اختیار کنند. ولی زمانی که بخواهیم واریانس جامعه را برآورد کنیم، فقط یکی از آن‌ها قادر است آزادانه مقدار بگیرد، زیرا فاصله هر یک از آن‌ها دارای فاصله یکسانی از میانگین هستند. پس اگر مشاهده اول دارای فاصله‌ای برابر با ۵ از میانگین باشد، نقطه دوم هم باید به گونه‌ای تعیین شود که فاصله آن از میانگین برابر با 5- باشد تا مجموع فاصله از میانگین برای آن‌ها صفر شود.

در این زمینه به یک مثال توجه کنید.

مثال ۱

یک نمونه تصادفی nn تایی را به شکل زیر در نظر بگیرید. مشخص است که هر یک از آن‌ها یک متغیر تصادفی هستند.

X1,,Xn\large X_{1},\dots ,X_{n}

فرض کنید میانگین جامعه آماری که این نمونه از آن گرفته شده برابر با μ\mu است. آماره میانگین نمونه‌ای Xn\overline{X}_n را هم برآورد این میانگین در نظر بگیرید. مقادیر مختلف برحسب فاصله از میانگین نیز به شکل زیر خواهند بود.

XiXn\large X_{i}-{\overline {X}}_{n}

از این مقادیر باقی‌مانده برای برآورد خطاهای XiμX_i-\mu استفاده می‌کنیم. مجموع باقی‌مانده‌ها ضرورتا برابر با صفر است ولی توجه داشته باشید که مجموع خطاها (یعنی XiμX_i - \mu)، لزوما صفر نیست. به این ترتیب اگر کسی همه n1n-1 مقدار از باقی‌مانده‌ها را بداند، می‌تواند مقدار nnام از باقی‌مانده را هم محاسبه کند در نتیجه بردارهای مستقل در این فضای برداری، دارای ابعاد n1n-1 هستند که به آن درجه آزادی گفته می‌شود.

مثال ۲

در این مثال به کمک یک مدل خطی سعی در برآورد پارامترهای یک رابطه رگرسیونی به کمک روش کمترین مربعات خطا (OLS) هستیم. مدل خطی را به شکل زیر در نظر بگیرید که براساس nn مشاهده تشکیل خواهد شد.

Yi=a+bxi+ei for i=1,,n\large Y_{i}=a+bx_{i}+e_{i}{\text{ for }}i=1,\dots ,n

در این رابطه aa و bb پارامترهای مدل و به ترتیب عرض از مبدا و شیب خط رگرسیون نامیده می‌شوند. با توجه به اطلاعاتی که در مورد مدل رگرسیونی داریم، xx شامل مقادیر عددی بوده ولی eie_i یک عبارت یا متغیر تصادفی است، در نتیجه YiY_i هم یک متغیر تصادفی خواهد بود.

برآورد پارامترهای مدل را هم به ترتیب a^\widehat{a} و b^\widehat{b} نامیده و برآورد باقی‌مانده را هم با ei^\widehat{e_i} مشخص کرده‌ایم. در این صورت برآورد باقی‌مانده به شکل زیر انجام می‌شود.

e^i=yi(a^+b^xi)\large {\displaystyle {\widehat {e}}_{i}=y_{i}-({\widehat {a}}+{\widehat {b}}x_{i})\,}

البته در روش OLS مقدار برآورد باقی‌مانده‌ها دارای دو قید یا محدودیت است:

e^1++e^n=0,x1e^1++xne^n=0.\large {\displaystyle {\widehat {e}}_{1}+\cdots +{\widehat {e}}_{n}=0,\,} \\ \large {\displaystyle x_{1}{\widehat {e}}_{1}+\cdots +x_{n}{\widehat {e}}_{n}=0.\,}

در نتیجه با توجه به برآورد دو پارامتر (یا وجود دو قید)، درجه آزادی برای میزان خطا برابر با n2n-2 خواهد بود. همین موضوع را به رگرسیون چند گانه نیز می‌توان گسترش داد.

برای مدل رگرسیون چندگانه (Multiple Regression) با pp پارامتر (p1p-1 متغیر مستقل)، درجه آزادی برای باقی‌مانده‌ها برابر با npn-p خواهد بود. واضح است که در این میان p1p-1 پارامتر به همراه یک میانگین کل باید برآورد شوند پس درجه آزادی پارامترها برابر با pp و درجه آزادی برای برآورد خطا، npn-p خواهد بود.

درجه آزادی در مدل‌های خطی

توزیع‌های تی و کای ۲، مثال‌های ساده‌ از توزیع‌هایی هستند که درجه آزادی در آن‌ها نقش دارد. ولی جبر خطی و محاسبات برداری در نظریه مدل‌های خطی بخصوص رگرسیون (Linear Regression) و تحلیل واریانس (ANOVA)، نقش مهم‌تری در تفهیم درجه آزادی دارند.

در این بخش به بررسی و مقایسه سه میانگین پرداخته و آزمون آماری متناسب با آن را به کمک هندسه مربوط به مدل‌های خطی، اجرا می‌کنیم.

فرض کنید که مشاهدات مستقل از سه جامعه به شکل X1,,Xn;Y1,,Yn{\displaystyle X_{1},\ldots ,X_{n}}; {\displaystyle Y_{1},\ldots ,Y_{n}} و همچنین Z1,,Zn{\displaystyle Z_{1},\ldots ,Z_{n}} در اختیار داریم. قیدی که مرتبط با این سه گروه وجود دارد، همسان بودن تعداد مشاهدات در هر گروه است که البته به منظور ساده‌سازی و یکسان شدن نمادها در نظر گرفته شده است.

این مشاهدات را به شکل زیر می‌توانیم برحسب میانگین‌های هر دسته و میانگین کل دسته‌بندی و تفکیک (Decomposition) کنیم.

Xi=Mˉ+(XˉMˉ)+(XiXˉ)Yi=Mˉ+(YˉMˉ)+(YiYˉ)Zi=Mˉ+(ZˉMˉ)+(ZiZˉ)\large {\begin{aligned}X_{i}&={\bar {M}}+({\bar {X}}-{\bar {M}})+(X_{i}-{\bar {X}})\\Y_{i}&={\bar {M}}+({\bar {Y}}-{\bar {M}})+(Y_{i}-{\bar {Y}})\\Z_{i}&={\bar {M}}+({\bar {Z}}-{\bar {M}})+(Z_{i}-{\bar {Z}})\end{aligned}}

رابطه ۳: تفکیک بردار تصادفی سه جامعه یا گروه مستقل

توجه داشته باشید که در رابطه بالا منظور از X\overline{X} و Y\overline{Y} همچنین Z\overline{Z}، میانگین هر یک از گروه‌ها یا دسته‌ها است. از طرفی برای محاسبه میانگین کل که با نماد M\overline{M} مشخص شده از رابطه زیر کمک گرفته‌ایم. واضح است که میانگین کل براساس 3n3n مشاهده حاصل شده است.

M=(X+Y+Z)/3\large \overline{M} = ( \overline{X} + \overline{Y} + \overline{Z} ) / 3

این روابط و تجزیه‌ها به شکل زیر برحسب بردارهای تصادفی نوشته شده‌اند.

(X1XnY1YnZ1Zn)=Mˉ(111111)+(XˉMˉXˉMˉYˉMˉYˉMˉZˉMˉZˉMˉ)+(X1XˉXnXˉY1YˉYnYˉZ1ZˉZnZˉ)\large {\begin{pmatrix}X_{1}\\\vdots \\X_{n}\\Y_{1}\\\vdots \\Y_{n}\\Z_{1}\\\vdots \\Z_{n}\end{pmatrix}}={\bar {M}}{\begin{pmatrix}1\\\vdots \\1\\1\\\vdots \\1\\1\\\vdots \\1\end{pmatrix}}+{\begin{pmatrix}{\bar {X}}-{\bar {M}}\\\vdots \\{\bar {X}}-{\bar {M}}\\{\bar {Y}}-{\bar {M}}\\\vdots \\{\bar {Y}}-{\bar {M}}\\{\bar {Z}}-{\bar {M}}\\\vdots \\{\bar {Z}}-{\bar {M}}\end{pmatrix}}+{\begin{pmatrix}X_{1}-{\bar {X}}\\\vdots \\X_{n}-{\bar {X}}\\Y_{1}-{\bar {Y}}\\\vdots \\Y_{n}-{\bar {Y}}\\Z_{1}-{\bar {Z}}\\\vdots \\Z_{n}-{\bar {Z}}\end{pmatrix}}

رابطه ۴: تفکیک بردارهای تصادفی سه جامعه مستقل

همانطور که مشاهده می‌شود، بردار سمت چپ در رابطه ۴، دارای 3n3n درجه آزادی است، زیرا هر یک از مشاهدات قادر هستند آزادانه تغییر کنند. در قسمت سمت راست این رابطه، اولین عبارت دارای یک درجه آزادی بوده زیرا بردار یکه در آن نقش دارد. عبارت دوم نیز به واسطه XM\overline{X} - \overline{M} و YM\overline{Y} - \overline{M} همچنین ZM\overline{Z} - \overline{M} ساخته شده است. از آنجایی که مجموع این جملات باید صفر باشد، قید مورد نظر باعث می‌شود که درجه آزادی این جمله برابر با ۲ باشد به این معنی که این بردار متعلق به یک زیرفضا دو بعُدی است.

جمله یا عبارت انتهایی در سمت راست رابطه ۴ هم برای هر دسته دارای درجه آزادی n1n-1‌ است. زیرا برای هر یک پارامتر میانگین آن گروه یا جامعه، توسط میانگین نمونه‌ای برآورد شده. در نتیجه کل بردار دارای درجه آزادی 3n33n-3 خواهد بود. همانطور که مشاهده می‌کنید، مجموع درجه‌های آزادی سمت راست با سمت چپ تساوی مربوط به رابطه ۴، نیز با هم برابرند.

3n=1+2+3n3\large 3n = 1 + 2 +3n-3

درجه آزادی در تحلیل واریانس

اغلب در آزمون‌های آماری به بررسی مربع فاصله هر یک از مشاهدات نسبت به میانگین احتیاج است. می‌دانیم که این موضوع با مفهوم واریانس در ارتباط است بخصوص اگر مجموع مربعات فاصله در نظر گرفته شود.

همانطور که دیدید، طبق رابطه ۳ می‌توان فاصله هر یک از مشاهدات را نسبت به میانگین کل و میانگین هر جامعه یا گروه، تفکیک و تجزیه کرد. حال به مربع این فاصله‌ها و مجموعشان خواهیم پرداخت. این کار دقیقا در تحلیل واریانس (Analysis of Variance) رخ می‌دهد. سعی داریم در اینجا هم به کمک روابطی که مشخص می‌کنیم، درجه آزادی را تعیین و رابطه بین درجه آزادی هر یک از مولفه‌ها و بردار تجزیه شده را نمایش دهیم.

مسئله‌ای که با رابطه ۳ بیان شد، یک تحلیل واریانس یک طرفه (One-way ANOVA) با سه جامعه مستقل است. مدل یا تیمارها بوسیله مربع فاصله بردار دوم در رابطه ۳ مشخص می‌شود. این عبارت را با نماد SST نشان داده‌ایم.

SST=n(XˉMˉ)2+n(YˉMˉ)2+n(ZˉMˉ)2\large {\displaystyle {\text{SST}}=n({\bar {X}}-{\bar {M}})^{2}+n({\bar {Y}}-{\bar {M}})^{2}+n({\bar {Z}}-{\bar {M}})^{2}}

همانطور که گفتیم، درجه آزادی برای این عبارت برابر با ۲ است. پس SST دو درجه آزادی دارد.

مربعات مجموع باقی‌مانده‌ها که با SSE مشخص شده است از بخش انتهایی رابطه ۳ تشکیل شده‌اند. به همین دلیل 3(n1)3(n-1) درجه آزادی دارند. این عبارت را به شکل زیر محاسبه کرده‌ایم.

SSE=i=1n(XiXˉ)2+i=1n(YiYˉ)2+i=1n(ZiZˉ)2\large {\text{SSE}}=\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}+\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}+\sum _{i=1}^{n}(Z_{i}-{\bar {Z}})^{2}

تحت فرض صفر (برابر بودن میانگین هر سه جامعه) هم SSE و SST دارای توزیع کای ۲ با درجه‌های آزادی بیان شده، هستند. در نتیجه نسبت آن‌ها که برای تحلیل واریانس به کار می رود، دارای توزیع F یا (F Distribution) خواهد بود. البته هر کدام از عبارت‌های SSE و SST بوسیله تقسیم کردن بر درجه آزادیشان، به حالت استاندارد در آمده تا نسبت آن‌ها، با توزیع F، هم‌توزیع باشد. بر این اساس، آماره آزمون که در رابطه زیر دیده می‌شود، دارای توزیع F با 2 , 3n-3 درجه آزادی خواهد بود.

F=SST2SSE3n3\large F = \dfrac{\dfrac{SST}{2}}{\dfrac{SSE}{3n-3}}

درجه آزادی در توزیع های احتمالاتی

بسیاری از توزیع‌های آماری مانند توزیع کای ۲، توزیع تی و توزیع F، پارامتری برحسب درجه آزادی دارند. این موضوع به ارتباطی که درجه آزادی و بردارهای تصادفی دارد که به خوبی آن را در رابطه ۳ مشاهده کردید.

در ادامه مثالی که برای تحلیل واریانس در قسمت قبلی بیان کردیم، این بار از توزیع نرمال کمک می‌گیریم. فرض کنید Xi,i=1,2,,nX_i , i = 1, 2, \ldots , n متغیرهای تصادفی مستقل با توزیع نرمال با میانگین μ\mu و واریانس σ2\sigma^2 هستند.

حال آماره زیر را در نظر بگیرید.

i=1n(XiXˉ)2σ2\large {\frac {\sum \limits _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}{\sigma ^{2}}}

توزیع این آماره، کای ۲ با n1n-1 درجه آزادی است. در اینجا درجه آزادی از مجموع مربعات باقی‌مانده‌ها که در صورت قرار گرفته است، حاصل می‌شود که برحسب بردار باقی‌مانده‌های {XiX}\{X_i-\overline{X}\} بیان شده است.

با در نظر گرفتن کاربرد این توزیع‌ها در مدل‌های خطی، درجه‌های پارامترهای آزادی فقط می‌توانند مقادیر عدد صحیح را به خود اختصاص دهند. البته خانواده‌های خاصی از توزیع‌ها نیز ممکن است مقادیر کسری را برای درجه آزادی فراهم کنند، که البته کار تفسیر درجه آزادی را مشکل‌تر می‌کند.

یک نمونه از این گونه موارد به زمانی بر می‌گردد که از توزیع تقریبی کای ۲ استفاده شود. در این حالت درجه آزادی تحت تاثیر این تقریب قرار گرفته و مقادیر کسری خواهد داشت. نمونه دیگر می‌تواند مرتبط با داده‌های دم سنگین (Heavy tailed) باشد. مدل سازی این داده‌ها به کمک توزیع‌های تجربی t , F صورت می‌گیرد که در آن‌ها درجه آزادی به شکلی که می‌شناختیم تفسیر نمی‌شود.

درجه آزادی در تحلیل جدول‌های توافقی

یکی دیگر از کاربردهای درجه آزادی در تحلیل‌های مربوط به جدول‌های توافقی (Contingency Tables) است. در آن‌ جا هم بیان ماتریسی اطلاعات همان شکل فضای برداری را نمایش می‌دهد. در اکثر مواقع، توزیعی که برای آماره‌های استفاده شده در تحلیل‌های جدول‌های توافقی، توزیع کای ۲ است و درجه آزادی آن براساس تعداد سطرها و ستون‌هایی جدول توافقی تشکیل می‌شود.

البته به همان شکل که گفته شد، تعداد پارامترهای به کار رفته در مدل تحلیل توافقی در کاهش درجه آزادی نیز نقش دارند. زمانی که ابعاد جدول توافقی بزرگ باشد، از توزیع تقریبی کای ۲ استفاده شده که در نتیجه درجه‌های آزادی برای آماره‌های آزمون به صورت کسری یا اعشاری خواهند بود.

برای کسب اطلاعات بیشتر در مورد نحوه تحلیل جدول‌های توافقی و کاربرد درجه آزادی در آن‌ها به متن و نوشتار دیگر مجله فرادرس با عنوان جدول توافقی و کاربردهای آن در SPSS — از صفر تا صد مراجعه کنید.

مقادیر غیرصحیح برای درجه آزادی

توجه داشته باشید که درجه آزادی ممکن است مقداری غیر صحیح و با مقادیر اعشاری (کسری) همراه باشد. البته در این حالت هم باز کران‌های درجه آزادی، مثبت و در بازه صفر تا nn خواهد بود.

یک هموار ساز k-نزدیکترین همسایه (k--nearest neighbor smoother) را در نظر بگیرید که بوسیله میانگین‌گیری روی مقادیری که دارای کمترین فاصله از یک نقطه هستند حاصل می‌شود. به این ترتیب وزن هر کدام از مقادیر که به نقطه مرکزی نزدیک هستند در محاسبه میانگین، برابر با 1k\frac{1}{k} است. به این ترتیب اثر ماتریس (مجموع قطر اصلی) برآورد وزن‌ها برابر با nk\frac{n}{k} است که از آن به عنوان درجه آزادی موثر بر مدل یاد می‌شود. به همین دلیل گاهی ممکن است درجه آزادی به صورت کسری بیان شود.

به عنوان یک مثال دیگر وضعیتی را در نظر بگیرید که در مدل خطی، ماتریس برآوردگر پارامترهای مدل (که به آن ماتریس کلاه یا Hat Matrix گفته می‌شود) به شکل زیر باشد.

H=X(XΣ1X)1XΣ1\large H = X(X' \Sigma^{-1}X)^{-1}X'\Sigma^{-1}

همانطور که مشاهده می‌کنید، این ماتریس شامل ماتریس واریانس-کوواریانس (Variance-Covariance Matrix) با نماد Σ\Sigma است. درجه آزادی در این حالت باید رتبه ماتریس حاصل باشد که در صورت وابستگی سطرها یا ستون‌ها این ماتریس، درجه آزادی ممکن است یک عدد صحیح نباشد.

خلاصه و جمع‌بندی

در این نوشتار با مفهوم درجه آزادی در آمار و همچنین کاربردهای آن آشنا شدید. همانطور که دیدید، مفهوم درجه آزادی از علم فیزیک در مباحث آماری به عاریت گرفته شده است ولی استفاده از آن به همان شکل که در فیزیک برای بردارهای و ابعاد فضای برداری به کار رفته است نیز در آمار مورد استفاده قرار گرفته است و علت اصلی تهیه این متن نیز نمایش شباهت‌های تعریف درجه آزادی در فیزیک و ساختار برداری آن در آمار است.

بر اساس رای ۲۷ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
wikipediaمجله فرادرس
۲ دیدگاه برای «درجه آزادی در آمار — مفاهیم و کاربردها»

سلام
درجه ازادی
۶ گروه . ۵ نفر چقدر میشود؟؟
راه حل ب دست امدن درجه ازادی چگونه است؟

سلام و درود،
همانطور که در متن اشاره شد، هر یک از تحلیل‌های آماری با توجه به تعداد پارامترهای برآورد شده، دارای درجه آزادی متفاوتی هستند.
تا زمانی که نوع تحلیل و تعداد پارامترهای برآورد شده در مثال ۶ گروه ۵ نفر شما مشخص نشود نمی‌توان درجه آزادی آن را بدست آورد. پارامترهای معلوم و نامعلوم (مانند میانگین، واریانس و …) برای توزیع در نظر گرفته شده باید ابتدا مشخص شده، سپس درجه آزادی محاسبه شود.
به مثال‌هایی که در متن به آن اشاره شد، توجه کنید. احتمالا پاسخ خود را دریافت خواهید کرد.

پیروز و تندرست باشید.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *