در مباحث آماری، اطلاع از توزیع داده‌ها، امری است که نوع و روش تحلیل آن‌ها را مشخص می‌کند. اغلب با توجه به نرمال بودن توزیع احتمال داده‌ها، روش‌های آمار پارامتری را برای انجام تحلیل‌ها به کار می‌بریم. در مقابل اگر از توزیع داده‌ها کمترین میزان اطلاع را داشته باشیم، روش‌های آمار ناپارامتری به کارمان خواهند آمد. در این نوشتار به کمک «آزمون نرمال بودن جارک برا» (Jarque-Bera Test) این شرط را مورد بررسی قرار می‌دهیم. در این بین برای انجام محاسبات این آزمون، از زبان‌های محاسبات آماری و برنامه‌نویسی R و پایتون کمک می‌گیریم.

برای آشنایی بیشتر با دیگر شیوه‌های بررسی نرمال بودن توزیع داده‌ها، نوشتار آزمون نرمال بودن داده (Normality Test) — پیاده سازی در پایتون و نمودار چندک چندک (Q-Q plot) — به زبان ساده را مطالعه کنید. همچنین خواندن آمار پارامتری و ناپارامتری — انتخاب روش های تحلیل خالی از لطف نیست.

آزمون نرمال بودن جارک برا (Jarque-Bera Test)

انتخاب روش تحلیل داده‌ها، یکی از مباحثی است که بسیاری از محققین در زمینه آمار را به خود مشغول کرده است. اغلب روش‌های استنباط آماری، مبتنی بر توزیع نرمال برای جامعه آماری است. چنین شیوه‌هایی اغلب به روش‌های استنباط «آمار پارامتری» (Parametric Statistics) شهرت دارند که مناسب برای داده‌هایی با توزیع نرمال هستند. ولی جامعه نرمال به عنوان یک جامعه ایده‌ال شناخته شده و کمتر داده‌های واقعی از این توزیع برخوردارند. در نتیجه ابداع روش‌هایی که بدون در نظر گرفتن توزیع (یا حداقل توزیع نرمال) برای جامعه آماری به کار گرفته می‌شوند، ضروری به نظر می‌رسد. چنین شاخه‌ای از آمار که مرتبط به روش‌های استنباط ناپارامتری هستند، «آمار ناپارامتری» (Non-Parametric Statistics) نامیده می‌شود.

تعیین اینکه آیا نمونه جمع‌آوری شده، مربوط به یک جامعه آماری نرمال است، توسط آزمون‌های مختلفی صورت می‌گیرد. اغلب این روش‌ها را با نام آزمون‌های نرمالیتی (Normality Test) می‌شناسند. در این قسمت به آزمون نرمال بودن جارک برا می‌پردازیم که بخصوص برای بررسی نرمال‌بودن باقی‌مانده‌ها در سری زمانی و رگرسیون به کار می‌رود.

یکی از «آزمون‌های نیکویی برازش» (Goodness of Fit test)، »آزمون جارک برا» (Jarque-Bera Test) است که براساس شاخص‌های تقارن چولگی (Skewness) و کشیدگی (Kurtosis)، مطابقت با توزیع نرمال را می‌سنجد.

این آزمون توسط «کارلوس جارک» (Carlos Jarque) اقتصاددان مکزیکی و «آنیل برا» (Anil Bera) اقتصاددان آمریکایی در سال 1987 در مقاله‌ای با عنوان «آزمون نرمال بودن مشاهدات و باقی‌مانده‌های رگرسیون» (Test for Normality of Observations and Regression Residuals) معرفی شد. به کمک این آزمون و آماره آن می‌توانیم نرمال بودن داده‌ها را مورد بررسی قرار دهیم.

آماره آزمون نرمال بودن جارک برا و خصوصیات آن

همانطور که گفته شد، این آزمون براساس اندازه‌های مربوط به تقارن عمودی و افقی توزیع نرمال عمل می‌کند که توسط چولگی و کشیدگی اندازه‌گیری می‌شوند. فرض کنید $$S$$، «چولگی نمونه‌ای» (Sample Skewness) و $$K$$ نیز «کشیدگی نمونه‌ای» (Sample Kurtosis) برای مشاهدات $$x_1,x_2,\ldots,x_n$$ باشند. یعنی:

$$\large S={\frac {{\hat {\mu }}_{3}}{{\hat {\sigma }}^{3}}}={\frac {{\frac 1n}\sum _{{i=1}}^{n}(x_{i}-{\bar {x}})^{3}}{\left({\frac 1n}\sum _{{i=1}}^{n}(x_{i}-{\bar {x}})^{2}\right)^{{3/2}}}}$$

و

$$\large {\displaystyle K={\frac {{\hat {\mu }}_{4}}{{\hat {\sigma }}^{4}}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{4}}{\left({\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\right)^{2}}}}$$

آنگاه، آماره آزمون جارک برحسب این دو پارامتر، به صورت زیر تعیین می‌شود.

$$\large {\displaystyle {\mathit {JB}}={\frac {n}{6}}\left(S^{2}+{\frac {1}{4}}(K-3)^{2}\right)}$$

نکته: منظور از $$\mu_3$$ و $$\mu_4$$ گشتاورهای مرکزی سوم و چهارم و $$\hat{\mu}_3$$ و $$\hat{\mu}_4$$ نیز  برآورد این گشتاورها (Sample Central Moments) است. همچنین $$\bar{x}$$ و $$\hat{\sigma}$$ نیز میانگین و  انحراف استاندارد نمونه‌ای هستند.

اگر داده‌ها، از یک جامعه آماری با توزیع نرمال باشند، مقدار آماره $$JB$$ کوچک و تقریبا برابر با صفر است و توزیع احتمالاتی برای این آماره به صورت مجانبی (Asymptotically)، توزیع کای ۲ (Chi Square Distribution) با ۲ درجه آزادی (Degree of Freedom) خواهد بود. به این ترتیب از این آماره برای بررسی نرمال بودن یک مجموعه داده می‌توان استفاده کرد.

بر همین اساس فرض صفر (Null Hypothesis) به این صورت در نظر گرفته می‌شود که همزمان مقدار چولگی و کشیدگی اصلاح شده نمونه‌ای صفر باشند. البته منظورمان از «کشیدگی اصلاح شده» (Excess Kurtosis) همان $$K-3$$ است. در نتیجه اگر کشیدگی برابر با ۳ باشد، کشیدگی اصلاح شده نیز صفر خواهد بود.

در نتیجه هر گونه انحراف از مقادیر این شاخص‌ها نسبت به توزیع نرمال، براساس توزیع کای ۲ اندازه‌گیری شده و مقدار احتمال (p-Value)، برای آزمون نرمال بودن به کار گرفته می‌شود. با کوچک بودن مقدار آماره $$JB$$ رای به نرمال بودن داده‌ها داده و فرض صفر با توجه به سطح آزمون ($$\alpha$$) و توزیع کای ۲ رد نمی‌شود ولی اگر مقدار این آماره از مقدار بحرانی آزمون بزرگتر شود، فرض نرمال بودن جامعه آماری، توسط این نمونه رد خواهد شد.

برای اندازه نمونه‌های کوچک، مقادیر توزیع کای ۲ خیلی حساس هستند و با اندک تغییری در مقادیر نمونه، مقدار این آماره تغییر خواهد کرد، در نتیجه برای نمونه‌های کوچک، اغلب این آزمون رای به رد فرض صفر خواهد داد و نرمال بودن داده‌ها تایید نخواهد شد. ولی با افزایش حجم نمونه، قابلیت این آزمون برای تشخیص نرمال بودن داده‌ها بیشتر می‌شود.

آزمون نرمال بودن جارک برا در R

به منظور اجرای آزمون نرمال بودن جارک برا در زبان برنامه‌نویسی R، باید از کتابخانه سری زمانی (tseries) استفاده کنید. کدهای زیر به همراه یک مثال و خروجی دستورات مربوطه در ادامه به آزمون نرمال بودن یک مجموعه داده پرداخته‌اند.

ابتدا ۱۰۰ مشاهده یا نمونه از توزیع نرمال تولید شده و به کمک آزمون جارک برا، نرمال بودن جامعه مربوط به نمونه مورد بررسی قرار می‌گیرد. در ادامه، همین عمل برای توزیع یکنواخت پیوسته (Uniform Distribution) نیز انجام می‌شود.

نکته: خط اول برای نصب کتابخانه tseries لازم است ولی در اجراهای بعدی از آن صرف‌نظر کنید.

پس از اجرا این کد در زبان برنامه‌نویسی R، خروجی به صورت زیر خواهد بود.

همانطور که مشاهده می‌کنید، آماره آزمون برابر با 0٫55372 بوده و همچنین مقدار احتمال (p-value) در قسمت اول که مربوط به آزمون داده‌های شبیه‌سازی شده از توزیع نرمال است برابر با ۰٫7582 بدست آمده است. در نتیجه فرض نرمال بودن توسط این نمونه برای جامعه آماری رد نخواهد شد.

ولی در قسمت دوم با یک نمونه ۱۰۰ تایی از توزیع یکنواخت، آزمون را انجام داده‌ایم که مشخص است مقدار آماره آزمون 6٫432 بوده و نسبت به توزیع کای ۲ با دو درجه آزادی مقدار بزرگی است. از طرفی مقدار احتمال (p-value) نیز کوچک شده (0٫04012) است که با در نظر گرفتن سطح آزمون $$\alpha=0.05$$، فرض صفر رد می‌شود. در نتیجه این جامعه آماری مربوط به این داده‌ها دارای توزیع نرمال نخواهد بود.

نکته: همانطور که مشاهده می‌کنید، آماره و آزمون جارک برا، فقط مطابقت توزیع داده‌ها را با توزیع نرمال می‌سنجد و نمی‌تواند مشخص کند که داده‌ها دارای چه توزیعی هستند.

در مسائل مربوط به رگرسیون و سری زمانی، تعداد پارامترهای مدل نیز در محاسبه آماره آزمون جارک برا، دخیل هستند. در این صورت آماره آزمون به صورت زیر در خواهد آمد.

$$\large {\mathit {JB}}={\frac {n-k}{6}}\left(S^{2}+{\frac 14}(K-3)^{2}\right)$$

که در آن $$n$$ تعداد مشاهدات و $$k$$ نیز تعداد پارامترهای برآورد شده است.

فرض کنید قرار است یک مدل سری زمانی ایجاد کنید. همانطور که می‌دانید، یکی از شرط‌های صحت مدل در چنین حالتی، نرمال بودن باقی‌مانده‌های آن است. در اینجا نیز با کمک یک مجموعه داده (hcip)، مدل سری زمانی (ARIMA) را برازش کرده، سپس نرمال بودن باقی‌مانده را مورد بررسی قرار می‌دهیم. این مجموعه داده در کتابخانه tseries قرار دارد و نیازی به دریافت آن از طریق اینترنت نیست. کدهای زیر به این منظور تهیه شده است. در این بین از کتابخانه tsoutliers کمک گرفته‌ایم.

در قسمت اول داده‌ها بدون شناسایی نقاط پرت (Outliers) در مدل سری زمانی ARIMA قرار گرفته‌اند. همانطور که مشخص است، باقی‌مانده‌ها با توجه به کوچک بودن مقدار p-value، نرمال نخواهند بود.

در قسمت دوم، به کمک تابع outliers، نقاط پرت از مدل خارج شده و بهبود زیادی ایجاد شده بطوری که فرض نرمال بودن باقی‌مانده رد نخواهد شد. خروجی را در ادامه مشاهده می‌کنید.

آزمون نرمال بودن جارک برا در پایتون

به منظور پیاده‌سازی آزمون نرمال بودن جارک برا در زبان برنامه‌نویسی پایتون از کتابخانه statsmodels و stattools استفاده می‌شود. تابع آزمون جارک برا در کتابخانه statsmodels به صورت زیر است.

$$ \large statsmodels.stats.stattools.jarque\_bera(resids, axis=0)$$

در نتیجه کافی است که مقادیر باقی‌مانده یا داده‌ها را در پارامتر resids مشخص کنید تا آزمون جارک برا صورت گیرد.

نظیر این گونه محاسبه نیز توسط کتابخانه scipy.stats صورت می‌گیرد. کافی است تابع scipy.stats.jarque_bera را اجرا کنید.

برای مثال، کد زیر یک سری داده تصادفی از توزیع نرمال (Normal) و توزیع رایلی (Rayleight) تولید کرده و به کمک تابع stats.jarque_bera آن‌ها را مورد آزمون قرار می‌دهد.

با توجه به خروجی‌ها مشخص است که داده‌هایی که در متغیر $$x$$ ذخیره شده‌اند (شبیه‌سازی شده از توزیع نرمال)، توسط آزمون جارک برا نیز نرمال تشخیص داده شده‌‌اند، زیرا مقدار آماره آزمون کوچک (4٫7165) و مقدار احتمال (0٫09458) بزرگتر از خطای نوع اول ($$\alpha=0.05$$) است. از طرفی فرض نرمال بودن برای داده‌هایی که از توزیع رایل ایجاد شده‌‌اند در سطح آزمون 0٫05، رد می‌شود.

همچنین به منظور پیاده‌سازی آزمون جارک برا در پایتون با استفاده از کتابخانه scipy.stats نیز کافی است دستورات زیر را اجرا کنید.

همانطور که مشخص است تابع JarqueBeraTest که توسط این کد تعریف شده، محاسبات مربوط به آماره آزمون و همچنین سطح معنی‌داری آزمون را انجام داده است و به کمک آن می‌توانیم فرض نرمال بودن داده‌ها را بسنجیم. این کد کمک می‌کند که نحوه محاسبه این آماره را به درستی درک کنیم. در انتهای کد نیز با توجه به مقدار آماره ($$S$$) و مقدار توزیع کای ۲ ($$t$$)، وضعیت رد یا عدم رد فرض صفر مشخص شده است.

خلاصه و جمع‌بندی

در این نوشتار با مفهوم روش‌های پارامتری و ناپارامتری در تحلیل‌های آماری آشنا شدیم. همچنین مشخص کردیم که برای استفاده از روش‌های پارامتری که البته نسبت به روش‌های ناپارامتری پرتوان‌تر هستند، باید توزیع داده‌ها بررسی شده و آزمون نرمال بودن داده (Normality Test) مورد سنجش قرار گیرد. برای انجام این کار هم آزمون جارک برا (Jarque-Bera Test) را معرفی کردیم و نحوه محاسبات آن را در زبان برنامه‌نویسی و محاسباتی R و پایتون فراگرفتیم. به این ترتیب از این آزمون برای بررسی شرط‌ها مدل رگرسیونی و سری زمانی استفاده می‌کنیم تا مدل ارائه شده را ارزیابی نماییم.

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 4 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *