آزمون نرمال بودن جارک برا (Jarque–Bera Test) – به زبان ساده


در مباحث آماری، اطلاع از توزیع دادهها، امری است که نوع و روش تحلیل آنها را مشخص میکند. اغلب با توجه به نرمال بودن توزیع احتمال دادهها، روشهای آمار پارامتری را برای انجام تحلیلها به کار میبریم. در مقابل اگر از توزیع دادهها کمترین میزان اطلاع را داشته باشیم، روشهای آمار ناپارامتری به کارمان خواهند آمد. در این نوشتار به کمک «آزمون نرمال بودن جارک برا» (Jarque-Bera Test) این شرط را مورد بررسی قرار میدهیم. در این بین برای انجام محاسبات این آزمون، از زبانهای محاسبات آماری و برنامهنویسی R و پایتون کمک میگیریم.
برای آشنایی بیشتر با دیگر شیوههای بررسی نرمال بودن توزیع دادهها، نوشتار آزمون نرمال بودن داده (Normality Test) — پیاده سازی در پایتون و نمودار چندک چندک (Q-Q plot) — به زبان ساده را مطالعه کنید. همچنین خواندن آمار پارامتری و ناپارامتری — انتخاب روش های تحلیل خالی از لطف نیست.
آزمون نرمال بودن جارک برا (Jarque-Bera Test)
انتخاب روش تحلیل دادهها، یکی از مباحثی است که بسیاری از محققین در زمینه آمار را به خود مشغول کرده است. اغلب روشهای استنباط آماری، مبتنی بر توزیع نرمال برای جامعه آماری است. چنین شیوههایی اغلب به روشهای استنباط «آمار پارامتری» (Parametric Statistics) شهرت دارند که مناسب برای دادههایی با توزیع نرمال هستند. ولی جامعه نرمال به عنوان یک جامعه ایدهال شناخته شده و کمتر دادههای واقعی از این توزیع برخوردارند. در نتیجه ابداع روشهایی که بدون در نظر گرفتن توزیع (یا حداقل توزیع نرمال) برای جامعه آماری به کار گرفته میشوند، ضروری به نظر میرسد. چنین شاخهای از آمار که مرتبط به روشهای استنباط ناپارامتری هستند، «آمار ناپارامتری» (Non-Parametric Statistics) نامیده میشود.
تعیین اینکه آیا نمونه جمعآوری شده، مربوط به یک جامعه آماری نرمال است، توسط آزمونهای مختلفی صورت میگیرد. اغلب این روشها را با نام آزمونهای نرمالیتی (Normality Test) میشناسند. در این قسمت به آزمون نرمال بودن جارک برا میپردازیم که بخصوص برای بررسی نرمالبودن باقیماندهها در سری زمانی و رگرسیون به کار میرود.
یکی از «آزمونهای نیکویی برازش» (Goodness of Fit test)، »آزمون جارک برا» (Jarque-Bera Test) است که براساس شاخصهای تقارن چولگی (Skewness) و کشیدگی (Kurtosis)، مطابقت با توزیع نرمال را میسنجد.
این آزمون توسط «کارلوس جارک» (Carlos Jarque) اقتصاددان مکزیکی و «آنیل برا» (Anil Bera) اقتصاددان آمریکایی در سال 1987 در مقالهای با عنوان «آزمون نرمال بودن مشاهدات و باقیماندههای رگرسیون» (Test for Normality of Observations and Regression Residuals) معرفی شد. به کمک این آزمون و آماره آن میتوانیم نرمال بودن دادهها را مورد بررسی قرار دهیم.
آماره آزمون نرمال بودن جارک برا و خصوصیات آن
همانطور که گفته شد، این آزمون براساس اندازههای مربوط به تقارن عمودی و افقی توزیع نرمال عمل میکند که توسط چولگی و کشیدگی اندازهگیری میشوند. فرض کنید ، «چولگی نمونهای» (Sample Skewness) و نیز «کشیدگی نمونهای» (Sample Kurtosis) برای مشاهدات باشند. یعنی:
و
آنگاه، آماره آزمون جارک برحسب این دو پارامتر، به صورت زیر تعیین میشود.
نکته: منظور از و گشتاورهای مرکزی سوم و چهارم و و نیز برآورد این گشتاورها (Sample Central Moments) است. همچنین و نیز میانگین و انحراف استاندارد نمونهای هستند.
اگر دادهها، از یک جامعه آماری با توزیع نرمال باشند، مقدار آماره کوچک و تقریبا برابر با صفر است و توزیع احتمالاتی برای این آماره به صورت مجانبی (Asymptotically)، توزیع کای ۲ (Chi Square Distribution) با ۲ درجه آزادی (Degree of Freedom) خواهد بود. به این ترتیب از این آماره برای بررسی نرمال بودن یک مجموعه داده میتوان استفاده کرد.
بر همین اساس فرض صفر (Null Hypothesis) به این صورت در نظر گرفته میشود که همزمان مقدار چولگی و کشیدگی اصلاح شده نمونهای صفر باشند. البته منظورمان از «کشیدگی اصلاح شده» (Excess Kurtosis) همان است. در نتیجه اگر کشیدگی برابر با ۳ باشد، کشیدگی اصلاح شده نیز صفر خواهد بود.
در نتیجه هر گونه انحراف از مقادیر این شاخصها نسبت به توزیع نرمال، براساس توزیع کای ۲ اندازهگیری شده و مقدار احتمال (p-Value)، برای آزمون نرمال بودن به کار گرفته میشود. با کوچک بودن مقدار آماره رای به نرمال بودن دادهها داده و فرض صفر با توجه به سطح آزمون () و توزیع کای ۲ رد نمیشود ولی اگر مقدار این آماره از مقدار بحرانی آزمون بزرگتر شود، فرض نرمال بودن جامعه آماری، توسط این نمونه رد خواهد شد.
برای اندازه نمونههای کوچک، مقادیر توزیع کای ۲ خیلی حساس هستند و با اندک تغییری در مقادیر نمونه، مقدار این آماره تغییر خواهد کرد، در نتیجه برای نمونههای کوچک، اغلب این آزمون رای به رد فرض صفر خواهد داد و نرمال بودن دادهها تایید نخواهد شد. ولی با افزایش حجم نمونه، قابلیت این آزمون برای تشخیص نرمال بودن دادهها بیشتر میشود.
آزمون نرمال بودن جارک برا در R
به منظور اجرای آزمون نرمال بودن جارک برا در زبان برنامهنویسی R، باید از کتابخانه سری زمانی (tseries) استفاده کنید. کدهای زیر به همراه یک مثال و خروجی دستورات مربوطه در ادامه به آزمون نرمال بودن یک مجموعه داده پرداختهاند.
ابتدا ۱۰۰ مشاهده یا نمونه از توزیع نرمال تولید شده و به کمک آزمون جارک برا، نرمال بودن جامعه مربوط به نمونه مورد بررسی قرار میگیرد. در ادامه، همین عمل برای توزیع یکنواخت پیوسته (Uniform Distribution) نیز انجام میشود.
نکته: خط اول برای نصب کتابخانه tseries لازم است ولی در اجراهای بعدی از آن صرفنظر کنید.
پس از اجرا این کد در زبان برنامهنویسی R، خروجی به صورت زیر خواهد بود.
همانطور که مشاهده میکنید، آماره آزمون برابر با 0٫55372 بوده و همچنین مقدار احتمال (p-value) در قسمت اول که مربوط به آزمون دادههای شبیهسازی شده از توزیع نرمال است برابر با ۰٫7582 بدست آمده است. در نتیجه فرض نرمال بودن توسط این نمونه برای جامعه آماری رد نخواهد شد.
ولی در قسمت دوم با یک نمونه ۱۰۰ تایی از توزیع یکنواخت، آزمون را انجام دادهایم که مشخص است مقدار آماره آزمون 6٫432 بوده و نسبت به توزیع کای ۲ با دو درجه آزادی مقدار بزرگی است. از طرفی مقدار احتمال (p-value) نیز کوچک شده (0٫04012) است که با در نظر گرفتن سطح آزمون ، فرض صفر رد میشود. در نتیجه این جامعه آماری مربوط به این دادهها دارای توزیع نرمال نخواهد بود.
نکته: همانطور که مشاهده میکنید، آماره و آزمون جارک برا، فقط مطابقت توزیع دادهها را با توزیع نرمال میسنجد و نمیتواند مشخص کند که دادهها دارای چه توزیعی هستند.
در مسائل مربوط به رگرسیون و سری زمانی، تعداد پارامترهای مدل نیز در محاسبه آماره آزمون جارک برا، دخیل هستند. در این صورت آماره آزمون به صورت زیر در خواهد آمد.
که در آن تعداد مشاهدات و نیز تعداد پارامترهای برآورد شده است.
فرض کنید قرار است یک مدل سری زمانی ایجاد کنید. همانطور که میدانید، یکی از شرطهای صحت مدل در چنین حالتی، نرمال بودن باقیماندههای آن است. در اینجا نیز با کمک یک مجموعه داده (hcip)، مدل سری زمانی (ARIMA) را برازش کرده، سپس نرمال بودن باقیمانده را مورد بررسی قرار میدهیم. این مجموعه داده در کتابخانه tseries قرار دارد و نیازی به دریافت آن از طریق اینترنت نیست. کدهای زیر به این منظور تهیه شده است. در این بین از کتابخانه tsoutliers کمک گرفتهایم.
در قسمت اول دادهها بدون شناسایی نقاط پرت (Outliers) در مدل سری زمانی ARIMA قرار گرفتهاند. همانطور که مشخص است، باقیماندهها با توجه به کوچک بودن مقدار p-value، نرمال نخواهند بود.
در قسمت دوم، به کمک تابع outliers، نقاط پرت از مدل خارج شده و بهبود زیادی ایجاد شده بطوری که فرض نرمال بودن باقیمانده رد نخواهد شد. خروجی را در ادامه مشاهده میکنید.
آزمون نرمال بودن جارک برا در پایتون
به منظور پیادهسازی آزمون نرمال بودن جارک برا در زبان برنامهنویسی پایتون از کتابخانه statsmodels و stattools استفاده میشود.
تابع آزمون جارک برا در کتابخانه statsmodels به صورت زیر است.
در نتیجه کافی است که مقادیر باقیمانده یا دادهها را در پارامتر resids مشخص کنید تا آزمون جارک برا صورت گیرد.
نظیر این گونه محاسبه نیز توسط کتابخانه scipy.stats صورت میگیرد. کافی است تابع scipy.stats.jarque_bera را اجرا کنید.
برای مثال، کد زیر یک سری داده تصادفی از توزیع نرمال (Normal) و توزیع رایلی (Rayleight) تولید کرده و به کمک تابع stats.jarque_bera آنها را مورد آزمون قرار میدهد.
با توجه به خروجیها مشخص است که دادههایی که در متغیر ذخیره شدهاند (شبیهسازی شده از توزیع نرمال)، توسط آزمون جارک برا نیز نرمال تشخیص داده شدهاند، زیرا مقدار آماره آزمون کوچک (4٫7165) و مقدار احتمال (0٫09458) بزرگتر از خطای نوع اول () است. از طرفی فرض نرمال بودن برای دادههایی که از توزیع رایل ایجاد شدهاند در سطح آزمون 0٫05، رد میشود.
همچنین به منظور پیادهسازی آزمون جارک برا در پایتون با استفاده از کتابخانه scipy.stats نیز کافی است دستورات زیر را اجرا کنید.
همانطور که مشخص است تابع JarqueBeraTest که توسط این کد تعریف شده، محاسبات مربوط به آماره آزمون و همچنین سطح معنیداری آزمون را انجام داده است و به کمک آن میتوانیم فرض نرمال بودن دادهها را بسنجیم. این کد کمک میکند که نحوه محاسبه این آماره را به درستی درک کنیم. در انتهای کد نیز با توجه به مقدار آماره () و مقدار توزیع کای ۲ ()، وضعیت رد یا عدم رد فرض صفر مشخص شده است.
خلاصه و جمعبندی
در این نوشتار با مفهوم روشهای پارامتری و ناپارامتری در تحلیلهای آماری آشنا شدیم. همچنین مشخص کردیم که برای استفاده از روشهای پارامتری که البته نسبت به روشهای ناپارامتری پرتوانتر هستند، باید توزیع دادهها بررسی شده و آزمون نرمال بودن داده (Normality Test) مورد سنجش قرار گیرد. برای انجام این کار هم آزمون جارک برا (Jarque-Bera Test) را معرفی کردیم و نحوه محاسبات آن را در زبان برنامهنویسی و محاسباتی R و پایتون فراگرفتیم. به این ترتیب از این آزمون برای بررسی شرطها مدل رگرسیونی و سری زمانی استفاده میکنیم تا مدل ارائه شده را ارزیابی نماییم.
اگر این مطلب برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار و احتمالات
- آموزش آمار و احتمال مهندسی
- مجموعه آموزشهای برنامهنویسی پایتون
- توزیعهای آماری — مجموعه مقالات جامع وبلاگ فرادرس
- متغیر تصادفی و توزیع برنولی — به زبان ساده
- توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها
^^