آزمون دیکسون و شناسایی نقاط پرت | به زبان ساده


در آمار، از آزمون دیکسون یا به طور دقیقتر آزمون کیو دیسکون، برای شناسایی و تایید حضور داده پرت در یک مجموعه داده استفاده میشود. در این آزمون، به عنوان پیشفرض توزیع دادهها را نرمال در نظر میگیریم. از نظر «رابرت دین» (Robert Dean) و «ویلفرید دیکسون» (Wilfrid Dixon)، این آزمون در صورت اجرا روی یک مجموعه داده، فقط باید یکبار به کار گرفته شود. برای استفاده از آزمون Q برای شناسایی دادههای ناهنجار یا پرت، دادهها را به ترتیب از کوچک به بزرگ مرتب میکنیم و طبق روالی که در ادامه این متن به آن خواهیم پرداخت، آماره آزمون را مورد محاسبه قرار داده و طبق جدولهای مربوط به توزیع آماره آزمون، نسبت به رد یا تایید فرض صفر که بیانگر وجود یا عدم داده پرت در دادهها است، رای صادر میکنیم.
برای آشنایی بیشتر با داده یا نقاط پرت بهتر است ابتدا نوشتارهای اعداد پرت (Outliers) و تاثیر آنها بر میانگین، میانه و مد و شناسایی داده پرت در SPSS — راهنمای کاربردی را مطالعه کنید. همچنین خواندن مطالب الگوریتم جنگل ایزوله — راهنمای کاربردی و تشخیص ناهنجاری (Anomaly Detection) — به زبان ساده نیز خالی از لطف نیست.
آزمون دیکسون و شناسایی نقاط پرت
«آزمون کیو دیکسون» (Q Dixon Test)، یا به طور خلاصه آزمون Q، راهی برای یافتن نقاط دورافتاده یا پرت در مجموعه دادههای بسیار کوچک است که به طور نرمال توزیع یا از یک جامعه نرمال گرفته شدهاند. مجموعه دادههای کوچک معمولاً بین 3 تا 7 مشاهده دارند. این کار معمولاً در روش تحقیق آماری مورد استفاده قرار میگیرد و به وسیله آن میتوان نقاطی که به شکل ناهنجار با بقیه دادهها اختلاف دارند، شناسایی کرده و از مدل یا محاسبات آماری خارج کرد.
این نقاط ممکن است نسبت به بقیه مقادیر مجموعه داده، بسیار بزرگتر یا بسیار کوچکتر باشند. در نظر گرفتن نقاط پرت در مجموعه داده و استنباط و محاسبات براساس آنها ممکن است باعث گمراهی محقق و همچنین ایجاد مدلهای نامناسب برای دادهها شود. به یاد دارید که نقاط پرت در مقدار میانگین و در نتیجه انحراف استاندارد تاثیر گذار بوده و باعث اریبی در آنها میشوند.
نکته: از آنجایی که برای محاسبه آماره Q احتیاج به مرتبسازی دادهها است، به نظر میرسد که از این آزمون فقط در زمانی که با متغیرهای یک بُعدی مواجه هستیم، میتوان استفاده کرد و برای تحلیلهای چند متغیره و بررسی توزیع نرمال چند متغیره باید از روشهای دیگر برای آزمون وجود نقطه پرت، بهره گرفت.
توجه داشته باشید که معادلات مختلفی برای یافتن نقطههای پرت تحت نسخههای متفاوت، توسط دیکسون ارائه شده است. رایجترین مورد آنها نسخه شماره ۱۰ یا R10 است که برای سادگی از آن به عنوان نسخه Q یاد میکنند. این آزمون برای بررسی اینکه آیا یک مقدار مشاهده شده خارج از حدود معمول قرار گرفته، استفاده میشود به شرطی که با یک نمونه با حجمی به اندازه 3 تا 7 مشاهده مواجه باشیم.
«دین» و «دیکسون» فرمولهای مختلف دیگری را در نسخههای بعدی پیشنهاد دادهاند که البته معروفترین آنها همان نسخه Q است. برای لیست کامل فرمولهای جایگزین برای اندازههای مختلف نمونه (تا حدود 30)، به مرجع (+) مراجعه کنید.
آماره آزمون دیکسون
فرض کنید مجموعه مقادیری به صورت در اختیار شما قرار گرفته است. البته این مقادیر از کوچک به بزرگ مرتب شدهاند. به این ترتیب مشخص است که کوچکترین مقدار و بزرگترین مقدار خواهد بود.
آماره آزمون دیکسون براساس دادههای مرتب شده به صورت زیر محاسبه میشود.
که در آن gap فاصله یا قدر مطلق تفاضل بین مقدار مشکوک (بزرگترین یا کوچکترین مقدار) با نزدیکترین مقدار به آن است. همچنین range نیز دامنه تغییرات یا همان فاصله یا تفاضل بین بزرگترین و کوچکترین مقدار را ن نشان میدهد. اگر مقدار آماره Q از مقدار صدک توزیع Q بزرگتر باشد، فرض صفر رد شده و باید نقطه کوچکترین (یا بزرگترین) را به عنوان نقطه پرت در نظر گرفت.
همانطور که مشاهده میکنید، نسبت فاصله نقطه مشکوک با نزدیکترین نقطه به آن، مبنای محاسبه در آماره آزمون قرار گرفته است که با تقسیم بر دامنه تغییرات به شکلی بدون مقیاس شده و توزیع آن توسط «دین» و «دیکسون»، تعیین شده است.
معمولا مقدار صدک توزیع دیکسون را به صورت نشان میدهند که به حجم نمونه و سطح اطمینان (یا خطای نوع اول) مرتبط است. برای مشخص کردن این مقدار، جدولهایی در اختیار کاربران قرار گفته است که براساس آن فرض صفر رد یا تایید میشود.
برای روشن شدن موضوع به ذکر دو مثال میپردازیم.
نحوه اجرای تست Q
قبل از اجرای هر آزمونی که پیشنیاز نرمال بودن در آن لحاظ شده، تست نرمالیتی را اجرا کنید. با این کار اطمینان حاصل میکنید که مجموعه دادههای شما قبل از اجرای آزمون، دارای توزیع نرمال بوده و نتایج حاصل، قابل اتکا هستند. روشهای انجام آزمون نرمالیته، مانند «آزمون شاپیرو ویلک» (Shapiro-Wilk’s Test) و «آزمون دآگوستینو» (D’Agostino’s Test) را در مجله فرادرس میتواند بخوانید.
به یاد داشته باشید، در زمانی که مجموعه داده، دارای تعداد کمی از نمونه تصادفی با جامعه نرمال باشند، تشخیص داده پرت، کار مشکلی میشود. در این حالت از آزمون Q استفاده خواهیم کرد. برای روشن شدن موضوع به دو مثال خواهیم پرداخت. در مثالهای پیش رو فرض بر نرمال بودن نمونه تصادفی است.
نکته: از آزمون Q نباید بیش از یک بار برای مجموعه داده یکسان استفاده شود. بنابراین پس از پیدا کردن یک نقطه پرت، دیگر آزمون را به کار نخواهیم گرفت.
مثال ۱:
مجموعه دادهای به صورت زیر را در نظر بگیرید. میخواهیم به کمک آزمون Q، مشخص کنیم کدام یک از دادهها، پرت محسوب میشود.
قبل از هر چیز، باید این دادهها را از کوچک به بزرگ (یا از بزرگ به کوچک) مرتب کنیم. توجه داشته باشید که اگر به وجود داده پرت در میان مقادیر کوچک مشکوک هستیم، دادهها را از کوچک به بزرگ مرتب میکنیم. در حالتی که مقدار مشکوک در بین بزرگترین مقادیر پنهان شده باشد، مرتبسازی را از بزرگ به کوچک در نظر میگیریم.
پس از مرتب سازی، به دادههای زیر خواهیم رسید.
مقدار gap و range را به صورت زیر محاسبه میکنیم.
به این ترتیب مقدار آماره آزمون دیکسون به صورت زیر حاصل میشود.
با توجه به حضور ۱۰ مشاهده و سطح اطمینان ۹۰٪ یا خطای ۱۰٪ مقدار صدک ۱۰ام توزیع Q برابر است با ۰٫۴۱۲. از آنجایی که مقدار آماره آزمون بزرگتر از صدک توزیع Q است، فرض صفر رد شده و نسبت به پرت بودن مقدار ۰٫۱۶۷ تصمیم میگیریم.
نکته: با سطح خطای ۵٪ و یا اطمینان ۹۵ درصدی مقدار آماره آزمون برابر با ۰٫۴۶۶ است، پس با این سطح از اطمینان، فرض صفر رد نشده و مقدار ۰٫۱۶۷ پرت محسوب نمیشود.
در جدول زیر بعضی از مقادیر صدکهای توزیع Q به همراه تعداد مشاهدات و درصد اطمینان آورده شده است که براساس آن میتوان آزمونهای مربوط به بررسی نقاط پرت را با روش دیکسون اجرا کرد.
تعداد مشاهدات | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
Q90%: | 10% | 0.941 | 0.765 | 0.642 | 0.560 | 0.507 | 0.468 | 0.437 | 0.412 |
Q95%: | 5% | 0.970 | 0.829 | 0.710 | 0.625 | 0.568 | 0.526 | 0.493 | 0.466 |
Q99%: | 1% | 0.994 | 0.926 | 0.821 | 0.740 | 0.680 | 0.634 | 0.598 | 0.568 |
مثلا در این جدول نشانگر مقدار صدک نودم از توزیع Q است.
مثال 2:
آیا 189 در مجموعه داده زیر پرت یا ناهنجار محسوب میشود؟ میخواهیم این آزمون را در سطح اطمینان 95٪ (یعنی در سطح آلفای 5٪) مورد بررسی قرار دهیم.
167 ، 180 ، 188 ، 177 ، 181 ، 185 ، 189
برای آن که روال کار بهتر درک شود، آزمون Q دیکسون را به صورت مرحله به مرحله به پیش میبریم.
مرحله 1: داده های خود را به ترتیب نزولی (بزرگتر به کوچکتر) مرتب کنید.
167 ، 177 ، 180 ، 181 ، 185 ، 188 ، 189.
مرحله 2: آمار Q را با استفاده از فرمول زیر پیدا کنید. در این رابطه متغیرها به صورت زیر هستند.
- : بزرگترین مقدار (مظنون) است.
- : دومین مقدار بزرگ است.
- : کوچکترین مقدار در مجموعه داده
با قرار دادن مقادیر در فرمول مربوط به آماره آزمون Q، خواهیم داشت:
پس مقدار آماره Q برابر با 0٫0455 خواهد بود.
مرحله 3: مقدار Q بحرانی را در جدول صدکهای توزیع آماره Q پیدا کنید. از آنجا که انداز نمونه ۷ و سطح خطای آزمون (آلفا- ) برابر با ۰٫۰۵ یا ۵٪ است، مقدار بحرانی یا صدک ۹۵ام برابر با ۰٫568 بدست خواهد آمد.
مرحله 4: آمار Q را از مرحله 2 با مقدار بحرانی Q در مرحله 3 مقایسه کنید. اگر آمار Q از مقدار بحرانی Q بزرگتر باشد، نقطه خارج از محدوده و پرت محسوب میشود. واضح است که در غیر این صورت نمیتوان دلیلی برای پرت بودن آن نقطه در نظر گرفت. به این ترتیب داریم:
آماره = 0٫0455
مقدار بحرانی = 0٫568.
از آنجایی که مقدار 0٫0455 بیشتر از 0٫568 نیست، بنابراین این نقطه در سطح آلفای 5٪ طبق آزمون Q دیکسون، پرت یا ناهنجار نخواهد بود.
فرمولها و جداول جایگزین برای آزمون دیکسون
آمارهها و شیوههای دیگری برای اجرای آزمون دیکسون نیز وجود دارد. در ادامه متن به بعضی از آنها که بیشتر مورد استفاده قرار میگیرند، اشاره خواهیم کرد. البته توجه داشته باشید که هر یک از این آمارهها، با توجه به حجم نمونه قابل استفاده است.
آماره آزمون دیکسون
زمانی که حجم نمونه بین ۸ تا ۱۰ مشاهده است، آماره آزمون مورد استفاده واقع میشود. با توجه به نماد و علائمی که در قبل به آنها اشاره کردیم، آماره به صورت زیر محاسبه میشود.
جدول مربوط به چندکهای توزیع به صورت زیر است.
n | α = 0.001 | α = 0.002 | α = 0.005 | α = 0.01 | α = 0.02 | α = 0.05 | α = 0.1 | α = 0.2 |
8 | 0.799 | 0.769 | 0.724 | 0.682 | 0.633 | 0.554 | 0.480 | 0.386 |
9 | 0.750 | 0.720 | 0.675 | 0.634 | 0.586 | 0.512 | 0.441 | 0.352 |
10 | 0.713 | 0.683 | 0.637 | 0.597 | 0.551 | 0.477 | 0.409 | 0.325 |
آماره آزمون دیکسون
اگر حجم نمونه بین ۱۱ تا ۱۳ باشد بهتر است از آماره استفاده شود. شیوه محاسبه آن مطابق با رابطه زیر است.
جدول نقاط بحرانی برای این توزیع نیز در ادامه قابل مشاهده است.
n | α = 0.001 | α = 0.002 | α = 0.005 | α = 0.01 | α = 0.02 | α = 0.05 | α = 0.1 | α = 0.2 |
11 | 0.770 | 0.746 | 0.708 | 0.674 | 0.636 | 0.575 | 0.518 | 0.445 |
12 | 0.739 | 0.714 | 0.676 | 0.643 | 0.605 | 0.546 | 0.489 | 0.420 |
13 | 0.713 | 0.687 | 0.649 | 0.617 | 0.580 | 0.522 | 0.467 | 0.399 |
همانطور که مشخص است برای محاسبه دامنه تغییرات (range) مقدار آخر کنار گذاشته شده است. همچنین فاصله مقدار پرت با مقداری که با دو فاصله دورتر از آن قرار گرفته، محاسبه شده است.
آماره آزمون دیکسون
آماره آزمون دیکسون برای اندازه نمونه بین ۱۴ تا ۳۰ به صورت است که نحوه محاسبه آن را در ادامه مشاهده میکنید. توجه دارید که در این حالت دامنه تغییرات (range) با اصلاحی همراه بوده و دو مقدار آخر برای محاسبه دامنه کنار گذاشته شدهاند.
جدول زیر به معرفی مقادیر بحرانی آماره با سطوح مختلف آزمون () و اندازه نمونه ، پرداخته است.
n | α = 0.001 | α = 0.002 | α = 0.005 | α = 0.01 | α = 0.02 | α = 0.05 | α = 0.1 | α = 0.2 |
14 | 0.732 | 0.708 | 0.672 | 0.640 | 0.603 | 0.546 | 0.491 | 0.422 |
15 | 0.708 | 0.685 | 0.648 | 0.617 | 0.582 | 0.524 | 0.470 | 0.403 |
16 | 0.691 | 0.667 | 0.630 | 0.598 | 0.562 | 0.505 | 0.453 | 0.386 |
17 | 0.671 | 0.647 | 0.611 | 0.580 | 0.545 | 0.489 | 0.437 | 0.373 |
18 | 0.652 | 0.628 | 0.594 | 0.564 | 0.529 | 0.475 | 0.424 | 0.361 |
19 | 0.640 | 0.617 | 0.581 | 0.551 | 0.517 | 0.462 | 0.412 | 0.349 |
20 | 0.627 | 0.604 | 0.568 | 0.538 | 0.503 | 0.450 | 0.401 | 0.339 |
25 | 0.574 | 0.550 | 0.517 | 0.489 | 0.457 | 0.406 | 0.359 | 0.302 |
30 | 0.539 | 0.517 | 0.484 | 0.456 | 0.425 | 0.376 | 0.332 | 0.278 |
خلاصه و جمعبندی
همانطور که در این متن خواندید، آزمون Q یا همان آزمون کیو دیکسون یکی از روشهای تشخیص وجود داده پرت در بین مجموعه داده با توزیع نرمال محسوب میشود. آزمون دیکسون برای نقاط پرت به سادگی انجام شده و البته توسط بسیاری از نرمافزارهای محاسبات آماری نیز قابل اجرا است. در این بین به کمک مثالهای عددی، آزمون دیکسون برای نقاط پرت را پیادهسازی کرده و نتایج حاصل را تفسیر کردیم. همچنین در انتها نیز نسخههای دیگری از آماره آزمون دیکسون به همراه جدولهای نقاط بحرانی آن ارائه و مورد استفاده قرار گرفت. از آنجایی که تعداد مشاهدات در آزمون کیو دیکسون محدود است، در بسیاری از موارد میتوان محاسبات را به صورت دستی نیز انجام داد.
بسیار عالی توضیح داده بودند، از زحمات ایشان تشکر می نمایم.