آزمون دیکسون و شناسایی نقاط پرت | به زبان ساده

۷۸۴ بازدید
آخرین به‌روزرسانی: ۲۳ خرداد ۱۴۰۲
زمان مطالعه: ۸ دقیقه
آزمون دیکسون و شناسایی نقاط پرت | به زبان ساده

در آمار، از آزمون دیکسون یا به طور دقیق‌تر آزمون کیو دیسکون، برای شناسایی و تایید حضور داده پرت در یک مجموعه داده استفاده می‌شود. در این آزمون، به عنوان پیش‌فرض توزیع داده‌ها را نرمال در نظر می‌گیریم. از نظر «رابرت دین» (Robert Dean) و «ویلفرید دیکسون» (Wilfrid Dixon)، این آزمون در صورت اجرا روی یک مجموعه داده، فقط باید یکبار به کار گرفته شود. برای استفاده از آزمون Q برای شناسایی داده‌های ناهنجار یا پرت، داده‌ها را به ترتیب از کوچک به بزرگ مرتب می‌کنیم و طبق روالی که در ادامه این متن به آن خواهیم پرداخت، آماره آزمون را مورد محاسبه قرار داده و طبق جدول‌های مربوط به توزیع آماره آزمون، نسبت به رد یا تایید فرض صفر که بیانگر وجود یا عدم داده پرت در داده‌ها است، رای صادر می‌کنیم.

برای آشنایی بیشتر با داده یا نقاط پرت بهتر است ابتدا نوشتارهای اعداد پرت (Outliers) و تاثیر آنها بر میانگین، میانه و مد و شناسایی داده پرت در SPSS — راهنمای کاربردی را مطالعه کنید. همچنین خواندن مطالب الگوریتم جنگل ایزوله — راهنمای کاربردی و تشخیص ناهنجاری (Anomaly Detection) — به زبان ساده نیز خالی از لطف نیست.

آزمون دیکسون و شناسایی نقاط پرت

«آزمون کیو دیکسون» (Q Dixon Test)، یا به طور خلاصه آزمون Q، راهی برای یافتن نقاط دورافتاده یا پرت در مجموعه داده‌های بسیار کوچک است که به طور نرمال توزیع یا از یک جامعه نرمال گرفته شده‌اند. مجموعه داده‌های کوچک معمولاً بین 3 تا 7 مشاهده دارند. این کار معمولاً در روش تحقیق آماری مورد استفاده قرار می‌گیرد و به وسیله آن می‌توان نقاطی که به شکل ناهنجار با بقیه داده‌ها اختلاف دارند، شناسایی کرده و از مدل یا محاسبات آماری خارج کرد.

این نقاط ممکن است نسبت به بقیه مقادیر مجموعه داده، بسیار بزرگتر یا بسیار کوچکتر باشند. در نظر گرفتن نقاط پرت در مجموعه داده و استنباط و محاسبات براساس آن‌ها ممکن است باعث گمراهی محقق و همچنین ایجاد مدل‌های نامناسب برای داده‌ها شود. به یاد دارید که نقاط پرت در مقدار میانگین و در نتیجه انحراف استاندارد تاثیر گذار بوده و باعث اریبی در آن‌ها می‌شوند.

نکته: از آنجایی که برای محاسبه آماره Q احتیاج به مرتب‌سازی داده‌ها است، به نظر می‌رسد که از این آزمون فقط در زمانی که با متغیرهای یک بُعدی مواجه هستیم، می‌توان استفاده کرد و برای تحلیل‌های چند متغیره و بررسی توزیع نرمال چند متغیره باید از روش‌های دیگر برای آزمون وجود نقطه پرت، بهره گرفت.

توجه داشته باشید که معادلات مختلفی برای یافتن نقطه‌های پرت تحت نسخه‌های متفاوت، توسط دیکسون ارائه شده است. رایج‌ترین مورد آن‌ها نسخه شماره ۱۰ یا R10 است که برای سادگی از آن به عنوان نسخه Q یاد می‌کنند. این آزمون برای بررسی اینکه آیا یک مقدار مشاهده شده خارج از حدود معمول قرار گرفته، استفاده می‌شود به شرطی که با یک نمونه با حجمی به اندازه 3 تا 7 مشاهده مواجه باشیم.

«دین» و «دیکسون» فرمول‌های مختلف دیگری را در نسخه‌های بعدی پیشنهاد داده‌اند که البته معروف‌ترین آن‌ها همان نسخه Q است. برای لیست کامل فرمول‌های جایگزین برای اندازه‌های مختلف نمونه (تا حدود 30)، به مرجع (+) مراجعه کنید.

آماره آزمون دیکسون

فرض کنید مجموعه مقادیری به صورت $$x_1 , x_2 , \ldots , x_n$$ در اختیار شما قرار گرفته است. البته این مقادیر از کوچک به بزرگ مرتب شده‌اند. به این ترتیب مشخص است که $$x_1$$ کوچکترین مقدار و $$x_n$$ بزرگترین مقدار خواهد بود.

آماره آزمون دیکسون براساس داده‌های مرتب شده به صورت زیر محاسبه می‌شود.

$$ \large Q = \dfrac{ \text{ gap}}{\text{ range}} $$

که در آن gap فاصله یا قدر مطلق تفاضل بین مقدار مشکوک (بزرگترین یا کوچکترین مقدار) با نزدیک‌ترین مقدار به آن است. همچنین range نیز دامنه تغییرات یا همان فاصله یا تفاضل بین بزرگترین و کوچکترین مقدار را ن  نشان می‌دهد. اگر مقدار آماره Q از مقدار صدک توزیع Q بزرگتر باشد، فرض صفر رد شده و باید نقطه کوچکترین (یا بزرگترین) را به عنوان نقطه پرت در نظر گرفت.

همانطور که مشاهده می‌کنید، نسبت فاصله نقطه مشکوک با نزدیک‌ترین نقطه به آن، مبنای محاسبه در آماره آزمون قرار گرفته است که با تقسیم بر دامنه تغییرات به شکلی بدون مقیاس شده و توزیع آن توسط «دین» و «دیکسون»، تعیین شده است.

معمولا مقدار صدک توزیع دیکسون را به صورت $$Q_{table}$$ نشان می‌دهند که به حجم نمونه و سطح اطمینان (یا خطای نوع اول) مرتبط است. برای مشخص کردن این مقدار، جدول‌هایی در اختیار کاربران قرار گفته است که براساس آن فرض صفر رد یا تایید می‌شود.

برای روشن شدن موضوع به ذکر دو مثال می‌پردازیم.

نحوه اجرای تست Q

قبل از اجرای هر آزمونی که پیش‌نیاز نرمال بودن در آن لحاظ شده، تست نرمالیتی را اجرا کنید. با این کار اطمینان حاصل می‌کنید که مجموعه داده‌های شما قبل از اجرای آزمون، دارای توزیع نرمال بوده و نتایج حاصل، قابل اتکا هستند. روش‌های انجام آزمون نرمالیته، مانند «آزمون شاپیرو ویلک» (Shapiro-Wilk’s Test) و «آزمون دآگوستینو»  (D’Agostino’s Test) را در مجله فرادرس می‌تواند بخوانید.

به یاد داشته باشید، در زمانی که مجموعه داده، دارای تعداد کمی از نمونه تصادفی با جامعه نرمال باشند، تشخیص داده پرت، کار مشکلی می‌شود. در این حالت از آزمون Q استفاده خواهیم کرد. برای روشن شدن موضوع به دو مثال خواهیم پرداخت. در مثال‌های پیش رو فرض بر نرمال بودن نمونه تصادفی است.

نکته: از آزمون Q نباید بیش از یک بار برای مجموعه داده یکسان استفاده شود. بنابراین پس از پیدا کردن یک نقطه پرت، دیگر آزمون را به کار نخواهیم گرفت.

مثال ۱:

مجموعه داده‌ای به صورت زیر را در نظر بگیرید. می‌خواهیم به کمک آزمون Q، مشخص کنیم کدام یک از داده‌ها، پرت محسوب می‌شود.

$$ \large 0.189,\ 0.167,\ 0.187,\ 0.183,\ 0.186,\ 0.182,\ 0.181,\ 0.184,\ 0.181,\ 0.177\, $$

قبل از هر چیز، باید این داده‌ها را از کوچک به بزرگ (یا از بزرگ به کوچک) مرتب کنیم. توجه داشته باشید که اگر به وجود داده پرت در میان مقادیر کوچک مشکوک هستیم، داده‌ها را از کوچک به بزرگ مرتب می‌کنیم. در حالتی که مقدار مشکوک در بین بزرگترین مقادیر پنهان شده باشد، مرتب‌سازی را از بزرگ به کوچک در نظر  می‌گیریم.

پس از مرتب سازی، به داده‌های زیر خواهیم رسید.

$$ \large 0.167,\ 0.177,\ 0.181,\ 0.181,\ 0.182,\ 0.183,\ 0.184,\ 0.186,\ 0.187,\ 0.189\, $$

مقدار gap و range را به صورت زیر محاسبه می‌کنیم.

$$ \large  \text{gap } = | 0.167 - 0.177 | = 0.01 $$

$$ \large  \text{range } = | 0.189 - 0.167 | = 0.022 $$

به این ترتیب مقدار آماره آزمون دیکسون به صورت زیر حاصل می‌شود.

$$ \large {\displaystyle Q = {\dfrac {\text{gap} }{ \text{range} }} = {\dfrac {|0.167 - 0.177|}{0.189 - 0.167}} = 0.455 } $$

با توجه به حضور ۱۰ مشاهده و سطح اطمینان ۹۰٪ یا خطای ۱۰٪ مقدار صدک ۱۰ام توزیع Q برابر است با ۰٫۴۱۲. از آنجایی که مقدار آماره آزمون بزرگتر از صدک توزیع Q است، فرض صفر رد شده و نسبت به پرت بودن مقدار ۰٫۱۶۷ تصمیم می‌گیریم.

$$ \large Q = 0.455 > 0.412 = Q_{\text{table}} $$

نکته: با سطح خطای ۵٪ و یا اطمینان ۹۵ درصدی مقدار آماره آزمون برابر با ۰٫۴۶۶ است، پس با این سطح از اطمینان، فرض صفر رد نشده و مقدار ۰٫۱۶۷ پرت محسوب نمی‌شود.

در جدول زیر بعضی از مقادیر صدک‌های توزیع Q به همراه تعداد مشاهدات و درصد اطمینان آورده شده است که براساس آن می‌توان آزمون‌های مربوط به بررسی نقاط پرت را با روش دیکسون اجرا کرد.

تعداد مشاهدات$$\alpha$$ 345678910
Q90%:10%0.9410.7650.6420.5600.5070.4680.4370.412
Q95%:5%0.9700.8290.7100.6250.5680.5260.4930.466
Q99%:1%0.9940.9260.8210.7400.6800.6340.5980.568

مثلا در این جدول $$Q_{90\%}$$ نشانگر مقدار صدک نودم از توزیع Q است.

مثال 2:

آیا 189 در مجموعه داده زیر پرت یا ناهنجار محسوب می‌شود؟ می‌خواهیم این آزمون را در سطح اطمینان 95٪ (یعنی در سطح آلفای 5٪) مورد بررسی قرار دهیم.

167 ، 180 ، 188 ، 177 ، 181 ، 185 ، 189

برای آن که روال کار بهتر درک شود، آزمون Q دیکسون را به صورت مرحله به مرحله به پیش می‌بریم.

مرحله 1: داده های خود را به ترتیب نزولی (بزرگتر به کوچکتر) مرتب کنید.

167 ، 177 ، 180 ، 181 ، 185 ، 188 ، 189.

مرحله 2: آمار Q را با استفاده از فرمول زیر پیدا کنید. در این رابطه متغیرها به صورت زیر هستند.

  • $$x_1$$: بزرگترین مقدار (مظنون) است.
  • $$x_2$$: دومین مقدار بزرگ است.
  • $$x_n$$: کوچکترین مقدار در مجموعه داده

با قرار دادن مقادیر در فرمول مربوط به آماره آزمون Q، خواهیم داشت:

$$ \large \text{gap } = | 189 - 188 | = 1 $$

$$ \large \text{range } = | 189 - 167| = 22 $$

پس مقدار آماره Q برابر با 0٫0455 خواهد بود.

$$ \large Q = \dfrac{1}{22} = 0.0455 $$

مرحله 3: مقدار Q بحرانی را در جدول صدک‌های توزیع آماره Q پیدا کنید. از آنجا که انداز نمونه ۷ و سطح خطای آزمون (آلفا- $$\alpha$$) برابر با ۰٫۰۵ یا ۵٪ است، مقدار بحرانی یا صدک ۹۵ام برابر با ۰٫568 بدست خواهد آمد.

مرحله 4: آمار Q را از مرحله 2 با مقدار بحرانی Q در مرحله 3 مقایسه کنید. اگر آمار Q از مقدار بحرانی Q بزرگتر باشد، نقطه خارج از محدوده و پرت محسوب می‌شود. واضح است که در غیر این صورت نمی‌توان دلیلی برای پرت بودن آن نقطه در نظر گرفت. به این ترتیب داریم:

آماره = 0٫0455

مقدار بحرانی = 0٫568.

از آنجایی که مقدار 0٫0455 بیشتر از 0٫568 نیست، بنابراین این نقطه در سطح آلفای 5٪ طبق آزمون Q دیکسون، پرت یا ناهنجار نخواهد بود.

فرمول‌ها و جداول جایگزین برای آزمون دیکسون

آماره‌ها و شیوه‌های دیگری برای اجرای آزمون دیکسون نیز وجود دارد. در ادامه متن به بعضی از آن‌ها که بیشتر مورد استفاده قرار می‌گیرند، اشاره خواهیم کرد. البته توجه داشته باشید که هر یک از این آماره‌ها، با توجه به حجم نمونه قابل استفاده است.

آماره آزمون دیکسون $$R_{11}$$

زمانی که حجم نمونه بین ۸ تا ۱۰ مشاهده است، آماره آزمون $$R_{11}$$ مورد استفاده واقع می‌شود. با توجه به نماد و علائمی که در قبل به آن‌ها اشاره کردیم، آماره $$R_{11}$$ به صورت زیر محاسبه می‌شود.

$$ \large r_{11} = \dfrac{x_2 - x_1}{x_{n - 1} - x_{1}} $$

جدول مربوط به چندک‌های توزیع $$R_{11}$$ به صورت زیر است.

nα = 0.001α = 0.002α = 0.005α = 0.01α = 0.02α = 0.05α = 0.1α = 0.2
80.7990.7690.7240.6820.6330.5540.4800.386
90.7500.7200.6750.6340.5860.5120.4410.352
100.7130.6830.6370.5970.5510.4770.4090.325

آماره آزمون دیکسون $$R_{21}$$

اگر حجم نمونه بین ۱۱ تا ۱۳ باشد بهتر است از آماره $$R_{21}$$ استفاده شود. شیوه محاسبه آن مطابق با رابطه زیر است.

$$ \large r_{21} = \dfrac{x_3 - x_1}{x_{n-1} - x_1} $$

جدول نقاط بحرانی برای این توزیع نیز در ادامه قابل مشاهده است.

nα = 0.001α = 0.002α = 0.005α = 0.01α = 0.02α = 0.05α = 0.1α = 0.2
110.7700.7460.7080.6740.6360.5750.5180.445
120.7390.7140.6760.6430.6050.5460.4890.420
130.7130.6870.6490.6170.5800.5220.4670.399

همانطور که مشخص است برای محاسبه دامنه تغییرات (range) مقدار آخر کنار گذاشته شده است. همچنین فاصله مقدار پرت با مقداری که با دو فاصله دورتر از آن قرار گرفته، محاسبه شده است.

آماره آزمون دیکسون $$R_{22}$$

آماره آزمون دیکسون برای اندازه نمونه بین ۱۴ تا ۳۰ به صورت $$R_{22}$$‌ است که نحوه محاسبه آن را در ادامه مشاهده می‌کنید. توجه دارید که در این حالت دامنه تغییرات (range) با اصلاحی همراه بوده و دو مقدار آخر برای محاسبه دامنه کنار گذاشته شده‌اند.

$$ \large r_{22} = \dfrac{x_3 - x_1}{x_{n-2} - x_1} $$

جدول زیر به معرفی مقادیر بحرانی آماره $$r_{22}$$ با سطوح مختلف آزمون ($$\alpha$$) و اندازه نمونه $$n$$، پرداخته است.

nα = 0.001α = 0.002α = 0.005α = 0.01α = 0.02α = 0.05α = 0.1α = 0.2
140.7320.7080.6720.6400.6030.5460.4910.422
150.7080.6850.6480.6170.5820.5240.4700.403
160.6910.6670.6300.5980.5620.5050.4530.386
170.6710.6470.6110.5800.5450.4890.4370.373
180.6520.6280.5940.5640.5290.4750.4240.361
190.6400.6170.5810.5510.5170.4620.4120.349
200.6270.6040.5680.5380.5030.4500.4010.339
250.5740.5500.5170.4890.4570.4060.3590.302
300.5390.5170.4840.4560.4250.3760.3320.278

خلاصه و جمع‌بندی

همانطور که در این متن خواندید، آزمون Q یا همان آزمون کیو دیکسون یکی از روش‌های تشخیص وجود داده پرت در بین مجموعه داده با توزیع نرمال محسوب می‌شود. آزمون دیکسون برای نقاط پرت به سادگی انجام شده و البته توسط بسیاری از نرم‌افزارهای محاسبات آماری نیز قابل اجرا است. در این بین به کمک مثال‌های عددی، آزمون دیکسون برای نقاط پرت را پیاده‌سازی کرده و نتایج حاصل را تفسیر کردیم. همچنین در انتها نیز نسخه‌های دیگری از آماره آزمون دیکسون به همراه جدول‌های نقاط بحرانی آن ارائه و مورد استفاده قرار گرفت. از آنجایی که تعداد مشاهدات در آزمون کیو دیکسون محدود است، در بسیاری از موارد می‌توان محاسبات را به صورت دستی نیز انجام داد.

بر اساس رای ۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
statistics how toWikipediaمجله فرادرس
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *