اعداد پرت (Outliers) و تاثیر آنها بر میانگین، میانه و مد

۲۳۵۰ بازدید
آخرین به‌روزرسانی: ۱۱ اردیبهشت ۱۴۰۲
زمان مطالعه: ۲ دقیقه
اعداد پرت (Outliers) و تاثیر آنها بر میانگین، میانه و مد

"اعداد پرت" یا "داده های پرت" (Outliers) مقادیری هستند که مکانشان "دورتر از" از سایر مقدار ها است.

فهرست مطالب این نوشته

هنگام جمع آوری داده ها، گاهی اوقات با برخی داده ها روبرو می شویم که "دورتر" از گروه اصلی داده ها هستند... با این داده ها چکار کنیم؟

مثال: پرش بلند

یک مربی جدید با تیم پرش بلند کار کرده، و عملکرد ورزشکاران فرق کرده است.

مسعود اکنون 0.15 متر بیشتر از گذشته می پرد و علی و حسین نیز 0.06 متر بیشتر می توانند بپرند.

تمامی داده های ما به شرح زیر است:

  • مسعود: 0.15+ متر
  • سعید: 0.11+ متر
  • علی: 0.06+ متر
  • حسین: 0.06+ متر
  • اشکان: 0.12+ متر
  • بهنام: 0.56- متر

نه!! بهنام بدتر شده!!...

نتایج روی خط اعداد به شکل زیر است:

اعداد پرت1

میانگین برابر است با:

(0.15 + 0.11 + 0.06 + 0.06 + 0.12 - 0.56) / 6 = - 0.06 / 6-0.01m

پس، به طور میانگین عملکرد بازیکنان بدتر شده است.

مربی به وضوح به درد نمی خورد... درست است نه؟

خرابکاری بهنام همان "عدد پرت" در این قضیه است... پس اگر این عدد را حذف کنیم چطور؟

-

مثال: پرش بلند (ادامه)

بیایید نتایج را بدون بهنام امتحان کنیم:

(0.15 + 0.11 + 0.06 + 0.06 + 0.12) / 5 = 0.5 / 50.1m

عجب... مربی اینجا خیلی بهتر به نظر می رسد!

اما آیا این حذف کردن عادلانه است؟ آیا می توانیم اعدادی را که دوست نداریم به سادگی حذف کنیم؟

 

چه کار کنیم؟

باید فکر کنید که "چرا آن عدد در آنجا قرار گرفته است؟"

ممکن است بالا و یا پایین بودن اعداد بسیار عادی باشد... .

مثلا

  • قد مردم می تواند بلند یا کوتاه باشد
  • بعضی روز ها قطره ای باران نمی آید، اما برخی روز ها می تواند بارش شدید و مداومی باشد
  • ورزشکاران در روزهای مختلف بهتر یا بدتر عمل می کنند

و شاید دلیل غیر عادی برای داده های بسیار متفاوت وجود داشته باشد...

 

مثال: پرش بلند (ادامه)

پس از سوال و جواب می فهمیم که حال بهنام آن روز خوب نبوده است! هیچ تقصیر مربی نبوده...

پس ایده خوبیست که در این مورد نتیجه بدست آمده از بهنام را حذف کنیم.

وقتی که ما اعداد پرت را حذف می کنیم، در واقع داده ها را تغییر می دهیم، و از این به بعد "دست نخورده" محسوب نمی شود، پس ما نباید اعداد پرت را بدون دلیل مناسب حذف کنیم!

و وقتی که می خواهیم از شر آنها خلاص بشویم، باید توضیح دهیم که چکار می کنیم و چرا این کار را انجام می دهیم.

 

میانگین، میانه و مد

دیدیم که چگونه اعداد پرت بر میانگین تاثیر داشتند، و اما در مورد میانه و مد چگونه است؟

مثال: پرش بلند (ادامه)

میانه (مقدار "وسطی"):

  • با احتساب بهنام برابر است با: 0.085
  • بدون احتساب بهنام برابر است با: 0.11 (کمی بالاتر رفت...)

مد (معمول ترین عدد):

  • با احتساب بهنام برابر است با: 0.06
  • بدون احتساب بهنام برابر است با: 0.06 (فرقی نکرد...)

مد و میانه فرق چندانی نکرد.

همچنین آنها نزدیک جایی که بیشتر داده ها هستند ماندند.

-

پس به نظر اعداد پرت بیشترین تاثیر خود را روی میانگین دارند، و روی میانه و یا مد چندان تاثیری ندارند.

راهنمایی: میانه و مد را با احتساب اعداد پرت محاسبه کنید.

حال که مفهوم اعداد پرت را مطالعه کردید، ممکن است که مطالب آموزشهای زیر از فرادرس برای شما مفید باشند:

بر اساس رای ۱۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Mathisfun
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *