۱۵ مورد رایج خطا در تحلیل داده — راهنمای تصویری و کاربردی

۵۴۷ بازدید
آخرین به‌روزرسانی: ۱۴ شهریور ۱۴۰۲
زمان مطالعه: ۵ دقیقه
۱۵ مورد رایج خطا در تحلیل داده — راهنمای تصویری و کاربردی

داده‌ها در اقتصاد داده‌محور امروز نقش انکارناپذیری در کسب بینش‌های نوین، تصمیم‌گیری‌ها و ساخت محصولات جدید دارد. در واقع امروزه شاهد سیل فزاینده داده‌ها هستیم که حجم‌شان هر دو سال دو برابر می‌شود و تا سال 2025 به عدد حیرت‌انگیز 175 هزار اگزابایت داده خواهیم رسید. این عدد بسیار بزرگ و تصور کردن آن کاری دشوار است. برای آن که تخمینی از این عدد در ذهن خود داشته باشید، باید اشاره کنیم که این مقدار داده معادل 1,000,000,000 گیگابایت داده است. پنج اگزابایت داده تقریباً معادل همه واژه‌هایی است که بشر در عمر خود صحبت کرده است. بدیهی است که وقتی صحبت از  این حجم داده و تحلیل آن‌ها می‌شود، بروز خطا نیز ناگزیر خواهد بود. با ما همراه باشید تا با انواع مختلف خطا در تحلیل داده و توضیح آن‌ها آشنا شوید.

انواع رایج خطا در تحلیل داده

چنان که شاید متوجه شده باشید، بررسی همه این داده‌ها چالش بسیار بزرگی محسوب می‌شود. داده‌ها معمولاً شکل‌های بسیار مختلفی دارند و تحلیل همه آن‌ها آسان نیست. در نتیجه اغلب وسوسه می‌شویم که میانبرهایی روی داده‌ها به کار گیریم یا این که تلاش می‌کنیم داده‌های ورودی را با نمادهای از پیش مشخصی که با آن‌ها آشنا هستیم، تطبیق دهیم. در تصاویر زیر برخی از مغالطه‌های رایج را مشاهده می‌کنید که افراد در زمان تحلیل داده‌ها مرتکب می‌شوند.

15 مورد رایج خطا در تحلیل داده

در این بخش با 15 مورد رایج از خطا در تحلیل داده آشنا می‌شویم.

خطای انتخاب گزینشی (Cherry Picking)

در این نوع مغالطه، فرد نتایجی که با ادعایش مطابقت دارد را انتخاب کرده و آن‌هایی که ادعایش را رد می‌کند، کنار می‌گذارد.

خطای لایروبی داده‌ها (Data Dredging)

خطا در تحلیل داده

در این مغالطه، فرد اقدام به تست کردن فرضیه‌های مختلف روی یک مجموعه داده ثابت می‌کند و برخی از آن‌ها که فرضیه‌اش را تأیید می‌کند گزارش کرده و بقیه را کنار می‌گذارد. به این ترتیب فرد نمی‌تواند درک کند که اغلب همبستگی‌هایی که مشاهده می‌کند، نتیجه تصادف است.

خطای اثر کبرا (Cobra Effect)

خطا در تحلیل داده

در این حالت اقدامی انجام می‌یابد که نتیجه آن معکوس چیزی است که در ابتدا قصد شده بود. این خطا به نام «نیت معکوس» نیز نامیده می‌شود.

خطای علیت نادرست (False Causality)

خطا در تحلیل داده

در این حالت فرد به اشتباه تصور می‌کند که وقتی دو رویداد در ظاهر مرتبط با هم رخ می‌دهند، لزوماً باید نتیجه یکدیگر باشند.

خطای سوگیری نمونه (Sampling Bias)

خطا در تحلیل داده

در این حالت فرد از یک مجموعه داده نتایجی به دست آورده و به جامعه مورد نظر تعمیم می‌دهد، اما نمونه مورد مطالعه نسبت به جمعیتی که باید مطالعه شود، گویا نیست.

خطای قمارباز (Gambler)

خطا در تحلیل داده

در این حالت فرد به نادرست بر این باور است که وقتی اتفاقی در گذشته بیشتر از حد معمول رخ داده است، در آینده باید کمتر رخ بدهد (و یا برعکس).

خطای بازگشت به میانگین (Regression towards the mean)

در این حالت فرد تصور می‌کند وقتی اتفاقی افتاده که به طور نامعمولی بد یا خوب است، در طی زمان به سمت مقدار میانگین خود بازخواهد گشت.

خطای پارادوکس سیمپسون (Simpson Paradox)

این حالت زمانی ایجاد می‌شود که روندی در زیرمجموعه‌های مختلفی از داده‌ها رخ دهد، اما هنگامی که این زیرمجموعه‌ها را با هم ترکیب می‌کنیم، این روند ناپدید شده و یا حتی معکوس می‌شود.

خطای بیش‌برازش (Overfitting)

در این حالت، فرد یک مدل ایجاد می‌کند که به طور کلی برای داده‌هایی که مورد بررسی هستند مناسب است، اما گویای روند کلی نیست.

خطای سوگیری انتشار (Publication Bias)

خطا در تحلیل داده

این خطا نشان می‌دهد که نتایج تحقیقاتی که جالب‌تر هستند، احتمال بیشتری برای پذیرش انتشار دارند و از این جهت درک ما از واقعیت را مورد اعوجاج قرار می‌دهند.

خطای سوگیری بقا (Survivorship Bias)

در این حالت از روی مجموعه ناقصی از داده‌ها، نتیجه‌گیری می‌شود، زیرا تنها بخشی از داده‌ها بر اساس یک معیار گزینشی باقی مانده‌اند.

خطای کژحوزه‌بندی (Gerrymandering)

خطا در تحلیل داده

در این حالت، مرزهای جغرافیایی به منظور گروه‌بندی داده‌ها جهت تغییر دادن یک نتیجه خاص دستکاری می‌شوند.

خطای اثر هاوثورن (Hawthorne Effect)

این خطا بیان می‌کند که نظارت کردن بر یک فرد می‌تواند بر رفتار او تأثیر بگذارد و منجر به یافته‌های نادرستی شود. این حالت به نام «اثر مشاهده‌گر» نیز نامیده می‌شود.

مغالطه مک‌نامارا (McNamara fallacy)

خطا در تحلیل داده

در این حالت فرد تنها روی برخی معیارها در موقعیت‌های پیچیده تمرکز می‌کند و به این ترتیب تصویر بزرگتر را از دست می‌دهد.

خطر معیارهای خلاصه (Summary Metrics)

خطا در تحلیل داده

در این حالت فرد تنها به بررسی معیار‌های خلاصه‌بندی شده می‌پردازد و از این رو تفاوت‌های فاحشی که در داده‌های خام وجود دارد را از دست می‌دهد.

همه خطاهای فوق را به صورت یک‌جا و در اینفوگرافی جامع تصویر زیر می‌توانید مشاهده کنید. برای دانلود تصویر روی این لینک (+) کلیک کنید. همچنین در صورتی که قصد دارید این اینفوگرافی را پرینت بگیرید، می‌توانید این فایل PDF مناسب چاپ (+) را دانلود کنید.

خطا در تحلیل داده
برای مشاهده تصویر در اندازه اصلی روی آن کلیک کنید.

توضیح برخی از انواع خطای رایج در تحلیل داده

مغالطه‌ها باعث می‌شوند که ما به دنبال کشیدن خال زیر محل اصابت تیر به سیبل باشیم و از این رو نمی‌توانیم داده‌ها را به روشی منطقی، منسجم و روش‌مند تفسیر کنیم. برای جلوگیری از این حالت باید موارد رایج خطا در تحلیل داده را بشناسیم و بدانیم که چگونه خطاها موجب انحراف تفسیرهای ما می‌شوند. در این بخش با بررسی برخی مثال‌ها با انواع خطاها و مغالطه‌های رایج که پیشتر اشاره کردیم، بیشتر آشنا خواهیم شد.

سوگیری بقا

هنگامی که افراد به دنبال بررسی مهارت‌هایی هستند که یک کارآفرین موفق داشته است، به طور معمول به بررسی جامعه کنونی کارآفرین‌های موفق می‌پردازند. اما باید بدانید که وقتی نمونه مورد بررسی را به گروه باقی‌ماندگان کارآفرین‌ها محدود می‌کنید، ریسک مواجهه با سوگیری بقا را به همراه دارد.

درس‌هایی وجود دارند که می‌توان از همه کارآفرین‌هایی که شکست خورده‌اند آموخت، اما پیدا کردن این موارد دشوارتر است. با ادغام این داده‌ها با داستان موفقیت کارآفرین‌ها می‌توانیم تصویر کامل‌تری به دست آوریم.

علیت نادرست

آیا می‌دانید بین نرخ ازدواج در ایالت کنتاکی آمریکا و تعداد افرادی که هر سال بر اثر بیرون افتادن از قایق در این ایالت غرق می‌شوند، 95% همبستگی وجود دارد؟

برای نمایش تصویر در اندازه کامل روی آن کلیک کنید.

آیا این همبستگی بدان معنا است که رابطه‌ای بین این دو متغیر وجود دارد؟ باید توجه داشت که وجود یک نرخ همبستگی بالا می‌تواند صرفاً بر اثر یک تصادف محض باشد. با این حال ارتکاب خطای «علیت نادرست» یکی از رایج‌ترین خطاهای آماری اغلب افراد تازه‌کار است.

خطای قمارباز

اگر چرخ رولت 26 بار پشت سر هم روی ناحیه مشکی بایستد، آیا تضمینی هست که در دفعه 27 روی ناحیه قرمز بایستد؟

شاید اکنون که این سؤال را می‌خوانید به سادگی بگویید که ضریب موفقیت تغییری نمی‌یابد، اما آیا وقتی در چنین موقعیتی قرار گرفته‌اید نیز این طور فکر می‌کنید؟ خطای قمارباز در زمان تحلیل داده‌ها نیز رخ می‌دهد. این که اتفاقی در طی زمان به طور نامعمول بیش از حد نرمال رخ ‌دهد، بدان معنی نیست که در نهایت این مقدار اضافه از سوی طبیعت به حالت نرمال باز خواهد گشت.

اثر کبرا

ما می‌توانیم از داده‌ها برای اندازه‌گیری پیشرفت در رسیدن به اهداف تجاری کمک بگیریم، اما چه می‌شود اگر نیتی برای بازی گرفتن این اهداف در میان باشد؟

بانک «ولز فارگو» (Wells Fargo) یک ابتکار برای افزایش فروش به مشتریان موجود خود طراحی کرد و نام آن را «هشت خوب است» گذاشت. به طور خلاصه در این طرح هر کارمند بانک باید هشت حساب را به مشتریان می‌فروخت که این حساب‌ها می‌توانستند به صورت کارت اعتباری، حساب‌های پس‌انداز و دیگر سرویس‌های مالی باشند.

همان طور که می‌دانیم گاهی اوقات نیت‌های خوب به نتایج خوبی منتهی نمی‌شوند. در این مورد نیز کارمندان بانک فارگو شروع به نقض قوانین برای دست یافتن به هدف هشت حساب کردند. به این ترتیب میلیون‌ها حساب سپرده‌گذاری و کارت اعتباری غیرمجاز به خاطر این ابتکار بازاریابی ایجاد شد. در نهایت بانک فارگو مجبور به پرداخت جریمه‌ای برابر با 142 میلیون دلار شد.

سخن پایانی

کار با داده‌ها بسیار حساس و خطیر و به طور مداوم در معرض بروز خطاهای گوناگون است. همچنین برخی افراد با اهداف متفاوت اقدام به سوء‌استفاده از مغالطه‌های مختلف می‌کنند تا ادعاهای خود را علمی جلوه بدهند. آشنایی با انواع مختلف خطا در تحلیل داده‌ها به شما کمک می‌کند که در زمان اجرای تحلیل روی داده‌ها از بروز چنین مواردی جلوگیری کنید همچنین در صورتی که شخصی بخواهد با توسل به مغالطه‌های مختلف شما را فریب دهد، می‌توانید سره را از ناسره تشخیص داده و راه درست را انتخاب کنید. در این مطلب تلاش کردیم تا شما را با برخی از رایج‌ترین انواع خطا در تحلیل داده‌ها آشنا سازیم.

بر اساس رای ۱۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
visualcapitalist
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *