تناقض سیمپسون (Simpson’s Paradox) — به زبان ساده

۸۶۳ بازدید
آخرین به‌روزرسانی: ۳ خرداد ۱۴۰۲
زمان مطالعه: ۱۱ دقیقه
دانلود PDF مقاله
تناقض سیمپسون (Simpson’s Paradox) — به زبان سادهتناقض سیمپسون (Simpson’s Paradox) — به زبان ساده

در این مطلب به «تناقض سیمپسون» (Simpson's Paradox) می‌پردازیم. این موضوع به ما یادآور می‌شود که عدم توجه به بعضی از جنبه‌های فرض مسئله،‌ ممکن است دو جواب کاملا متناقض برای حل یک مشکل نصیبمان کند. گاهی به جای کلمه تناقض از عبارت پارادوکس نیز در چنین مواردی استفاده می‌شود. بنابراین می‌توان گفت که در اینجا منظور از تناقض همان «پارادوکس سیمپسون» (Simpson's Paradox) است.

997696

تصور کنید که شما و همسرتان، به دنبال یک رستوران خوب برای شام می‌گردید. بنابراین هر کدام از شما با استفاده از  نظرسنجی شبکه‌های اجتماعی مناسب‌ترین رستوران را برای شام امشب جست‌و‌جو می‌کنید. فرض کنید شما رستوران «طلایی» را پیدا کرده‌اید که درصد رضایت بیشتری در بین مردان و زنان را نسبت به رستورانی دارد که همسرتان پیدا کرده است. فرض کنید که نام رستوران منتخب همسر شما، رستوران «خوشمزه» است. هر چند رستوران طلایی درصد رضایت بیشتری را در بین زنان و مردان دارد نسبت به رستوانر خمشمزه دارد ولی همسر شما مدعی است که رستوران او، رضایت کلی بیشتری (بدون در نظر گرفتن جنسیت) نسبت به رستوران طلایی دارد. نکته جالب این است که هر دو براساس یک منبع اطلاعاتی به نتایج کاملا متفاوتی رسیده‌اید. جالب‌تر آن است که به نظر می‌رسد که حق با هر دوی شماست و هر دو دلیل موجهی برای ادعای خود دارید.

مشکل ناشی از چه چیزی است؟ این تناقض نشان دهنده چیست؟ چه کسی به نتیجه صحیح رسیده است؟ آیا نتایج نظر سنجی اشتباه است یا در محاسبات مشکلی وجود دارد؟ از نظر منطقی، هر دوی شما نتیجه صحیحی گرفته‌اید و بدون آنکه بدانید وارد دنیای تناقض سیمپسون شده‌اید. مسئله‌هایی مثل انتخاب بهترین یا بدترین رستوران و انتخاب ورزش مناسب برای کاهش یا افزایش ریسک یک بیماری خاص از جمله مواردی هستند که در آن‌ها براساس داده‌های یکسان ممکن است، استنتاج‌های افراد، کاملا با یکدیگر متناقض باشد. پس مراقب باشید که بحث بر سر این تناقض آماری باعث نشود که امشب از شام رستوران بگذرید.

تناقض سیمپسون (Simpson's Paradox)

این تناقض زمانی رخ می‌دهد که یک مجموعه داده به گروه‌هایی تقسیم شده باشد که نتایج حاصل از آن‌ها در جهت خلاف با حالتی است که داده‌ها تجمیع شده‌اند. در مثال مربوط به رستوران که در بالا ذکر کردیم، به نظر می‌رسد که رستوان طلایی با درصد رضایت بیشتر در بین زنان و مردان باید میزان رضایت بیشتری هم در کل نسبت به رستوران خوشمزه داشته باشد. با استفاده از مثال زیر نشان می‌دهیم که ممکن است چنین چیزی همیشه درست نباشد.

جدول زیر میزان رضایت برای هر دو رستوران را به تفکیک زن و مرد نمایش می‌دهد. با ترکیب میزان رضایت زنان و مردان در سطر آخر مشخص می‌شود که رستوران خوشمزه دارای رضایت بیشتری نسبت به رستوران طلایی است.

رستوران خوشمزهرستوران طلایی
مردان50/150=33.۳٪180/360= 50٪
زنان200/250=80٪36/40=90٪
کل250/400-62.5٪216/400=54٪

همانطور که دیده می‌شود، با اینکه رستوران طلایی در بین زنان و مردان از درصد رضایت بیشتری برخوردار است ولی در حالتی که همه افراد را ،بدون تفکیک از لحاظ جنسیتشان، در نظر می‌گیریم، میزان رضایت از رستوران خوشمزه کمتر خواهد بود. چگونه چنین چیزی ممکن است؟ این تناقض از چه چیزی ناشی می‌شود؟

از آنجایی که برای محاسبه درصدها از حجم نمونه متفاوتی از پاسخ دهندگان استفاده شده است، تناقض سیمپسون ظاهر می‌شود. هر کسر، نسبت تعداد کاربرانی راضی را نسبت به کل کاربران را محاسبه کرده است. در رستوران طلایی، مردانی که نظرشان مورد بررسی قرار گرفته نسبت به زنان خیلی بیشتر هستند و در رستوران خوشمزه، این حالت برعکس اتفاق افتاده است. از آنجایی که تعداد زنانی که در نظرسنجی رستوران طلایی مورد پرسش قرار گرفته‌اند کمتر از مردان است، رضایتشان سهم کمتری نسبت به مردان در محاسبه درصد کل دارد. در ننتیجه میانگین کل اندکی نسبت به میانگین درصد رضایت مردان افزایش یافته است.

در مقابل تعداد زنانی که در نظرسنجی رستوران خوشمزه شرکت کرده‌اند بیشتر از مردان است. در نتیجه سهم آن‌ها در محاسبه درصد کل، بیشتر از مردان است. در اینجاست که پارادوکس سیمپسون رخ داده.

در چنین مواقعی بهتر است تصمیم بگیریم که با توجه به چه جمعیت یا نمونه‌ای می‌خواهیم درصدها را محاسبه کنیم، به تفکیک جنسیت یا بر حسب کل افراد. به هر حال شاید لازم باشد که داده‌ها را به نحوی با یکدیگر ترکیب کنیم ولی باید به نحوه و شیوه جمع‌آوری آن‌ها (که مدل علّی، Causal Model نامیده می‌شود) نیز توجه داشته باشیم. با این کار دیگر دچار پارادوکس سیمپسون نمی‌شویم. در اینجا این سوال مطرح می‌شود که رویکرد مناسب برای انتخاب رستوران چیست؟ اجازه دهید این سوال را بعد از اینکه با یک مثال دیگر آشنا شدیم، پاسخ دهیم.

همبستگی معکوس

به عنوان یک مثال شهودی دیگر از پارادوکس سیمپسون می‌توان به زمانی اشاره کرد که جهت همبستگی داده‌ها با حالتی که آن‌ها را طبقه‌بندی کرده‌‌ایم متفاوت باشد. به یک مثال ساده در این زمینه می‌پردازیم.

فرض کنید که ساعت‌های تمرین در هفته و احتمال پیشرفت یک بیماری برای دو گروه بیمار اندازه‌گیری شده است. گروه اول زیر ۵۰ سال هستند و گروه دوم بالای ۵۰ سال سن دارند. در تصویر زیر برای هر یک از این گروه‌ها، نمودار نقطه‌ای برای سنجش رابطه بین میزان تمرین ورزشی و احتمال پیشرفت بیماری ترسیم شده است.

correlation

کاملا مشخص است که در هر دو گروه میزان فعالیت ورزشی در احتمال پیشرفت بیماری اثر عکس دارد. یعنی با افزایش ساعت ورزش، احتمال پیشرفت بیماری کاهش می‌یابد. حال این داده‌ها را ترکیب کرده و بر اساس اطلاعات ادغام شده در هر دو گروه، ضریب همبستگی بین میزان ساعات ورزش و احتمال پیشرفت بیماری را می‌سنجیم. در تصویر زیر، میزان همبستگی و نمودار رابطه بین دو متغیر را می‌توان مشاهده کرد. حتما این نمودار را با نمودار بالایی مقایسه کنید.

combined correlation

به طرز شگفت‌آوری، ضریب همبستگی مثبت شد. با توجه به این نمودار باید گفت که فعالیت ورزشی باعث افزایش ریسک ابتلا به بیماری می‌شود. پس بهتر است که ورزش نکنیم. این دقیقا متناقض با نتیجه‌ای است که در قسمت قبلی حاصل شد. آیا فعالیت ورزشی می‌تواند هم تاثیر مثبت و هم منفی روی بیماری داشته باشد؟ برای پاسخ به این سوال باید به شکل و شیوه‌ای که این اطلاعات جمع‌آوری شده‌اند، بیشتر توجه کرد.

برطرف کردن تناقض سیمپسون

برای جلوگیری از پارادوکس سیمپسون، که منجر به نتایج متناقض می‌شود، باید  تصمیم بگیریم که استنباط و نتایج را برحسب داده‌های تفکیک شده لازم داریم و یا باید براساس تجمیع داده‌ها تصمیم  مناسب را اتخاذ کنیم. این توضیح شاید واضح باشد ولی مشخص نمی‌کند که چه مواقعی به تفکیک و یا تجمیع احتیاج داریم. پاسخ این سوال در مفهوم تفکر علّی (Think Causally) نهفته است. به این معنی که منشا و پایه اطلاعات تولیدی را بشناسیم و متوجه باشیم که چه عامل یا عواملی، داده‌ها را تحت تاثیر قرار داده‌اند که ممکن است از دید ماه پنهان مانده باشد.

در مثالی که در مورد بیماری و ورزش بیان شد، بطوری شهودی مشخص است که ساعات تمرین ورزشی تنها عامل موثر در بهبود یا پیشرفت بیماری نیست. عوامل دیگر مانند رژیم غذایی، محیط زندگی و وراثت نیز در بروز و پیشرفت بیماری موثر هستند. در حالیکه در نمودار ترسیم شده، فقط احتمال ابتلا به بیماری به همراه ساعات تمرین ورزشی نمایش داده شده است.

در مثال تخیلی ما، فرض کنید که احتمال ابتلا به بیماری به دو متغیر به نام‌های زمان ورزش و سن مرتبط باشد. نمودار ارتباطی بین این عوامل در زیر دیده می‌شود. در این میان، داده‌های جمع‌آوری شده، بیانگر دو نوع عامل برای پیشرفت بیماری هستند. با در نظر گرفتن ارتباط بین احتمال ابتلا به بیماری و ساعات ورزشی، در واقع، عامل سن نادیده گرفته شده است.

cause and effect
عوامل موثر بر پیشرفت بیماری

با توجه به این نکته، اگر برای هر دو گروه بالا 50 و کمتر از ۵۰ سال، مقدار ضریب همبستگی بین احتمال ابتلا به بیماری و سن را محاسبه و نمودار نقطه‌ای بین این مقدارها را ترسیم کنیم، متوجه خواهیم شد که بین سن و احتمال ابتلا به بیماری، همبستگی شدیدی وجود دارد. به این معنی که با افزایش سن، احتمال ابتلا به بیماری نیز افزایش خواهد یافت. به این ترتیب مشخص است که احتمال بیمار شدن برای افراد مسن بیشتر از افراد جوانی است که به میزان برابر ورزش می‌کنند. برای اندازه‌گیری میزان اثر فقط ورزش بر روی بیماری، باید سن را ثابت در نظر گرفته و ساعات تمرین ورزشی را به عنوان متغیر در محاسبات منظور کنیم.

correlation with age
نمودار همبستگی بین سن و احتمال ابتلا به بیماری برای دو گروه سنی

تفکیک داده‌های به گروه‌های مجزا در چنین حالتی می‌تواند یک روش برای ثابت کردن یک متغیر در مقابل تغییر پذیری متغیر دیگر باشد. با این کار، در مثال ما، مشخص می‌شود که برای هر گروه سنی (بالا یا پایین ۵۰ سال)، ساعات تمرین ورزشی احتمال ابتلا به بیماری را کاهش می‌دهد. این همان چیزی است که در نمودارهای اولیه دیده شد. در آنجا با تفکیک داده‌ها به دو گروه، عامل سن بیماران کنترل و همبستگی بین میزان ساعات ورزشی و احتمال ابتلا به بیماری محاسبه شد.

با تشخیص نحوه جمع‌آوری داده‌ها و به کارگیری مدل علّی، پارادوکس سیمپسون قابل حل است. به این ترتیب طبقه‌بندی داده‌ها براساس عواملی که باید تحت کنترل قرار بگیرند چاره کار خواهد بود.

نحوه برخورد ما با پرسش‌ها و مسائل، می‌تواند راه‌گشای حل آن‌ها باشد. در مثال رستوران،‌ می‌خواهیم تشخیص دهیم که کدام رستوان هم از نظر مردان و زنان مورد پسند است. از آنجایی که دسترسی به عوامل دیگری که در سنجش رضایت مشتریان رستوران دخیل است برایمان میسر نیست، مجبور به نادیده گرفتن آن‌ها هستیم در حالیکه برای گریز از تناقض سیمپسون احتیاج به داده‌های بیشتری داریم.

در نتیجه از تنقاض یا پارادوکس سیمپسون می‌توان آموخت که استفاده از داده‌ها به تنهایی کافی نیست و شاید نیاز به کل داستان باشد تا بتوان به تصمیم درست رسید. به بیان دیگر، باید تصویر کامل و کافی از اطلاعات، نظیر نحوه جمع‌آوری آن‌ها و عوامل موثر بر متغیر پاسخ و همچنین متغیرهایی که بر یکدیگر تاثیر گذارند در دسترس باشد تا هنگام تصمیم‌گیری چیزی از قلم نیفتاده باشد و در نهایت نتایج حاصل شده از استنباط برمبنای داده‌ها، دچار تناقض نشود.

اثر پارادوکس سیمپسون در زندگی روزانه

شاید به نظر برسد که این تناقض فقط در مسائل آماری به چشم می‌خورد. ولی می‌توان با مثال‌های متعددی، وجود این تناقض را در دنیای واقعی و زندگی روزمره متوجه شد. یک مثال می‌تواند اثر دو نوع درمان برای سنگ کلیه باشد. فرض کنید روش درمانی A و B دو شیوه برای درمان سنگ کلیه باشند. به نظر می‌رسد که روش A در درمان سنگ‌های کوچک و بزرگ بهتر از روش B است. اما با استنباط بر اساس داده‌های تجمیع شده (بدون در نظر گرفتن اندازه سنگ) به نظر می‌رسد که روش درمانی B بهتر از A است. جدول زیر به درصد موفقیت این درمان‌ها پرداخته است.

درمان / اندازه سنگروش درمانی Aروش درمانی B
سنگ کوچک93٪ = (81/87)87٪= (234/27۰)
سنگ بزرگ73٪=(192/263)69٪= (55/80)
تجمیعی78٪= (273/350)83٪= (289/350)

همانطور که دیده می‌شود، روش درمانی A در درمان سنگ‌های کوچک موفق‌تر از روش B است در حالیکه درصد موفقیت روش درمانی B در کل بیشتر از روش A است. چگونه چنین چیزی ممکن است؟

به نظر می‌رسد که باید به فرآیند تهیه اطلاعات و داده‌ها توجه بیشتری کنیم. هر چند که روش درمانی A بهتر از روش B در درمان سنگ‌های کوچک به نظر می‌رسد ولی وجود سنگ‌های کوچک در کلیه خیلی مساله حادی محسوب نمی‌شود. به همین علت پزشکان بیشتر ترجیح می‌دهند که روش درمانی B را که کمتر تهاجمی است (حتی با نرخ موفقیت کمتر) به کار گیرند زیرا مساله بیمار، خیلی وخیم نیست.

ولی همین پزشکان، برای درمان سنگ‌های کلیه بزرگ که مشکل جدی برای بیمار ایجاد می‌کند، از روش درمانی A که تهاجمی‌تر و البته موثرتر است استفاده می‌کنند. بنابراین اگر  به نظر می‌رسد که روش درمانی A دارای درصد موفقیت کمتری نسبت به روش B است، علت وخیم بودن وضعیت بیمارانی است که از روش A برای درمانشان استفاده شده است در نتیجه تنها روش درمان بر موفقیت روش درمانی موثر نیست بلکه وضعیت وخامت بیماری نیز بر روی موفقیت تاثیر گذار است.

پس از نظر پزشکی روش A نسبت به روش B باید روش بهتر و موثرتری باشد ولی با توجه به تعداد درمانی‌های بیشتری که توسط روش B صورت گرفته، بخصوص روی بیمارهایی که دارای سنگ کلیه کوچک هستند، به نظر می‌رسد که روش B در کل دارای درصد موفقیت بیشتری است.

cause and effect treatments
عوامل موثر بر درمان

اثر یا معلول در این پرسش درمان بیماری است که به دو عامل روش درمان و اندازه سنگ (وخیم بودن بیماری) بستگی دارد. از طرف دیگر انتخاب شیوه درمان به اندازه سنگ بستگی داشته که باعث می‌شود، متغیر اندازه سنگ به صورت متغیر مداخله‌گر (Confounding Variable) نقش داشته باشد.

برای آنکه تشخیص دهیم واقعا کدام روش درمانی مناسب است، باید متغیر مداخله‌گر را به وسیله تفکیک به جای تجمیع کنترل کنیم. به این ترتیب براساس تفکیک داده‌ها متوجه می‌شویم که روش درمانی A، نسبت به روش درمانی B، روی بیمار موثرتر  است. زیرا در هر دو گروه بیماران (سنگ‌های کوچک و بزرگ) دارای درصد موفقیت بزرگتری است.

بنابراین اگر شما دچار سنگ کلیه هستید، براساس جدول بالا، چه سنگ بزرگ داشته باشید یا کوچک، روش درمانی A را انتخاب خواهید کرد، زیرا درصد موفقیت بیشتری دارد و به این ترتیب پارادوکس حل می‌شود.

«گاهی به کارگیری داده‌های تجمیع شده موثر و مفید است ولی در بعضی از مواقع نیز باعث سردرگمی و مخفی کردن واقعیت خواهد شد.»

اثبات یک نظریه و عکس آن

به عنوان یک مثال دیگر در دنیای واقعی از پارادوکس سیمپسون، می‌توان به مسائل حوزه سیاست‌های دولت‌ها و وضعیت اقتصادی کشور توجه کرد.

در جدول زیر درآمد، مالیات و درصد مالیات برای گروه‌های درآمدی مختلف، به تفکیک دو دوره ریاست وزیر اقتصاد و دارایی (دوره A و ‌‌B) ثبت شده است.

همانطور که دیده می‌رسد، براساس ستون مالیات و یا درصد مالیات به نظر می‌رسد که در دوره B نسبت به دوره A مالیات کاهش یافته است ولی در سطر آخر دیده می‌شود که درصد مالیات کل افزایش داشته است. برای حل این تناقض می‌دانیم که باید عوامل موثر بر مالیات را جست‌و‌جو کنیم. به نظر می‌رسد که درصد یا نرخ مالیات تابعی از دو عامل درصد مالیات در هر گروه مشمول مالیات و درآمد مشمول مالیات است. با توجه به تورم (یا افزایش حقوق و دستمزد)‌ در دوره B، درآمد بیشتری در گروه‌های مشمول مالیات قرار گرفته‌اند و درآمدهای مشمول مالیات در گروه‌های درآمدی پایین‌تر کمتر شده. به این ترتیب نرخ مالیات در دوره B به نظر بزرگتر می‌رسد.

برای مثال در دوره A، مجموع درآمد مشمول مالیات در رده درآمدی زیر ۵۰۰۰ برابر با حدود ۴۱ میلیون دلار است. در حالیکه در دوره B در این گروه، میزان درآمد مشمول مالیات تقریبا نصف دوره A است. ولی در دوره A گروهی که بین ۱۵ تا ۹۹ هزار دلار درآمد دارند، درآمد مشمول مالیاتشان حدود ۴۷۰ میلیون دلار است در حالیکه برای دوره B این مبلغ حدود دو برابر یعنی 865 میلیون دلار است. به این ترتیب میزان درآمدی که مشمول مالیات می‌شود در دوره B خیلی بیشتر از دوره A است و انتظار می‌رود که حاصل درآمد دولت از مالیات افزایش یابد. به این ترتیب مشخص می‌شود که در دوره B میزان دریافتی مالیات از اقشار کم درآمد کاهش داشته ولی برای افراد پر درآمد افزایش وجود دارد. در نتیجه درآمد دولت از مالیات افزایش داشته و در نتیجه نرخ مالیات در کل برای دوره B رشد نشان می‌دهد.

به هر حال باید داده‌ها را براساس پرسش و پاسخی که احتیاج داریم با یکدیگر ادغام کنیم. در این مثال دیده می‌شود که سیاست‌های مختلف مالیاتی چگونه اعمال می‌شوند. اگر به عنوان یک فرد با درآمد متوسط به مسئله مالیات نگاه کنیم به نظر می رسد که باید نگران نرخ مالیات در گروه درآمدی خودمان باشیم که به نظر می‌رسد از دوره A به دوره B‌ کاهش داشته است. البته به شرطی که از گروه درآمدی خود در طول دو دوره A و B خارج نشده باشیم.  بنابراین نرخ مالیات در گروه‌های دیگر برای ما اهمیت نخواهد داشت.

چرا پارادوکس سیمپسون مهم است

تناقض سیمپسون بسیار اهمیت دارد زیرا به ما یادآوری می‌کند که داده‌ها آنطور که دیده می‌شوند نیستند. بنابراین به راحتی با نگاه کردن به یک نمودار یا جدول نمی‌توان به یک استنباط یا تحلیل واقعی رسید، بلکه باید روند تولید اطلاعات و عوامل موثر بر نتایج را مورد بررسی و تحلیل قرار داد. به این ترتیب ممکن است شواهد به خوبی بر موضوعی دلالت کنند که منجر به گمراهی شود زیرا همه اطلاعات در اختیار ما در آن لحظه قرار ندارند. بهتر است به جای آنکه به داشته‌های اطلاعاتی حال حاضر تکیه کنیم،‌ به تحقیق پیرامون موضوع مورد بررسی بپردازیم و داده‌ها و اطلاعات جدید جمع‌آوری کنیم تا به کمک تفکر عمیق و علمی، به نتایج منطقی‌تر و موثرتری برسیم.

داده‌ها و اطلاعات، ابزار و سلاح قدرتمندی هستند،‌ هم می‌توانند به ما کمک کنند و هم ما را به گمراهی بکشند.

هنگامی که از کم و کیف تولید داده‌ها و چگونگی جمع‌آوری آن‌ها مطلع شدیم به دنبال عوامل موثر می‌گردیم تا روابط علت و معلولی را کشف کنیم. این کار نه تنها یک روال پژوهش علمی محسوب می‌شود بلکه ما را از کسب نتایج انحرافی از داده‌ها و اطلاعات برحذر می‌دارد. به این منظور بهتر است از تجربیات افرادی که در زمینه مورد نظر تخصص دارند و بهتر می‌توانند روابط علت و معلولی را تشخیص دهند کمک بگیریم. همانطور که داده‌ها و اطلاعات می‌توانند به ما چراغی فروزان برای روشن کردن راه پر پیچ و خم تحلیل داده‌ها بدهند، ممکن است با غفلت از رفتار داده‌ها و روابط بین آن‌ها به گمراهی کشیده شویم و تصمیمات نادرست را اتخاذ و اجرایی کنیم.

تناقض سیمپسون یک پدیده آماری جذاب است که نشان می‌دهد تفکر منطقی و منتقدانه می‌تواند سپری در برابر دغلکاری و گمراه‌کنندگی داده‌ها باشد.

اگر این مطلب برایتان مفید بوده است،‌ آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Towards Data Science
۱ دیدگاه برای «تناقض سیمپسون (Simpson’s Paradox) — به زبان ساده»

سلام و تشکر برای مطلب مفید و آموزنده حتی برای من با زمینه متفاوت از آمار. یک سوال: چطور میشه مثالی برای این پارادوکس در صنعت رباتیک مثلا رباتهای مسیریاب عنوان کرد. فرض اینکه از نطقه شروع تا پایان ممکنه مسیرهای متعددی طی بشه با احتمالهای متفاوت. آیا مواردی که به پایان نمیرسند‌ممکنه منجر به این پارادوکس بشه؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *