داده‌ های سانسور شده (Censored Data) در آمار — به زبان ساده

۸۵۲ بازدید
آخرین به‌روزرسانی: ۰۲ خرداد ۱۴۰۲
زمان مطالعه: ۴ دقیقه
داده‌ های سانسور شده (Censored Data) در آمار — به زبان ساده

در آمار، مهندسی، اقتصاد و تحقیقات پزشکی، منظور از «سانسور کردن» (Censoring)، ثبت و اندازه‌گیری بخشی از اطلاعات مربوط به مشاهدات یا متغیرها است. برای مثال فرض کنید که قرار است اثر یک دارو روی نرخ مرگ و میر اندازه‌گیری شود. گفتنی است که این دارو به گروهی از افراد داده شده و می‌دانیم که یکی از آنها در سن ۷۵ سالگی از بررسی‌های پزشکی انصراف داده است. اگر این فرد از داده‌های آزمایشگاهی خارج شود اطلاعاتی که توسط او تولید شده، از بین می‌رود. از آنجایی که می‌دانیم که در هنگام خروج از آزمایش پزشکی ۷۵ ساله بوده، می‌توان این اطلاع را کسب کرد که سن مرگ او با توجه به مصرف دارو بیشتر از ۷۵ سال است. استفاده از داده های سانسور شده و اطلاعات حاصل از آن‌ها در استنباط آماری و یا برآورد پارامترهای مربوط به متوسط سن فوت برای این گونه افراد باعث افزایش دقت برآوردها خواهد شد. از داده های سانسور شده بیشتر برای بررسی طول عمر در مباحث «قابلیت اعتماد» (Reliability) استفاده می‌شود؛ این مباحث به بررسی زمان خرابی یا طول عمر قطعات و دستگاه‌ها می‌پردازند.

داده های سانسور شده (Censored Data)

ممکن است مقدار اندازه‌گیری شده برای یک متغیر، خارج از محدوده قابل اندازه‌گیری برای آن باشد در نتیجه آن داده‌ را سانسور می‌کنیم. چنین داده‌هایی را داده های سانسور شده می‌نامیم. برای مثال احتمال دارد یک ترازو برای اندازه‌گیری وزن به ۱۵۰ کیلوگرم محدود باشد. حال اگر فردی با وزن ۱۶۰ کیلوگرم در بررسی پزشکی وجود داشته باشد، امکان اندازه‌گیری وزن او وجود ندارد. با کنار گذاشتن این فرد اطلاعات مفیدی که ممکن است از او بدست آوریم را از بین برده‌ایم ولی داده سانسور شده به ما می‌گوید که وزن او از ۱۵۰ کیلوگرم بیشتر بوده.

در این جا باید تفاوت مهم بین داده‌های ناموجود و یا «داده گمشده» (Missing Data) و «داده سانسور شده» (Censoring Data) را در نظر بگیریم. در داده‌های گمشده، مقدار متغیر مشاهده نشده است و هیچ اطلاعاتی از حدود آن وجود ندارد در حالیکه در داده های سانسور شده که معمولا در طی زمان جمع‌آوری شده، ناموجود مقدار برای یک زمان به بعد، همراه اطلاعاتی است که محدوده یا کران پایین یا بالا برای مقداری سانسور شده را در خود دارد.

همچنین توجه داشته باشید که سانسور کردن به معنای «برش» (Truncation) داده‌‌ها نیست. زیرا برش دادن داده‌ها، عملی است که روی مقدارهای مشاهده شده به منظور محدود کردن آن‌ها در یک فاصله صورت می‌پذیرد و اجازه  ثبت مقدارهایی خارج از محدوده مورد نظر برای مشاهدات را نمی‌دهد. در حالیکه سانسور کردن به این معنی است که محقق اطلاع دارد که مقدار متغیر در یک محدوده یا فاصله قرار دارد و با توجه به این اطلاع مقداری را برای متغیر مورد نظر محدود می‌کند.

نکته: در بیشتر تحلیل‌های مربوط به طول عمر، تابع توزیع متغیر تصادفی طول عمر را نمایی فرض می‌کنند.

انواع سانسور

با توجه به شیوه بررسی علمی و آماری،‌ روش‌های مختلفی برای سانسور کردن داده‌ها وجود دارد. توجه داشته باشید که اگر x متغیر طول عمر باشد، مجموعه مقادیر آن اعداد حقیقی مثبت هستند. در ادامه به معرفی بعضی از این روش‌ها می‌پردازیم:

  • سانسور چپ: مقدار سانسور شده ($$x$$)، دارای کران بالا است. به این معنی که می‌دانیم از مثلا b کوچکتر است ولی مشخص نیست که اختلاف آن با b چقدر است ($$x<b$$).
  • سانسور راست: مقدار سانسور شده ($$x$$)، دارای کران پایین است. به این معنی که می‌دانیم از مثلا a بزرگتر است ولی مشخص نیست که اختلاف آن با a چقدر است ($$a<x$$).
  • سانسور دو طرفه: مقدار سانسور  شده ($$x$$)، دارای کران پایین و بالا است. به این معنی که می‌دانیم از مثلا a بزرگتر و از b کوچکتر است ولی مشخص نیست که اختلاف آن با b یا a چقدر است ($$a\leq x\leq b$$).
left and right censored data
داده‌های سانسور شده از راست و چپ
  • سانسور نوع اول (Type I Censoring): فرض کنید در یک طرح تحقیقاتی باید چندین نمونه مورد بررسی و آزمایش قرار گیرند. ولی با توجه به اینکه بررسی این نمونه‌ها زمان‌بر است، آزمایش را تا یک زمان مشخص متوقف کرده و از آن زمان به بعد بقیه نمونه‌ها را از راست سانسور می‌کنیم.
  • سانسور نوع دوم (Type II Censoring): فرض کنید در یک طرح تحقیقاتی باید چندین نمونه مورد بررسی و آزمایش قرار گیرند. ولی با توجه به اینکه بررسی این نمونه‌ها زمان‌بر است، آزمایش را تا زمانی که تعداد مشخصی از نتایج مورد نظر بدست آید ادامه می‌دهیم و بقیه نمونه‌ها را از راست سانسور می‌کنیم.
  • سانسور تصادفی (Random, Non-informative Censoring): در این شیوه، زمان سانسور هر مشاهده مستقل از زمان معیوب شدن آن است.

همانطور که دیده می‌شود، سانسور چپ و راست حالت خاصی از سانسور دو طرفه هستند. سانسور چپ همان سانسور دو طرفه است اگر کران پایین را صفر در نظر بگیرم. همچنین سانسور راست نیز همان سانسور دو طرفه است اگر کران بالا را $$+\infty$$ محسوب کنیم.

داده‌های سانسور شدهروش‌های تحلیل و کاربردها

برای انجام تحلیل روی داده‌های سانسور شده، روش‌های خاصی وجود دارد. همینطور نرم‌افزارهای آماری زیادی که برمبنای قابلیت اعتماد و آنالیز بقا ایجاد شده‌اند، امکان برآورد پارامترهای جامعه یا ایجاد فاصله اطمینان را می‌دهند. این کار برای داده‌های سانسور شده به کمک تکنیک «حداکثر درستنمایی» (Maximum Likelihood) انجام می‌شود. یکی از قدیمی‌ترین تحلیل‌ها آماری روی داده‌های سانسور شده، توسط «دانیل برنولی» (Daniel Bernoulli) در سال 1766 میلادی به منظور بررسی شیوع و میزان مرگ و میر بیماری آبله انجام گرفت. او با این کار می‌خواست میزان واگیری بیماری و اثربخشی واکسن آبله را نشان دهد.

همچنین در مباحت قابلیت اعتماد (Reliability)، معمولا آزمایش‌هایی صورت می‌گیرد تا در شرایطی مشخص زمان از بین رفتن یا وقوع خطا در یک مولفه (فوت فرد بیمار یا ایراد در قطعه صنعتی) اندازه‌گیری شود. گاهی در زمان تعیین شده برای انجام آزمایش، مولفه دچار شکست نمی‌شود. برای مثال ممکن است در طول یک روز راننده قطار هیچ خطایی نداشته باشد و یا دستگاه تولید منگنه در طول یک ساعت بدون تولید یک قطعه معیوب فعالیت کند. در چنین حالت‌هایی استفاده از داده‌های سانسور شده یک ضرورت و اجبار است.

گاهی مهندسین برای تست خط تولید، آزمایشی را طراحی می‌کنند که مثلا بعد از گذشت یک زمان مشخص یا مشاهده تعداد خطاهای از قبل مشخص شده، آزمایش خاتمه یابد. در این حالت در زمان توقف آزمایش داده‌های سانسور شده از راست ایجاد می‌شود. در بعضی از موارد ممکن است روی یک مولفه چندین بار آزمایش به صورت مکرر انجام گیرد. در این حالت چنین داده‌هایی هم شامل مقادیر مربوط به زمان شکست مولفه‌هایی است که دچار خطا شده‌اند و هم در برگیرنده مولفه‌هایی است که در زمان اتمام آزمایش دچار خطا نشده‌اند.

censored data plot
انجام آزمایش‌های تکراری و داده‌های سانسور شده

خلاصه

در این نوشتار با چند نوع روش سانسور و داده های سانسور شده آشنا شدیم و کاربردهای هر یک از آن‌ها را فرا گرفتیم. همنطور که دیده شد، نوع سانسور در پیش‌بینی طول عمر بسیار موثر است. برای آگاهی بیشتر در زمینه انواع سانسورها و کاربردهای آن‌ها می‌توانید ویدئوی آموزش مقدماتی نظریه قابلیت اعتماد را مشاهده کنید.

اگر مطلب بالا برای‌تان مفید بوده است، آموزش‌هایی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۹ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
۱ دیدگاه برای «داده‌ های سانسور شده (Censored Data) در آمار — به زبان ساده»

سلام خسته نباشید
من طول عمر توزیع نمایی براساس داده های سانسور شده ی نوع ۱ رو میخواستم ؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *