انطباق امتیاز گرایش در آمار | به زبان ساده

۶۸۲ بازدید
آخرین به‌روزرسانی: ۲۸ خرداد ۱۴۰۲
زمان مطالعه: ۹ دقیقه
انطباق امتیاز گرایش در آمار | به زبان ساده

در آمار و تحلیل داده‌ها، «انطباق امتیاز گرایش» (Propensity score matching) یک روش مطابقت آماری است که سعی دارد اثر تیمار‌ها را به کمک متغیرهای همبسته (Covariates) پیش‌بینی کند. در روش انطباق امتیاز گرایش، اریبی (Bias) نسبت به مقایسه‌های ساده‌ای که روی نتایج یا اثر تیمارها اجرا می‌شود، کاهش یافته و اثر متغیرهای همبسته و مزاحم در این میان از بین می‌رود.

به منظور آشنایی با روش‌های مطابقت براساس ماتریس همبستگی (Correlation Matrix) بهتر است نوشتارهای دیگر مجله فرادرس را با عناوین، ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها — به زبان ساده و کوواریانس و نحوه محاسبه آن — به زبان ساده بخوانید. همچنین خواندن مطلب امید ریاضی (Mathematical Expectation) — مفاهیم و کاربردها و نیز نوشتار وابستگی، کوواریانس و ضریب همبستگی در علم داده — راهنمای کاربردی نیز خالی از لطف نیست.

انطباق امتیاز گرایش

یکی از علت‌های ظهور «اریبی» (Bias) در تعیین اثر «تیمار» (Treatments)، استفاده از مقایسه نتایج حاصل از گروه‌های تیمار شده و تیمار نشده است که به کمک یک متغیر عامل تعیین می‌شود. در این حالت به جای اندازه‌گیری اثر تیمار، «پیش‌بینی اثر تیمار» (Predict Treatment) صورت می‌گیرد.

روش تطبیق امتیاز گرایش (PSM) توسط دو دانشمند و آمارشناس آمریکایی «روزن‌بام» (Paul Rosenbaum) و «روبین» (Donald Rubin) طی مقاله‌ای که در مجله «بایومتریکا» (Biometrica) در سال ۱۹۸۳ منتشر کردند، معرفی و به کار گرفته شد.

یکی از روش‌های از بین بردن اریبی در چنین حالتی استفاده از «طرح آزمایشات تصادفی شده» (Randomized Experiments) است. به این ترتیب برای هر «متغیر همبسته» (Covariate Variable)، تصادفی‌سازی به کار رفته که بین گروه‌های تیمار شده یک تعادل ایجاد می‌کند. این امر یکی از نتایج حاصل از قانون اعداد بزرگ (Law of Large Numbers) است.

randomized-controlled-trial

متاسفانه تحلیل براساس مشاهدات، به سادگی تصادفی‌سازی نمی‌شوند، به همین دلیل تطبیق دادن، سعی دارد که اریبی حاصل از نسبت دادن افراد به تیمارها را کاهش دهد. این کار بوسیله انجام عملیاتی شبه تصادفی صورت می‌گیرد. به این ترتیب نمونه‌ای از واحدهای مشاهده شده که تیمار را دریافت کرده‌اند و گروهی که تیمار رویشان اثر نکرده، تهیه شده و میزان همبستگی بین آن‌ها محاسبه می‌شود.

برای مثال فرض کنید محققی علاقه به تعیین اثر سیگار کشیدن روی سلامتی افراد دارد. مشخص است که یک «مطالعه مشاهده‌ای» یا «مطالعه بالینی» (Observational Study) نیاز است؛ زیرا نمی‌توان افراد را به زور سیگاری و غیرسیگاری کرد و از بین آن‌ها یک طرح کاملا تصادفی را اجرا نمود. در نتیجه انتخاب افراد سیگاری در گروه سیگاری‌ها و غیرسیگاری در گروه غیرسیگاری‌ها ضروری است.

به این ترتیب افرادی که سیگاری هستند به دسته سیگاری‌ها و کسانی که دخانیات استعمال نمی‌کنند در دسته غیرسیگاری طبقه‌بندی می‌شوند. بنابراین اثر سیگار بر سلامتی به سادگی با مقایسه افراد سیگاری و غیرسیگاری صورت می گیرد. این کار باعث می‌شود که عامل‌های دیگر (متغیرهای همبسته و مداخله‌گر) که روی پیش‌بینی سیگاری بودن اثر دارند، اریبی ایجاد کنند. مثلا سن و جنسیت از فاکتورهایی هستند که ممکن است روی سیگاری بودن افراد تاثیرگذار باشند.

تطبیق امتیاز گرایش (Propensity score matching) که گاهی به اختصار آن را PSM‌ نیز می‌نامند، باعث کنترل این عوامل شده و اثر تیمار را با مقایسه بین دو گروه تیمار و غیرتیمار با کنترل متغیرهای همبسته و مداخله‌گر، محاسبه می‌کند.

تکنیک‌های مورد نیاز در انطباق امتیاز گرایش

روش PSM یه عنوان یک تکنیک علت و معلولی شناخته می‌شود و برای مقایسه بین مشاهدات تیمار شده و غیر تیمار و اندازه‌گیری اثر تیمارها با کمترین میزان اریبی، مناسب است. زیرا، با انتخاب چند نمونه از گروه غیرتیماری با چند واحد از گروه تیمار، قابلیت مقایسه بوجود می‌آید. از طرفی انتخاب همه واحدهای گروه تیمار و غیر تیمار امکان‌پذیر نیست. این امر به این علت رخ می‌دهد که تعداد ترکیب‌ها در زمانی که ابعاد مشاهدات (متغیرهای مربوط به بررسی) بزرگ باشند، عملا بسیار زیاد شده و امکان بررسی همه موارد وجود ندارد.

در تطابق عادی (Normal Matching)، یک ویژگی خاص که گروه‌های تیمار و کنترل را از هم متمایز می‌کند، برای تشکیل گروه‌های همسان به کار می‌رود. اما اگر دو گروه، همپوشانی قابل توجهی نداشته باشند، ممکن است خطای اریبی در پیش‌بینی وارد شود. به عنوان مثال، اگر تنها بدترین موارد از گروه تیمار نشده فقط با بهترین موارد از گروه تیمار مقایسه شود، نتیجه ممکن است به سمت میانگین تمایل پیدا کند، که باعث شود گروه کنترل بهتر یا بدتر از حالت واقعیت به نظر برسد.

تکنیک PSM، احتمال عضویت در گروه (به عنوان مثال، گروه تیمار در مقابل گروه کنترل) را براساس مشاهدات پیش‌بینی می‌کند. این کار معمولا به کمک «رگرسیون لجستیک» (Logistic Regression) انجام شده و یگ گروه متناقض تولید می‌شود. امتیازات گرایش یا تمایل ممکن است بر اساس متغیر همبسته یا مداخله‌گر محاسبه شده و به عنوان ابزاری برای مطابقت به کار رود.

PSM comparisions

روند اجرای انطباق امتیاز گرایش

به منظور اجرای تکنیک تطبیق امتیاز گرایش (PSM)، گام‌ها و زیرگام‌هایی که در ادامه مشخص شده‌اند باید به صورت مرحله به مرحله و گام به گام، انجام شوند.

اجرای رگرسیون لجستیک

از آنجایی که بعضی از مشاهدات از نمونه اولیه برای تکنیک تطابق گرایش، جدا شده‌اند، رگرسیون لجستیک را برای مدل‌سازی متغیرهای مداخله‌گر، وابسته و مستقل به صورت زیر به کار می‌گیریم.

  • تعیین متغیر وابسته به صورت $$Z=1$$ به شرطی که مشاهده خاص در PSM به کار رفته باشد و $$Z=0$$‌ در غیر اینصورت.
  • تعیین متغیر همبسته (Covariate). فرض بر این است که متغیر همبسته (یا حتی متغیر مخدوش کننده) هم بر تیمار و هم بر نتایج (متغیر وابسته) تاثیر گذار است.
  • برآورد امتیاز گرایش به کمک رگرسیون لجستیک و برآورد احتمال قرار گرفتن در گروه $$Z=1$$ که با نماد $$p$$‌ مشخص شده یا محاسبه $$\log(\frac{p}{1-p)}$$ که لگاریتم «بخت» (Odds Ratio) محسوب می‌شود.

بررسی متعادل بودن امتیاز گرایش

محاسبات مربوط به تعادل باید در بین هر دو گروه تیمار و کنترل صورت گیرد. به همین دلیل دسته‌بندی‌های زیر را برای انجام این امر معرفی کرده‌ایم.

  • بررسی متعادل بودن امتیاز گرایش در بین گروه‌های تیمار و کنترل.
  • بررسی تعادل مقدار متغیر همبسته در بین دو سطح گروه تیمار و گروه کنترل در بین کل مقادیر امتیازات گرایش.
  • استفاده از اختلاف امتیازات استاندارد شده برای نمایش توزیع مقادیر امتیاز گرایش یا رسم نمودار توزیع به منظور بررسی تعادل.

matching method

انطباق هر مشاهده خاص با مشاهدات با کد $$Z=0$$ و با یک روش خاص

برای انجام این کار می‌توان از روش‌های مطابقتی که در ادامه معرفی می‌شوند، استفاده کرد.

  • استفاده از روش انطباق نزدیکترین همسایه (Nearest neighbor matching).
  • انطباق کولیس (Caliper Matching): واحدهای مقایسه‌ای براساس فاصله مشخص از امتیاز گرایش با واحدهای تیمار شده که انطباق دارند. فاصله در اینجا می‌تواند نسبتی از انحراف استاندارد امتیاز گرایش باشد.
  • محاسبه فاصله ماهالانوبیس (Mahalanobis Metric) مرتبط با امتیاز انطباق.
  • انطباق طبقه‌ای (Stratification Matching).
  • مطابقت اختلاف به اختلاف (با استفاده از هسته (Kernel) و «وزن‌های خطی محلی» (Local Linear Weights) برای وزن دادن به گروه‌ها).
  • انطباق ساده (Exact Matching)، بطوری که درصد انطباق براساس تمامی متغیرها با مقادیر یکسان به کار می‌رود.

تعاریف ضروری در انطباق امتیاز گرایش

اصطلاحات و تعریفی در تحلیل انطباق امتیاز گرایش وجود دارد که در ادامه به بعضی از آن‌ها اشاره کرده و توضیحات کاملی در موردشان ارائه خواهیم داد. این اصطلاحات در بعضی از برنامه‌های کاربردی برای اجرای چنین تحلیلی، به کار برده می‌شوند. در نتیجه آگاهی از آن‌ها هنگام کار با این گونه نرم‌افزارها، ضروری است.

تنظیمات اولیه (Basic Settings)

هر مشاهده پایه (Basic Case) یا اصلی برای متغیر وابسته، به صورت دو مقدار صفر و یک با در نظر گرفتن وجود تیمار یا عدم آن در آن مشاهده، مشخص می‌شود. هر یک از مشاهدات، دارای متغیرهایی هم توزیع، و مستقل هستند. حجم نمونه در این حالت برابر با $$N$$ در نظر گرفته می‌شود. هر یک از مشاهدات با توجه به قرار گرفتن در تیمار به صورت $$r_{1i}$$ و در صورت حضور در گروه کنترل به شکل $$r_{0i}$$‌ مشخص خواهد شد. کمیتی که باید مورد محاسبه قرار گیرد، اختلاف بین میانگین گروه تیمار و کنترل است که بر حسب امید ریاضی به شکل $$E[r_1]- E[r_0]$$ نشان داده می‌شود.

متغیر نشانگر $$Z_i$$ بیانگر آن است که مشاهده در گروه تیمار است یا کنترل در این حالت $$Z=1$$ و $$Z=0$$ تعریف می‌شود. فرض کنید که $$X_i$$ بردار متغیرها برای مشاهده $$i$$ام، قبل از اجرای تیمار برای متغیرهای مورد بررسی (به همراه متغیرها مداخله‌گر- Covariate) باشد. البته توجه داشته باشید که متغیرهای موجود در $$X_i$$ ممکن است شامل همه متغیرهای مربوط به تیمارها نباشند. همچنین مشخص بودن شماره مشاهده ارتباطی با متغیرهای موجود در آن مشاهده ندارد. این امر به این معنی است که متغیرها مستقل از ترتیب مشاهدات هستند.

نکته: توجه داشته باشید که هدف اصلی در تکنیک انطباق امتیاز گرایش، از بین بردن ارتباط بین شماره مشاهدات و متغیرهای موجود در آن است. بطوری که بین انتخاب در گروه تیمار یا غیرتیمار ارتباطی وجود نداشته تا باعث کاهش اریبی در نتایج بررسی تیمار شود.

نادیده گرفتن نسبت دادن تیمار به مشاهدات

فرض کنید بعضی از مشاهدات دارای بردار متغیرهای همبسته $$X$$ (به شرط مداخله‌گر نبودن) باشند. نتایج حاصل از این متغیرها نیز تحت تیمار و گروه کنترل به صورت $$r_0$$ و $$r_1$$ مشخص شده است.

نسبت دادن تیمار به مشاهدات به صورت قوی، قابل نادیده گرفتن (Strongly Ignorable Treatment Assignment) است، اگر نتایج متغیر وابسته، مستقل از تیمار به شرط متغیرهای پس زمینه یا همبسته $$X$$ باشد. این امر را به صورت زبان آماری به شکل زیر نمایش می‌دهیم.

$$ \large r_0 , r_1\ \bot\ Z\ |\ X$$

توجه دارید که نماد $$\bot$$ نشانگر استقلال دو متغیر و نماد $$|$$‌ نیز توزیع احتمال شرطی را نشان می‌دهد.

امتیاز تعادل

تابعی از مشاهدات حاصل از متغیرهای همبسته (Covariates) که با نماد $$X$$‌ نشان دادیم، می‌تواند تابع امتیاز تعادل ($$b(X)$$) باشد. توزیع $$X$$ به شرط $$b(X)$$ باید برای $$Z=1$$ و $$Z=0$$ یکسان باشد. در حقیقت $$Z$$ و $$X$$ به شرط $$b(X)$$ باید مستقل از یکدیگر باشند. در این حالت شاید ساده‌ترین تابع «امتیاز تعادل» (Balancing Score) همان $$b(X)=X$$ باشد. در اینجا استقلال این دو متغیر را به صورت زیر نشان می‌دهیم.

$$ \large Z \ \bot \ X \ | \ b(X) $$

امتیاز گرایش

احتمال اینکه یک واحد از مورد تحقیق (فرد، کلاس درس، مدرسه) به یک تیمار اختصاص داده شود به شرط متغیر همبسته، «امتیاز گرایش» (Propensity Score) نامیده می‌شود. امتیاز گرایش، باعث کاهش اریبی در انتخاب مشاهدات می‌شود. این کار بوسیله یکسان سازی گروه‌ها براساس متغیرهای همبسته صورت می‌گیرد.

فرض کنید که متغیر نشانگر $$Z$$، متغیر پاسخ $$r$$ و متغیرهای همبسته دیگر که به صورت $$X$$‌ مشخص شده‌اند، در مدل حضور دارند. امتیاز گرایش به صورت احتمال شرطی تیمارها با مشخص بودن متغیرهای همبسته تعریف می‌شود. این تعریف در رابطه ریاضی زیر مشخص شده است.

$$ \large {\displaystyle e(x)\ {\stackrel {\mathrm {def} }{=}}\ \Pr(Z=1|X=x)} $$

PS treatments

قضیه اصلی در انطباق امتیاز گرایش

گزاره‌های زیر اولین بار توسط «روزن‌بام» (Rosenbaum) و «روبین» (Rubin) در سال ۱۹۸۳ معرفی و اثبات شدند.

  • امتیاز گرایش $$e(X)$$ یک امتیاز تعادل است.
  • هر تابعی از امتیاز گرایش، یک امتیاز تعادل است. این گزاره را به صورت $$e(X) = f(b(X)$$ نشان می‌دهیم. تابع $$f$$ می‌تواند هر تابعی در نظر گرفته شود.
  • اگر انتساب تیمار به صورت قوی قابل نادیده گرفتن، برحسب $$X$$ باشد، آنگاه بر حسب هر تابع تعادل دیگر نیز قابل نادیده گرفتن است. بخصوص زمانی که این تابع تعادل همان امتیاز گرایش باشد. به بیان ریاضی خواهیم داشت:

$$ \large {\displaystyle (r_{0},r_{1})\perp Z\,|\,e(X)} $$

  • با شرط نادیده گرفتن قوی با حضور $$X$$، برای هر امتیاز تعادل، اختلاف بین میانگین گروه تیمار و گروه کنترل ($$ \bar{r}_1 - \bar{r}_0 $$) براساس مشاهداتی که دارای امتیاز تعادل یکسانی هستند، می‌توان یک برآوردگر نااریب برای میانگین اثر تیمار ($$E(r_1) - E(r_0)$$) باشد.

مزایا و معایب انطباق امتیاز گرایش

می‌توان نشان داد که PSM باعث افزایش عدم تعادل، ناکارآمدی و همچنین وابستگی شدید پارامترها به مدل می‌شود. همچنین در بعضی از مواقع به جای کاهش اریبی، آن را افزایش نیز می‌دهد.

به همین دلیل در مقایسه با سایر روش‌های تطبیق توصیه نمی‌شود. به همین دلیل اغلب PSM را به همراه روش‌های دیگر تطبیق به کار می‌برند. هر چند وزن‌های تولید شده در تکنیک PSM باعث ایجاد برآوردگرهای استوار و قوی خواهد شد.

تکنیک PSM مانند سایر روش‌های تطبیق، متوسط اثر تیمار را براساس مشاهدات تخمین می‌زند. از مهمترین مزایای PSM در زمان معرفی آن، این بود كه با استفاده از ترکیبی خطی از متغیرهای مداخله‌گر برای یک امتیاز، باعث ایجاد تعادل در بین گروه‌های تیمار و كنترل شده و بدون از دست دادن تعداد زیادی از مشاهدات، این تعادل را برقرار می‌سازد.

اگر واحدهای موجود در تیمار و کنترل بر تعداد زیادی از متغیرهای همبستگی (مداخله‌گر) یک به یک دارای تعادل باشند، تعداد زیادی از مشاهدات برای غلبه بر مشکل ابعاد متغیرها لازم است. اضافه کردن یک متغیر همبسته، باعث رشد هندسی تعداد نمونه‌های خواهد شد.

یکی از مضرات PSM این است که فقط متغیرهای همبسته و مداخله‌گر با مقادیر مشاهده شده (و یا قابل مشاهده) را مورد بررسی قرار می‌دهد که به عنوان عوامل اثرگذار روی تیمارها و نتایج متغیر وابسته هستند. در حالیکه متغیرهای دیگری که از دید محقق دور مانده‌اند و به عنوان «متغیر پنهان» (Latent Variable) شناخته می‌شوند در این تکنیک جای نداشته و اریبی حاصل از آن‌ها حتی بعد از انطباق هم باقی می‌ماند.

پیاده سازی تحلیل مطابقت امتیاز گرایش در بسته های آماری

بسیاری از نرم‌افزارها و بسته‌های محاسبات آماری قادر به انجام تحلیل مطابقت امتیاز گرایش (PSM) هستند. در ادامه بعضی از آن‌ها را معرفی خواهیم کرد.

  • در زبان محاسبات آماری R: انطباق امتیاز گرایش به عنوان بخشی از بسته MatchIt در زبان برنامه‌نویسی R در دسترس است. همچنین می‌توان آن را به راحتی به صورت دستی در این زبان برنامه‌نویسی پیاده سازی کرد.

  • سیستم تحلیل آماری SAS: رویه یا تابع PSMatch و همچنین نسخه کلان داده آن به نام OneToManyMTCH نیز برای تجزیه و تحلیل انطباق امتیاز گرایش در نرم‌افزار آماری SAS وجود دارد.

  • بسته نرم‌افزاری Stata: چندین فرمان انطباق امتیاز گرایش در Stata وجود دارد، از جمله psmatch2 نوشته شده توسط کاربر. نسخه ۱۳ نرم‌افزار Stata و همچنین نسخه‌های بعد از آن نیز دستورات داخلی برای اجرای این تحلیل را ارائه می‌دهد.

  • بسته محاسبات آماری برای علوم اجتماعی SPSS: در نرم‌افزار SPSS، یک کادر محاوره‌ای برای تحلیل PSM دارد که براساس زبان برنامه‌نویسی پایتون پیاده سازی شده. در نتیجه باید به کمک افزونه‌های مورد نیاز آن را بارگذاری کرده و اجرا نمایید. افزونه FUZZY Python یکی از این گونه افزونه‌ها (Add-Ons) به حساب می‌آید. به منظور آشنایی با نحوه نصب افزونه‌های پایتون در SPSS بهتر است نوشتار افزونه های پایتون در SPSS – راهنمای کاربردی را مطالعه کنید.

خلاصه و جمع‌بندی

در این نوشتار با تحلیل انطباق امتیاز گرایش در آمار آشنا شدیم. مفاهیم اولیه و همچنین بعضی از اصطلاحات مربوط به این تحلیل و کاربردهای آن نیز مورد بررسی قرار گرفت. از آنجایی که محاسبات و عملیات مربوطه طولانی هستند در این متن به مثال عددی خاصی اشاره نکردیم و با داده‌های واقعی به PMS نپرداختیم. ولی در مورد نحوه اجرا و استفاده از این تحلیل در نرم‌افزار بسته آماری SPSS مطالبی در نوشتارهای بعدی مجله فرادرس، منتشر خواهیم کرد.

بر اساس رای ۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Wikipediaمجله فرادرس
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *