داده دو وضعیتی و تحلیل پانلی | پیاده سازی GEE در SPSS

۴۴۵ بازدید
آخرین به‌روزرسانی: ۲۲ خرداد ۱۴۰۲
زمان مطالعه: ۱۰ دقیقه
داده دو وضعیتی و تحلیل پانلی | پیاده سازی GEE در SPSS

پدیده‌های بسیاری در دنیای واقعی وجود دارند که با قالب داده‌های پانلی مطابقت دارند. در حقیقت سری‌های زمانی چند متغیره را می‌توان به نوعی داده پانلی تصور کرد. حال در نظر بگیرید که داده دو وضعیتی و تحلیل پانلی را بخواهیم در محیط SPSS مورد بررسی قرار داده و مدلی را بر مبنای تکنیک ناپارامتری «معادلات برآوردیابی تعمیم یافته» (Generalize Estimating Equations) یا GEE ایجاد کنیم. در این نوشتار، به این موضوع پرداخته و کدهای مربوط به داده دو وضعیتی و تحلیل پانلی را در محیط Syntax نرم افزار SPSS توضیح خواهیم داد.

در نوشتارهای دیگر از مجله فرادرس موضوع داده پانلی و همچنین روش یا تکنیک GEE مورد بحث قرار گرفته است. بنابراین اگر درباره این دو موضوع، احتیاج به اطلاعاتی بیشتری دارید، بهتر است قبل از مطالعه این مطلب، با خواندن معادلات برآوردیابی تعمیم یافته (GEE) در آمار | به زبان ساده و داده‌ پانلی (Panel Data) — از صفر تا صد برخی اصطلاحات رایج در این حوزه را بشناسید. همچنین خواندن نوشتارهای آزمون هاسمن برای داده‌ پانلی (Hausman Test) — به زبان ساده و تحلیل داده پانلی در SPSS — راهنمای کاربردی نیز خالی از لطف نیست.

داده دو وضعیتی و تحلیل پانلی

معمولا متغیرهای پاسخ برای مدل‌بندی داده‌های پانلی، مقادیر کمی و از نوع پیوسته هستند. البته متغیرهای پاسخ با مقادیر دو دویی یا «دو وضعیتی» (Binary Response Variables)، در تحلیل داده پانلی نیز می‌توانند به کار گرفته شوند. کافی است که توزیع مورد نظر برای متغیرهای موجود در مدل را با «توزیع دو جمله‌ای» (Binomial Distribution) یکسان در نظر بگیرید. در ادامه این مطلب، از یک مثال واقعی براساس داده‌های «افسردگی بعد از زایمان» (Postnatal Depression) استفاده کرده و نحوه مدل‌سازی و برآورد پارامترها را به کمک تکنیک GEE در محیط SPSS، اجرا خواهیم کرد.

فرض کنید که برای یک نمونه از بیماران دارای افسردگی پس از زایمان، شاخص یا «مقیاس افسردگی پس از زایمان ادینبورگ» (EPDS یا Edinburgh Postnatal Depression Scale) اندازه‌گیری شده است. این اطلاعات در فایل depressed01.sav ذخیره و در دسترس شما قرار دارند. به منظور دریافت این فایل با قالب فشرده (zip)، کافی است، اینجا کلیک کنید. مشخص است که پس از خارج کردن این فایل از حالت فشرده، می‌توانید آن را در نرم‌افزار SPSS‌ فراخوانی کنید. البته با فرض اینکه محل فایل در درایو D‌ باشد، از کد زیر نیز می‌توانید کمک بگیرید.

1get file = 'D:depressed01.sav'.

ابتدا بهتر است به ساختار این مجموعه داده نگاهی بیاندازیم. در تصویر ۱، نمونه‌ه‌ای از این داده‌ها را در برگه Data View نرم‌افزار SPSS، مشاهده می‌کنید.

متغیر subj نشانگر کد یا شماره سریال بیمار است. ۶۱ بیمار مورد بررسی قرار گرفته و در دو گروه درمان به کمک دارونما (با کد group = 0) و گروه درمان با دارو (group = 1) تفکیک شده‌اند. متغیر visit نیز نشانگر ماه مورد نظر برای اندازه‌گیری در یک دوره شش ماهه است. از آنجایی که حداکثر مراجعات بیمار برای اندازه‌گیری، برابر با شش خواهد بود، مقادیر این متغیر، از ۱ تا ۶ تغییر می‌کنند.

همانطور که گفته شد، متغیر group تعیین می‌کند که آیا بیمار در گروه کنترل (دارونما) یا در گروه تیمار (درمان با دارو) قرار دارد. کد ۱ نشانگر گروه تیمار و کد صفر نشانگر گروه کنترل است.

همچنین، قبل از اجرای برنامه درمان، میزان افسردگی بیماران اندازه‌گیری شده و در متغیر pre ثبت شده است. میزان افسردگی در هر دوره نیز در متغیر dep مشخص شده.

در متغیری به نام depressed که یک متغیر دو وضعیتی است، تعیین شده که چه بیماری، در هر ماه از دوره شش ماهه درمان، میزان افسردگی بیشتر یا مساوی با ۱۱ دارد. بنابراین کد صفر نشانگر کمتر بودن میزان افسردگی از ۱۱ را نشان می‌دهد و کد ۱، نمایانگر بیشتر بودن میزان افسردگی از مقدار مرجع یا همان ۱۱ است.

واضح است که هر بیمار، با توجه به اندازه‌گیری ماهانه، باید شش اندازه مختلف داشته باشد، مگر آنکه در یک یا چند ماه برای بررسی آماری، مراجعه نکرده باشد. در تصویر ۱، نمونه‌ای از اطلاعات این بیماران مشخص شده، هر چند تعداد ۶۱ بیمار مورد بررسی قرار گرفته‌اند، ولی چون از هر بیمار بیش از یک بار اندازه‌گیری صورت گرفته، تعداد مشاهدات (سطرهای کاربرگ) برابر با ۳۶۶ خواهد بود.

Gee data view binary
تصویر 1: نمایشی از اطلاعات برای تحلیل داده پانلی دو وضعیتی

در تصویر ۲، نیز ساختار متغیرهای این مجموعه داده را در برگه Variable View مشاهده می‌کنید.

Gee variable view binary
تصویر 2: نمای متغیر برای تحلیل داده پانلی دو وضعیتی

از آنجایی که برای استفاده از تکنیک GEE باید یک توزیع خاص را برای متغیر وابسته در نظر بگیریم، در این متن، از توزیع دو جمله‌ای کمک گرفته‌ایم. همچنین برای به دست آوردن مدل، «تابع پیوند» را «لوجیت» (logit) تنظیم خواهیم کرد. از طرفی از «ساختار ماتریس همبستگی» (Working Correlation Matrix) را با شیوه‌های مختلف معرفی کرده و برای مدل GEE استفاده می‌کنیم. به این ترتیب، برآورد پارامترهای مدل برای داده دو وضعیتی و تحلیل پانلی را به صورت‌های گوناگون انجام خواهیم داد.

داده دو وضعیتی و تحلیل پانلی با ساختار استقلال

کدی که در ادامه مشاهده می‌کنید، به منظور ایجاد یک مدل با تکنیک GEE با توجه به ساختار استقلال در ماتریس همبستگی، نوشته شده است.

1genlin depressd (reference = first) with visit group
2 /model visit group distribution = binomial link = logit
3 /repeated subject = subj
4 /print modelinfo cps solution workingcorr.
5            <div class="faradars-courses faradars-courses-single">
6                <a href="https://faradars.org/courses/statistical-software-spss-fvst9912?utm_source=blog.faradars&utm_medium=referral-post&utm_campaign=related-courses-inline-5&utm_term=a.reybod&utm_content=statistics" target="_blank">
7                    <div class="card card-course">
8                        <div class="card-image">
9                            <img class="pop-img" src="https://faradars.org/wp-content/uploads/2021/03/17/6051dd030c242-fvst9912-svg.svg" alt="آموزش نرم افزار اس پی اس اس SPSS">
10                        </div>
11                        <div class="card-body">
12                            <div class="card-title">
13                                فیلم آموزش نرم افزار اس پی اس اس SPSS در فرادرس
14                            </div>
15                        </div>
16                        <div class="card-action ml-3">
17                            <div class="fdb-btn">کلیک کنید</div>
18                        </div>
19                    </div>
20                </a>
21            </div>
22        

همانطور که می‌بینید، توزیع متغیر وابسته «دو جمله‌ای» (Binomial) در نظر گرفته شده و تابع پیوند نیز logit‌ است. پارامتر repeated نیز با متغیر subj‌ مقدار دهی شده است. همچنین «ساختار ماتریس همبستگی» (Working Correlation Matrix Structure) یا به نوعی «ماتریس واریانس کوواریانس» (Variance-Covariance Matrix)، با توجه به استقلال، ساخته شده که به طور پیش‌فرض در این دستور قرار دارد.

نکته: با توجه به ساختار ماتریس کوواریانس یا ماتریس همبستگی در تحلیل داده پانلی با تکنیک GEE، بهتر است نقش این ماتریس را در مطلب معادلات برآوردیابی تعمیم یافته (GEE) در آمار | به زبان ساده مطالعه کنید.

خروجی حاصل از این دستورات به صورت زیر است. ابتدا اطلاعات مدل طبق تصویر 3، ظاهر می‌شود.

Model Information
تصویر ۳: نمایش اطلاعات مدل تولید شده توسط GEE

توجه داشته باشید که مقدار ۱ برای متغیر پاسخ به سطح یا گروه اثر در نظر گرفته شده و مقدار صفر، نشانگر گروه مرجع یا کنترل است. به این ترتیب، بیمارانی که دارای اندازه افسردگی بیش از ۱۱ هستند با بیمارانی که میزان افسردگی آن‌ها کمتر از ۱۱ است، برحسب نوع تیمار و درمان به کار رفته، مقایسه می‌شوند.

مشاهدات معتبر و دارای مقدار گمشده نیز در جدول بعدی که با عنوان Case Processing Summary مشخص شده است، دیده می‌شوند. این جدول را در تصویر 4، می‌بینید. گزینه exclude نشانگر مشاهداتی که است که برای بعضی از سطرها از مجموعه داده، دارای مقدار گمشده است. این سطرها، هنگام محاسبه پارامترهای مدل، کنار گذاشته می‌شوند.

Case Processing Summary
تصویر ۴: نمایش خلاصه پردازش داده‌ها

در ادامه نیز درست به مانند تصویر 5، داده‌های جدول «برآورد پارامترها» (Parameter Estimates) دیده می‌شوند که برای هر یک از متغیرهای visit و group یک ضریب را مشخص کرده است. با توجه به مقدار Sig هر دو این متغیرها، از لحاظ آماری، معنی‌دار هستند.

Parameter Estimates
تصویر ۵: خروجی برآورد پارامترها در مدل GEE

«ماتریس همبستگی» (Working Correlation Matrix) با توجه به شرط استقلال نیز به مانند تصویر 6، خواهد بود. واضح است که عناصر قطر اصلی همگی برابر با ۱ و خارج از قطر، صفر خواهند بود. صفر بودن عناصر خارج از قطر، نشانگر عدم وابستگی سطوح مختلف متغیر depressed است.

نکته: در داده‌های پانلی، اعتقاد داریم که متغیرهای وابسته، علاوه بر متغیرهای مستقل، با یکدیگر نیز وابستگی دارند.

working correlation matrix
تصویر 6: ساختار ماتریس همبستگی با شرط استقلال

داده دو وضعیتی و تحلیل پانلی با ساختار تعویض‌پذیر

این بار ساختار ماتریس کوواریانس را به صورت «تعویض‌پذیر» (Exchangeable) در نظر می‌گیریم و خروجی‌ها را مورد بررسی قرار می‌دهیم. کد مربوطه در ادامه دیده می‌شود.

1genlin depressd (reference = first) with visit group
2 /model visit group distribution = binomial link = logit
3 /repeated subject = subj corrtype = exchangeable
4 /print modelinfo cps solution workingcorr.

در ادامه فقط خروجی‌هایی که با قسمت‌های قبلی متفاوت هستند، آورده خواهد شد. در تصویر 7، که مربوط به معرفی مدل است، بخش Working Correlation Matrix Structure مقدار Exchangeable را نشان می‌دهد که نشان از تعویض‌پذیری ماتریس هبمستگی یا واریانس-کوواریانس دارد.

تصویر 7: نمایش ساختار مدل با فرض تعویض‌پذیری ماتریس همبستگی

پارامترها نیز در جدول Parameter Estimates و مطابق با تصویر 8، قابل مشاهده‌اند. در اینجا هم همه پارامترها، معنی‌دار تلقی شده‌اند. زیرا مقدار Sig کوچکتر از ۰٫۰۵ است. از طرفی، همانطور که می‌بینید، هیچکدام از فاصله اطمینان‌های حاصل، شامل صفر نیستند. در نتیجه فرض صفر یا بی‌اثر بودن عامل‌ها، رد می‌شود. همچنین مشخص است که این فاصله‌های اطمینان، دارای کران‌های منفی هستند، درنتیجه اثر متغیرهای مربوطه روی متغیر وابسته، به شکل معکوس است.

این امر به این معنی است که با افزایش تعداد بازدیدها (visit) و تغییر از گروه کنترل به گروه درمان (تغییر از صفر به یک)، مقدار متغیر وابسته (میزان افسردگی) کاهش خواهد یافت.

model estimates for exchangeable matrix
تصویر 8: برآورد پارامترها برای حالت تعویض‌پذیر ماتریس همبستگی

در تصویر 9 نیز خروجی Working Correlation Matrix را مشاهده می‌کنید که به ساختار ماتریس همبستگی اشاره دارد. تقارن بین همبستگی‌ها به طور کامل دیده می‌شود.

working correlation matrix for exchangeable state
تصویر 9: ساختار ماتریس همبستگی تعویض‌پذیر

داده دو وضعیتی و تحلیل پانلی بدون ساختار برای ماتریس همبستگی

این بار در کد زیر، ماتریس همبستگی را بدون ساختار در نظر می‌گیریم. به این ترتیب همبستگی‌ها براساس مقادیر داده‌ها، برآورد خواهند شد.

1genlin depressd (reference = first) with visit group
2 /model visit group distribution = binomial link = logit
3 /repeated subject = subj corrtype = unstructured
4 /print modelinfo cps solution workingcorr.
5            <div class="faradars-courses faradars-courses-single">
6                <a href="https://faradars.org/courses/fvst9408-correlation-and-linear-regression-with-spss?utm_source=blog.faradars&utm_medium=referral-post&utm_campaign=related-courses-inline-5&utm_term=a.reybod&utm_content=statistics" target="_blank">
7                    <div class="card card-course">
8                        <div class="card-image">
9                            <img class="pop-img" src="https://faradars.org/wp-content/uploads/2015/11/fvst9408-svg.svg" alt="آموزش همبستگی و رگرسیون خطی در اس پی اس اس SPSS">
10                        </div>
11                        <div class="card-body">
12                            <div class="card-title">
13                                فیلم آموزش همبستگی و رگرسیون خطی در اس پی اس اس SPSS در فرادرس
14                            </div>
15                        </div>
16                        <div class="card-action ml-3">
17                            <div class="fdb-btn">کلیک کنید</div>
18                        </div>
19                    </div>
20                </a>
21            </div>
22        

و خروجی‌ها را به صورت زیر دریافت می‌کنیم. بدون ساختار بودن توسط پارامتر Unstructured تعیین شده است.

model information for unstructured
تصویر 10: نمایش مدل بدون ساختار مشخص برای ماتریس همبستگی

به این ترتیب برآورد پارامترهای مدل خطی بین متغیر وابسته و متغیرهای مستقل در تحلیل پانلی، مطابق با تصویر 11 و در جدول Parameter Estimates، ظاهر خواهند شد.

parameter estimates for unstructured correlation matrix
تصویر ۱1: برآورد پارامترهای مدل بدون ساختار

در تصویر ۱2 نیز ماتریس همبستگی را در حالت بدون ساختار مشاهده می‌کنید. هر خانه از این جدول، ضریب همبستگی بین متغیرها را به صورت برآورد شده، نشان می‌دهد.

unstruactued correlation matrix
تصویر ۱2: ماتریس همبستگی براساس برآوردها

داده دو وضعیتی و تحلیل پانلی با ساختار اتورگرسیو مرتبه اول

با توجه به خروجی‌های ظاهر شده در تصویر ۱2، به نظر می‌رسد که ماتریس همبستگی باید دارای ساختار اتورگرسیو مرتبه اول یا (AR(1 باشد. زیرا بیشترین همبستگی بین متغیرهای وابسته در یک سطح با سطح بعدی دیده می‌شود. مثلا اندازه ۳ با ۲، ۴ با ۵ یا ۱ با ۲، بیشترین همبستگی را دارد. بنابراین در گام بعدی از مدل «همبستگی سریالی» (Serial Correaltion) یا همان اتورگرسیو مرتبه اول، استفاده می‌کنیم.

1genlin depressd (reference = first) with visit group
2 /model visit group distribution = binomial link = logit
3 /repeated subject = subj withinsubject=visit corrtype = ar(1) covb=model
4 /print modelinfo cps solution workingcorr.

خروجی‌ها مطابق با تصاویر زیر ظاهر می‌شوند. مشخص است که مدل اتورگرسیو مرتبه اول برای ساختار ماتریس همبستگی به کار رفته است. برآوردها و ماتریس همبستگی نیز در ادامه دیده می‌شوند.

autoregressive model for correlation matrix
تصویر ۱3: مشخصات مدل اتورگرسیو مرتبه اول
model parameters for autoregressive model
تصویر ۱4: برآورد پارامترها برای مدل اتورگرسیو مرتبه اول
working correlation for autoregressive state
تصویر ۱5: ساختار ماتریس همبستگی براساس اتورگرسیو مرتبه اول

همچنین می‌توان خروجی را برحسب «اندازه نسبت بخت» (Odds ratio metric) و با انتخاب گزینه exponentiated ایجاد کرد. کدهای زیر به این منظور تهیه شده‌اند. به زیربخش print توجه کنید که در آن عبارت exponentiated به کار رفته است.

1genlin depressd (reference = first) with visit group
2 /model visit group distribution = binomial link = logit
3 /repeated subject = subj corrtype = ar(1)
4 /print solution (exponentiated) modelinfo.

بنابراین خروجی برای پارامترها تغییر کرده و مطابق با تصویر 16 خواهد بود.

Exponented GEE
تصویر ۱۶: مدل GEE با توجه به انتخاب گزینه exponentiated

همانطور که مشخص است، همه متغیرها با معنی شده و همچنین ضرایب رابطه توانی نیز در قسمت (Exp(B دیده می‌شوند. برای هر یک از ضرایب نیز یک ستون برای کران پایین (Lower) و یک ستون نیز برای کران بالای (Upper) فاصله اطمینان اختصاص یافته است.

در گام بعدی متغیر pre و همچنین اثرات متقابل متغیر group را با متغیر visit‌ مبنا قرار می‌دهیم. به کد زیر توجه کنید. ابتدا حاصل ضرب group در visit محاسبه، سپس مدل GEE برازش شده است.

1compute gxv = group*visit.
2
3genlin depressd (reference = first) with pre group visit gxv
4 /model pre group visit gxv distribution = binomial link = logit
5 /repeated subject = subj corrtype = ar(1)
6 /print solution modelinfo.

نتیجه برای پارامترها به صورت زیر خواهد بود.

parameter estimates for intraction
تصویر ۱۷: خروجی پارامترها و ضرایب مدل GEE به همراه اثرات متقابل

مشخص است که متغیر gxv که اثرات متقابل را اندازه‌گیری می‌کند، در مدل معنی‌دار نیست. در گام بعدی از متغیر طبقه‌ای visit استفاده خواهیم کرد. ابتدا این متغیر را به متغیرهای دو دویی دیگر تفکیک کرده تا به صورت یک مجموعه متغیر مجازی با نام‌های visit2 تا visit5، تبدیل شود. این کار را در قطعه کد زیر انجام داده‌ایم.

1compute visit2 = 0.
2if visit = 2 visit2 = 1.
3compute visit3 = 0.
4if visit = 3 visit3 = 1.
5compute visit4 = 0
6if visit = 4 visit4 = 1.
7compute visit5 = 0.
8if visit = 5 visit5 = 1.
9compute visit6 = 0.
10if visit = 6 visit6 = 1.
11exe.
12
13genlin depressd (reference = first) with pre group visit2 visit3 visit4 visit5 
14 /model pre group visit2 visit3 visit4 visit5 distribution = binomial link = logit
15 /repeated subject = subj corrtype = ar(1)
16 /print solution modelinfo.

به این ترتیب متغیرهای visit2‌ تا visit5 برای طراحی مدل به کار رفته‌اند. واضح است که هر کدام از این متغیرهای نشانگر،  با توجه به مقدار ۰ و ۱ اندازه گرفته و در هفته مورد نظر ساخته شده‌اند. توجه دارید که visit6 به علت فرض رابطه اتورگرسیو، حذف شده‌‌ است.

categorizal GEE model parameters
تصویر ۱۸: پارامترهای مدل به همراه متغیرهای طبقه‌ای مستقل

همانطور که در تصویر ۱8 دیده می‌شود، فقط متغیرهای group و pre برای داده دو وضعیتی و تحلیل پانلی معنی‌دار شده‌اند و بقیه متغیرها را می‌توان نادیده گرفت. در گام بعدی متغیر visit را نیز به این مدل اضافه می‌کنیم.

1genlin depressd (reference = first) with pre group visit visit2 visit3 visit4 visit5 
2 /model pre group visit visit2 visit3 visit4 visit5 distribution = binomial link = logit
3 /repeated subject = subj corrtype = ar(1)
4 /print solution modelinfo.

خروجی‌ها به صورت زیر خواهند بود.

parameters model with Visit variable
تصویر ۱۹: پارامترهای مدل به همراه متغیر visit

در جدول نمایش داده شده در تصویر ۱۹، متغیرهای group و visit معنی دار بوده و بقیه متغیرها از لحاظ آماری معنی‌دار نیستند. بنابراین تنها عامل‌هایی که روی بهبود بیماری افسردگی تاثیر گذار هستند، زمان‌های مربوط به متغیر visit و همچنین گروه درمانی یا group است. البته توجه دارید که این ضرایب منفی هستند و بنابراین تاثیر عکس در میزان افسردگی پس از زایمان بیماران دارند.

خلاصه و جمع‌بندی

در این نوشتار با نحوه اجرای روش GEE روی داده دو وضعیتی و تحلیل پانلی تمرکز کردیم و برای پیاده‌سازی محاسبات از کدهای دستوری نرم‌افزار SPSS کمک گرفتیم. البته در این بین به کمک مدل اتورگرسیو، بهترین برآوردها، حاصل شد. از طرفی به منظور نمایش اثرات متقابل نیز از متغیر کمکی استفاده کرده ولی نشان دادیم که اثرات متقابل متغیر group و visit روی متغیر وابسته (که به صورت دو دویی است) وجود ندارد. ساختارهای مختلفی نیز برای ماتریس همبستگی در نظر گرفته شد که بهترین مدل از طریق ساختار اتورگرسیو مرتبه اول برای داده دو وضعیتی و تحلیل پانلی مثال مورد نظر ایجاد گردید. این امر به علت ساختار موجود در داده‌ها بوجود آمد که در ماتریس همبستگی بدون ساختار مشخص شده بود.

بر اساس رای ۲ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
َUCLAمجله فرادرس
۱ دیدگاه برای «داده دو وضعیتی و تحلیل پانلی | پیاده سازی GEE در SPSS»

سلام عالی بود و تشکر از شما

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *