مشاهده ناهنجار و شناسایی آن در SPSS — راهنمای کاربردی

۵۳۶ بازدید
آخرین به‌روزرسانی: ۱۶ خرداد ۱۴۰۲
زمان مطالعه: ۱۹ دقیقه
مشاهده ناهنجار و شناسایی آن در SPSS — راهنمای کاربردی

روش و شیوه شناسایی مشاهده ناهنجار در SPSS انحصاری و کم نظیر است و قادر است با بیشترین میزان موفقیت، به کمک ترکیبی از روش‌های مختلف مانند خوشه‌بندی و تعیین شاخص‌هایی مانند «شاخص ناهنجاری» (Anomaly Index)، مقادیر یا مشاهدات «نامتعارف» (Abnormal) یا «ناهنجار» (Anomal) را از دیگر مقادیر جدا کند. در این نوشتار با مبانی «شناسایی ناهنجاری» (Anomaly Detection) آشنا شده و نحوه اجرای آن را در SPSS فرا می‌گیریم.

997696

به منظور آشنایی بیشتر با روش‌های خوشه‌بندی و تعیین نمره یا امتیاز هر خوشه، نوشتارهای آشنایی با خوشه‌بندی (Clustering) و شیوه‌های مختلف آن و روش‌ های ارزیابی نتایج خوشه‌ بندی (Clustering Performance) — معیارهای درونی (Internal Index) را بخوانید. همچنین خواندن مطالب نمودار جعبه ای (Boxplot) و رسم آن در پایتون – به زبان ساده و دسته بندی تصویری (Visual Binning) در SPSS — راهنمای کاربردی نیز خالی از لطف نیست.

مشاهده ناهنجار و شناسایی آن در SPSS

هنگام ایجاد مدل‌ها یا تجزیه و تحلیل‌های آماری، لازم است که مشاهداتی که ناهنجار یا نامتعارف تلقی می‌شوند، جداسازی شده و به صورت مجزا مورد تحلیل قرار گرفته یا بطور کل از گزارش و بررسی آماری خارج شوند.

معمولا برای شناسایی این گونه مشاهدات از دو شیوه استفاده می‌شود. ممکن است براساس شاخص‌های آمار توصیفی و تمایل داده‌ها به داشتن توزیع نرمال (Normal Distribution)، هر مشاهده‌ای که از قواعد توزیع نرمال پیروی نمی‌کند را به عنوان مشاهده نامتعارف یا ناهنجار شناسایی کنیم. در این صورت اغلب از معیارهایی مانند میانگین (Mean) و انحراف معیار (Standard Deviation) و همچنین از نسبت این دو که به ضریب تغییرات (Coefficient of Variation) معروف است، برای مشخص کردن مشاهدات مشکوک کمک می‌گیریم. این موضوع در نوشتار دیگری با عنوان داده پرت و شناسایی آن در SPSS مورد بحث قرار خواهد گرفت.

نکته: توجه دارید که در صورتی که با داده‌های چند بُعدی مواجه باشیم، شناسایی مشاهدات مشکوک یا دورافتاده را براساس هر بُعد انجام داده و در نهایت نسبت به خروج آن‌ها به جمع‌بندی می‌رسیم.

ولی روش‌هایی دیگری نیز مانند خوشه‌بندی وجود دارد که به کمک آن براساس فاصله مشاهدات از یکدیگر یا براساس یک یا چند نقطه تمرکز، گروه‌های متجانس شناسایی شده و میزان تعلق هر مشاهده به خوشه‌اش، اندازه‌گیری می‌شود. چنانچه مقدار این شاخص از مقدار مشخصی کمتر باشد، آن مشاهده را به عنوان داده نامتعارف یا ناهنجار معرفی می‌شود.

رویکردی که در این شیوه وجود دارد، دسته‌بندی و گروه‌بندی مشاهدات و تعیین گروه‌های همسان (Peer Group) است. اگر با نگاه خوشه‌بندی (Clustering) به این موضوع نگاه کنیم، دستور Identify Unusual Cases، خوشه‌هایی برمبنای روش‌های خوشه‌بندی یا یادگیری غیرنظارتی ایجاد می‌کند و مشاهداتی که دارای فاصله زیادی از بقیه اعضای خوشه هستند، مبنای شناسایی مشاهده ناهنجار در SPSS خواهند بود.

در این بین شاخص‌هایی مانند درجه مشابهت یا «مقادیر استاندارد گروه همسان» (Peer Group Norms) هر مشاهده به خوشه و همچنین «شاخص ناهنجاری» (Anomaly Index) نیز محاسبه می‌شود. به این ترتیب براساس این شاخص‌ها و درصد یا مقدار آستانه‌ای که برای آن‌ها تعیین می‌کنیم، مشاهده ناهنجار در SPSS شناسایی می‌شود.

مشاهده ناهنجار در SPSS

همانطور که گفته شد، SPSS دارای دستوری است که به طور اختصاصی به شناسایی مشاهدات ناهنجار یا نامتعارف اختصاص دارد. این دستور در حقیقت در پس‌زمینه، عملیات خوشه‌بندی (Clustering) را به کمک الگوریتم اختصاصی SPSS‌ به نام TwoStep Cluster انجام می‌دهد. تعداد خوشه‌ها در این الگوریتم به طور خودکار و براساس معیارهای ارزیابی مدل مانند AIC یا BIC صورت می‌گیرد. البته حداقل و حداکثر تعداد خوشه‌ها (گروه‌های همسان-Peer Groups) در این مرحله توسط کاربر تعیین می‌شود.

در این بین، اندازه‌گیری فاصله بین مشاهدات اهمیت پیدا می‌کند. با توجه به نوع داده‌ها (کیفی یا کمی بودن)، نحوه اندازه‌گیری فاصله یا شباهت بین نقاط، متفاوت است. اگر از شیوه‌های اندازه‌گیری فاصله آگاهی ندارید، بهتر است قبل از ادامه این متن، نوشتار فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در داده‌کاوی را مطالعه کنید که در محاسبات خوشه‌بندی به کار گرفته می‌شود. نرم‌افزار SPSS، از ترکیبی توابع فاصله مانند لگاریتم تابع درستنمایی (Likelihood Function) برای داده‌های کیفی و فاصله اقلیدسی (Euclidean Distance Function) برای داده‌های کمی استفاده کرده، فاصله مشاهدات را از یکدیگر اندازه‌گیری می‌کند.

برای تحلیل مشاهدات ناهنجار و پیدا کردن چنین داده‌هایی در SPSS از دستور Identify Unusual Cases از فهرست Data استفاده می‌کنیم. در ادامه با این دستور آشنا شده و به کمک یک فایل داده از مجموعه فایل‌های راهنمای SPSS نحوه کار با آن را فرا می‌گیریم.

دستور Identify Unusual Cases برای شناسایی مشاهده ناهنجار در SPSS

دستور Identify Unusual Cases یکی از امکانات خودکار شناسایی مشاهده ناهنجار در SPSS بوده که از فهرست Data قابل دسترس است. با تعیین بعضی از تنظیمات در پنجره ظاهر شده، به طور خودکار، مشاهده ناهنجار در SPSS شناسایی می‌شود. تصویر مربوط به این پنجره و تنظیمات هر یک از قسمت‌های آن در ادامه قابل مشاهده است.

پنجره Identify Unusual Cases دارای پنج برگه است که هر یک برای تعیین پارامترهای اجرایی این دستور به منظور شناسایی مشاهده ناهنجار در SPSS بکار می‌روند. در فهرست زیر این برگه‌ها معرفی و در ادامه پارامترهای آن‌ها برای شناسایی مشاهدات ناهنجار مرتبط با یک فایل نمونه، تکمیل می‌شوند.

  • برگه Variables: از این برگه به منظور مشخص کردن متغیرهایی استفاده می‌شود که در امر شناسایی مشاهدات ناهنجار باید به کار گرفته شوند. دقت کنید که استفاده از یک متغیر در این قسمت ممکن است نتیجه‌ای به همراه نداشته باشد، زیرا استفاده از یک متغیر نمی‌تواند کمکی برای شناسایی این گونه مشاهدات به SPSS بکند.
  • برگه Output: خروجی‌هایی که باید توسط این دستور در پنجره Output ظاهر شود، در این برگه مشخص می‌شود. اغلب گزینه‌هایی موجود در این برگه، کاربر را در تشخیص علت و شماره مشاهده نامتعارف یا ناهنجار یاری می‌رساند.
  • برگه Save: بعضی از نتایج حاصل از دستور Identify Unusual Cases به طور جداگانه برای هر مشاهده محاسبه می‌شود که در پنجره Data Editor قابل مشاهده است. گزینه‌های این برگه، به کاربر این اختیار را می‌دهد که به دلخواه بعضی از این نتایج را به عنوان یک متغیر جدید ثبت کند. البته پیشوندهایی (Perfix) نیز برای شناسایی این گونه متغیرها قابل تعریف است که در ادامه معرفی می‌شوند.
  • برگه Missing Values: ممکن است در بین اطلاعات، داده‌های گمشده (Missing Values) وجود داشته باشد. نحوه بررسی یا کنار گذاشتن مشاهداتی از این دست در شناسایی مشاهدات نامتعارف در این برگه انجام می‌شود.
  • برگه Options: آخرین برگه در این پنجره به تنظیماتی اصلی شناسایی مشاهدات نامتعارف یا ناهنجار اختصاص دارد. محدودیت‌هایی که برای شناسایی این گونه مشاهدات باید تعیین شوند، در این قسمت قرار دارند.

از این قسمت به بعد با یک فایل نمونه داده مراحل مربوط به شناسایی مشاهدات ناهنجار در SPSS را اجرا می‌کنیم. این فایل اطلاعاتی با نام Stroke_valid.sav در پوشه Sample این نرم‌افزار قرار دارد. مسیر دسترسی به آن به صورت زیر است. البته فرض شده که نرم‌افزار SPSS در درایو C نصب شده است و نسخه نرم‌افزار هم SPSS 26 است.

C:\Program Files\IBM\SPSS\Statistics\26\Samples\English

نکته: اگر به این پرونده درون SPSS، دسترسی ندارید می‌توانید آن را با قالب فشرده از اینجا دریافت کرده، پس از خارج کردن از حالت فشرده در نرم‌افزار SPSS‌ بارگذاری کنید.

با توجه به اطلاعاتی که در پرونده Stroke_valid.sav وجود دارد، پارامترهای پنجره ظاهر شده را مطابق با تصویرهای بعدی، تکمیل می‌کنیم.

identify unusual cases dialog 1
تصویر ۱: برگه Variables از پنجره Identify Unusual Cases

همانطور که در تصویر ۱ مشاهده می‌کنید، متغیرهای «رده سنی» (Age category) تا متغیر طبقه‌ای «وضعیت سکته در سه تا شش ماه گذشته» (Stroke between 3 and 6 months) به عنوان متغیرهای تحلیلی در کادر Analysis Variables معرفی شده‌اند. همچنین شماره یا کد بیمار (Patient ID) نیز به عنوان متغیری که باید برای معرفی مشاهدات به کار رود در بخش Cases Identifier Variable وارد شده است.

حال برگه Output را انتخاب کنید تا پارامترهای مربوط به خروجی و عناوین نتایجی که باید در پنجره Output ظاهر شوند را تکمیل کنید.

در این قسمت با انتخاب گزینه اول یعنی ...List of unusual cases، از SPSS می‌خواهید که مشاهدات نامتعارف یا ناهنجار را لیست کند. انتخاب این گزینه باعث می‌شود علت ناهنجاری این گونه مشاهدات توسط ذکر نام متغیری که باعث ناهنجاری شده است، در خروجی قید شود. بر این اساس، شاخص‌ها یا جمع‌بندی‌هایی را هم می‌توان در خروجی نمایش داد. این گزینه‌ها را در ادامه معرفی می‌کنیم.

  • Peer group norms: میزان فاصله یا شباهت گروه‌های همسان به همراه توزیع آن‌ها توسط انتخاب این گزینه صورت می‌گیرد. گروه‌های همسان (Peer groups)، به دسته‌ای از مشاهدات گفته می‌شود که براساس تابع فاصله یا شباهت، در یک خوشه قرار می‌گیرند.
  • Anomaly indices: این گزینه باعث نمایش شاخص نامتعارف یا ناهنجار بودن برای مشاهداتی است که توسط این تحلیل شناسایی شده‌اند. این شاخص میزان فاصله یا عدم شباهت مشاهده را نسبت به گروه همسانی که در آن قرار گرفته، می‌سنجد.
  • Reason occurrence by analysis variable: اگر این گزینه انتخاب شود، دلیل نامتعارف بودن هر مشاهده برحسب نام متغیر مربوطه نمایش داده می‌شود. به این ترتیب در کنار هر مشاهده ناهنجار، نام متغیری که بیشترین دلیل برای این امر بوده نیز در خروجی دیده می‌شود.
  • Case processed: با انتخاب این گزینه، مشاهداتی که در این تحلیل مورد استفاده قرار گرفته یا از آن خارج شده‌اند طی یک گزارش یا جدول، نمایش داده می‌شوند.

به این ترتیب برای تحلیل داده‌های پرونده Stroke_valid.sav، گزینه‌های این برگه را مطابق با تصویر 2 تنظیم کرده و قسمت بعدی یعنی برگه Save را فعال می‌کنیم.

dialog_detectanomaly_output
تصویر 2: برگه Output از پنجره Identify Unusual Cases

در برگه Save تنظیماتی برای ذخیره‌سازی نتایج تحلیل برای هر مشاهده به عنوان متغیرهای جدید در پنجره ویرایشگر داده (Data Editor) وجود دارد. این گزینه‌ها در ادامه معرفی شده‌اند.

  • Anomaly index: اگر بخواهید مقدار شاخص Anomaly را برای هر مشاهده نسبت به گروه همسانش، نمایش دهید این گزینه را انتخاب کنید. در کادر Name نیز برای متغیری که قرار است در پنجره Data Editor نمایش داده شود، یک اسم به عنوان پیشوند انتخاب کنید.
  • Peer groups: شماره گروه (ID)، تعداد اعضای گروه (Case Count) و همچنین درصد یا سهم این گروه نسبت به همه مشاهدات مورد استفاده در تحلیل (Size)، متغیرهایی هستند که با انتخاب این گزینه ظاهر می‌شود. در کادر Root Name نیز یک پیشوند برای نام این متغیرها معرفی می‌شود.
  • Reasons: انتخاب این گزینه باعث می‌شود دلیل ناهنجار بودن مشاهدات در پنجره ویرایشگر داده در SPSS ظاهر شود. این عمل توسط استخراج چهار متغیر مختلف صورت می‌گیرد. اولین قسمت نام متغیری است که بیشترین دلیل برای ناهنجار بودن مشاهده را موجب شده. قست دوم مقدار این متغیر و سپس مقدار شاخص گروه همسان و در انتها نیز میزان اثر این متغیر در ناهنجار بودن را نشان می‌دهد. کادر Root Name نیز این امکان را فراهم می‌آورد که یک پیشوند برای متغیرهای ایجاد شده توسط کاربر تعیین شود. هر یک از این چهار متغیر به ترتیب با پیشوند مشخص شده در Root Name، شماره‌گذاری و قابل تشخیص در پنجره Data Editor خواهند شد.
  • ...Replace existing variables: چنانچه تحلیل شناسایی مشاهدات نامتعارف را مجدد اجرا کنیم، متغیرهایی جدیدی ایجاد می‌شود ولی با انتخاب این گزینه، مقادیر جدید حاصل از تحلیل، جایگزین مقادیر متغیرهای قبلی در پنجره Data Editor می‌شود. در غیر این صورت، شماره‌گذاری‌ها به شکلی صورت می‌گیرد که آخرین شماره‌ها مربوط به آخرین تحلیل باشد.

تنظیمات این پنجره را هم مطابق با تصویر زیر انجام دهید.

dialolg_detectanomaly_save
تصویر 3: برگه Save از پنجره Identify Unusual Cases

برگه بعدی یعنی Missing Values را در گام بعدی انتخاب کنید. در این قسمت وضعیت «مقادیر گمشده» (Missing Values) را در تحلیل مشاهدات ناهنجار مشخص می‌کنید. دو گزینه اصلی در این قسمت وجود دارد که در ادامه معرفی شده‌اند.

  • Exclude missing values from analysis: انتخاب این گزینه باعث می‌شود که مشاهداتی که دارای مقدار گمشده (چه از نوع کاربر -user missing یا سیستمی system missing) هستند از تحلیل خارج شوند. این کار ممکن است باعث کاهش تعداد نمونه‌های در تحلیل‌های بعدی شود.
  • Include missing values in analysis: در صورت انتخاب این گزینه، مقدار گمشده با یک مقداری تعیین شده جایگزین می‌شوند تا مشاهداتی با مقدار گمشده وجود نداشته باشد. برای متغیرهایی که با مقیاس Scale مشخص شده‌اند، میانگین (Mean) به عنوان جایگزین در نظر گرفته می‌شود. برای متغیرهای طبقه‌ای (مانند اسمی-Nominal و ترتیبی-Ordinal) هم مقادیر گمشده از نوع کاربر و سیستمی با یکدیگر ادغام شده و به عنوان یک گروه در تحلیل به کار می‌روند.
  • Use proportion of missing values per case as analysis variable: با انتخاب این گزینه، درصد مقادیر گمشده مشاهدات، به عنوان یک متغیر جدید برای تحلیل به کار گرفته می‌شود. به این ترتیب مقدار این متغیر جدید برای مشاهداتی که دارای تعداد مقادیر گمشده بیشتری هستند، بزرگتر بوده و برعکس مشاهدات با مقادیر گمشده کمتر، مقدار کوچکتری خواهند داشت.
dialog_detectanomaly_missing
تصویر 4: برگه Missing Values از پنجره Identify Unusual Cases

در برگه انتهایی یا Options نیز کران‌ یا محدوده‌هایی برای شاخص Anomaly تعیین می‌کنید که به واسطه آن، مشاهده‌ای به عنوان نامتعارف یا ناهنجار شناسایی می‌شود. این گزینه‌ها در ادامه معرفی شده‌اند.

Percentage of cases with highest anomaly index value: با تعیین مقدار درصدی از مشاهدات که دارای بیشترین شاخص ناهنجاری (Anomaly Index) هستند، SPSS را برای تشخیص آن‌ها راهنمایی می‌کنید. هر چه میزان این درصد بیشتر باشد، مشاهدات بیشتری ناهنجار شناخته خواهند شد.

Fixed number of cases with highest anomaly index values: این گزینه امکان تعیین دقیق تعداد مشخصی از مشاهدات را می‌دهد که باید ناهنجار شناخته شوند. برای مثال اگر مقدار Number را ۴ انتخاب کنید، چهار مشاهده‌ای که دارای بیشترین شاخص ناهنجاری هستند، به عنوان مشاهده ناهنجار شناخته و گزارش می‌شوند.

...Identify only cases whose anomaly index value: به جای تعیین تعداد یا درصدی از مشاهدات با بزرگترین مقدار شاخص ناهنجاری، می‌توانید آستانه تشخیص مشاهدات نامتعارف را در کارد Cutoff تعیین کنید. برای مثال با وارد کردن ۲ در این کادر، مشخص می‌کنید که مشاهداتی با شاخص ناهنجاری بیش از ۲، نامتعارف شناخته شوند.

Number of Peer Groups: تعداد گروه‌های همگن یا متجانس (Peer Groups)، در این قسمت تعیین می‌شود. به طور پیش‌فرض تعداد این گروه‌ها (خوشه‌ها) حداقل (Minimum) برابر با ۱ و حداکثر (Maximum) مقدار ۱۵ است.

Maximum Number of Reasons: با مشخص کردن مقدار عددی برای این گزینه، تعداد متغیرهایی را مشخص می‌کنید که باید در گزارش خروجی به عنوان موثرترین متغیرها نام برده شوند. برای مثال اگر مقدار ۳ در این کادر وارد شده باشد، حداکثر ۳ متغیر به عنوان علت اصلی ناهنجاری مشاهدات در گزارش خروجی (Output) یا پنجره ویرایشگر داده (Data Editor) ظاهر خواهد شد.

dialolg_detectanomaly_options
تصویر 5: برگه Options از پنجره Identify Unusual Cases

با فشردن دکمه OK در این پنجره، عملیات و محاسبات مربوط به شناسایی مشاهده ناهنجار در SPSS اجرا خواهد شد.

نکته: با تنظیم همه این گزینه‌ها و زدن دکمه Paste، کد دستوری و اجرایی برای انجام چنین تحلیلی در پنجره Syntax ظاهر خواهد شد. با ذخیره‌سازی آن می‌توانید بعدها همین تنظیمات را فراخوانی کرده، برای فایل داده دیگری اجرا نمایید. در ادامه کدهایی که به واسطه این مجموعه داده و تنظیمات گفته شده، ایجاد می‌شود را مشاهده می‌کنید.

1* Identify Unusual Cases.
2DETECTANOMALY
3  /VARIABLES CATEGORICAL=tia time doa rankin0 catscan clotsolv dhosp result surgery rehab rankin1 
4    rankin2 rankin3 barthel1 barthel2 barthel3 recbart1 recbart2 recbart3 stroke1 stroke2 stroke3 
5    SCALE=los_rehab cost ID=patid
6  /PRINT ANOMALYLIST NORMS ANOMALYSUMMARY REASONSUMMARY CPS 
7  /SAVE ANOMALY(AnomalyIndex) PEERID(PeerId) PEERSIZE(PeerSize) PEERPCTSIZE(PeerPctSize) 
8    REASONVAR(ReasonVar) REASONMEASURE(ReasonMeasure) REASONVALUE(ReasonValue) REASONNORM(ReasonNorm)
9  /HANDLEMISSING APPLY=YES CREATEMISPROPVAR=YES
10  /CRITERIA PCTANOMALOUSCASES=2 ANOMALYCUTPOINT=NONE MINNUMPEERS=1 MAXNUMPEERS=15 NUMREASONS=3.

خروجی و تفسیر مشاهده ناهنجار در SPSS

اگر مراحل و دستوراتی که در قبل برای شناسایی مشاهده ناهنجار در SPSS گفته شد را برای فایل داده stroke-valid.sav با تنظیمات گفته شده، اجرا کرده باشید، خروجی‌ها به صورت زیر خواهند بود.

جدول خلاصه مشاهدات ناهنجار

ابتدا یک جدول به خلاصه‌سازی مشاهدات و تشخیص دسته‌های همسان و متجانس به نام «جدول خلاصه مشاهدات» (Case processing summary) می‌پردازد. همانطور که مشاهده می‌کنید، سه دسته یا گروه (Peer Groups) ایجاد شده است که هر یک از آن‌ها با یک شماره ردیف (Peer ID) مشخص شده‌اند. همانطور که می‌بینید جدول Case processing summary شبیه یک جدول فراوانی (Frequency Table) است که تعداد و درصدها را محاسبه و نمایش می‌دهد.

out_detectanomaly_stroke_01
جدول ۱: خلاصه مشاهدات (Case processing summary)

همانطور که مشخص است سه گروه تشکیل شده که بیشترین فراوانی مربوط به گروه 1 و کمترین نیز متعلق به گروه ۲ است. حدود ۹ درصد از مشاهدات در گروه ۲ و ۶۸ درصد نیز در گروه ۱ قرار گرفته‌اند.

جدول شاخص ناهنجاری

در جدول بعدی با نام «جدول شاخص ناهنجاری» (Anomaly case index list)، مشاهدات ناهنجار لیست شده‌اند. از آنجایی که از کد بیمار (patid) برای مشخص کردن مشاهدات کمک گرفته‌ایم، علاوه بر شماره مشاهده (case) در ستون اول این جدول، در ستون دوم هم کد بیمارانی که ناهنجار شناخته شده‌اند نیز مشخص شده است. در ستون آخر نیز مقدار شاخص ناهنجاری (Anomaly Index) برای آن مشاهده ثبت شده. از آنجایی که در تنظیمات درخواست کرده‌ بودیم حداکثر ۲ درصد از مشاهدات با شاخص ناهنجاری بزرگ، ظاهر شود، تعداد مشاهدات ناهنجار ۲۱ عدد برآورد شده که تقریبا حدود ۲ درصد از ۱۰۴۸ نفر است (1048×0.02=20.961048 \times 0.02 = 20.96).

out_detectanomaly_anomaly-case-list_stroke_01
جدول ۲: شاخص ناهنجاری (Anomaly case index list)

مشخص است که بیشترین مقدار شاخص ناهنجاری برابر با 2٫837 و کمترین آن نیز 1٫736 است.

از آنجایی که بیشترین مقدار شاخص ناهنجاری برای مشاهده 843 برابر با 2٫837 است و دارای اختلاف نسبتا زیادی با مشاهده دوم از این دسته است، آن بیمار با کد 7840326167 را ناهنجار معرفی کرده ولی به علت اختلاف کم در شاخص ناهنجاری بین مشاهدات دیگر، لازم است که آن‌ها را به صورت موردی (Case by Case) مورد تجزیه و تحلیل قرار دهیم.

جدول مشاهدات ناهنجار گروه‌های همسان

در جدول «مشاهدات ناهنجار گروه‌های همسان» (Anomaly case peer ID list)، مشاهدات ناهنجار به همراه کد و شاخص‌های گروهی که در آن قرار گرفته‌اند، دیده می‌شوند. «کد گروه همسان» (Peer ID)، اندازه یا «حجم گروه همسان» (Peer Size)، درصد حجم گروه (Peer Size Percent) در این جدول دیده می‌شود.

out_detectanomaly_anomaly-peerid_stroke_01
جدول ۳: مشاهدات ناهنجار گروه‌های همسان (Anomaly case peer ID list)

کاملا واضح است که بیشتر مشاهدات ناهنجار مربوط به گروه ۳ هستند. همچنین ۱۰ مشاهده ناهنجار اول نیز مربوط به این گروه هستند. در کل ۱۵ مشاهده ناهنجار متعلق به این گروه بوده و بقیه یعنی ۱۰ مشاهده نیز مربوط به گروه ۱ هسنتد. از گروه ۲ هیج عضوی در مشاهدات ناهنجار قرار ندارد.

جدول دلیل ناهنجاری مشاهدات

خروجی قسمت بعدی مربوط به کشف علت ناهنجار بودن مشاهده در SPSS است. جدول «دلیل ناهنجاری مشاهدات» (Anomaly case reason list)، شامل شماره مشاهده (Case) و متغیر کد بیمار (patid) است. همچنین متغیری که بیشترین دلیل برای ناهنجاری آن مشاهده است در ستون Reason Variable دیده می‌شود.

میزان اثر این متغیر نیز در ستون Variable Impact و مقدار این متغیر برای مشاهده ناهنجار در ستون Variable Value قرار گرفته است. مقدار معمول و مورد انتظار برای این متغیر نسبت به مشاهدات هنجار نیز در ستون آخر با عنوان Variable Norm دیده می‌شود.

out_detectanomaly_anomaly-case-reason_stroke_01
جدول ۴: دلیل ناهنجاری مشاهدات (Anomaly case reason list)

نکته: از آنجایی که در خواست کرده بودیم تا حداکثر سه دلیل برای شناسایی مشاهده ناهنجار در SPSS‌ معرفی شود، سه جدول به همین شکل به عنوان خروجی ظاهر می‌شود که در هر یک به ترتیب اولویت متغیرهای موثر در تشخیص ناهنجاری مشاهدات قرار گرفته‌اند. این امر در بالای ستون اول با عنوان Reason 1 مشخص شده است. برای دسترسی به جدول مربوط به علل دیگر کافی است روی این جدول دوبار کلیک کنید و به کمک ویژگی‌های جدول محوری (Pivoting Trays)، نحوه نمایش را برای هر یک از این علل تنظیم کنید.

pivot_stroke_valid_detectanomaly
تصویر ۶: نمای تغییر جدول محوری (Pivoting Trays)

مثلا مطابق با تصویر بالا، می‌توانید فیلد Reason را به بخش ROW بکشید تا جدول زیر حاصل شود. جدول حاصل خلاصه هر سه علل تشخیص ناهنجاری مشاهده در SPSS را یکجا نشان می‌دهد.

out_detectanomaly_anomaly-case-reason_stroke_02
جدول 5: نمایش هم‌زمان هر سه دلیل ناهنجاری مشاهدات در یک جدول

این چیدمان، اجازه مقایسه مناسب برای اصلی‌ترین دلایل ناهنجاری مشاهده را به کاربر می‌دهد. همانطور که مشخص است مشاهده 873 با توجه به مقدار بسیار زیاد متغیر هزینه (Cost)، ناهنجار نشخیص داده شده.

برای مشاهده 501، نمی‌توان یک دلیل را به تنهایی تشخیص داده زیرا متغیرهایی که برای این مشاهده علت ناهنجاری تشخیص داده شده‌اند، در حالت عادی دارای مقدار گمشده هستند ولی مشاهده ۵۰۱ برای همه آن‌ها دارای مقدار است. همین وضعیت را برای مشاهده 614 نیز داریم. از طرفی شاخص اثر متغیرها برای این دو مشاهده همگی از ۱۰٪ (۰٫۱) کمتر هستند. شاید این امر دلیلی بر خارج کردن این بیماران از لیست مشاهدات ناهنجار باشد.

جدول مقدارهای شاخص‌های متغیرهای کمی

در جدول «شاخص‌های متغیرهای کمی» (Scale variable norms)، میانگین (Mean)، انحراف معیار (Std. Deviation) به تفکیک هر یک از گروه‌های (Peer ID) محاسبه و نمایش داده شده است. همانطور که می‌بینید در این مجموعه داده، فقط سه متغیر که در ستون اول این جدول دیده می‌شوند، از نوع کمی (Scale) هستند. به این ترتیب مشخص می‌شود که این متغیرها در تجزیه و تفکیک به گروه‌های همسان (متجانس) چه نقشی دارند.

out_detectanomaly_continuous-norms_stroke_01
جدول ۶: شاخص‌های توصیفی برای متغیرهای کمی (Scale Variable Norms)

برای مثال متغیر «طول دوره نقاهت» (Length of stay for rehabilitation) تقریبا برای هر سه گروه مقداری یکسان دارد. این امر نشان می‌دهد، این متغیر در تشکیل این گروه‌ها نقش مهمی ندارد. البته به این نکته نیز باید توجه کرد که انحراف معیار برای گروه دوم در این متغیر تقریبا صفر است. به این ترتیب مشخص می‌شود که اغلب افراد در گروه دوم دارای طول درمان ثابت و برابر با 16٫39 بوده‌اند.

در عوض متغیر «کل هزینه درمان و نقاهت» (total treatment and rehabilitation costs in thousands) به شکلی در تشکیل گروه‌های همسان، نقش دارد زیرا میانگین هر یک در سطوح مختلف گروه‌ها، اختلاف زیادی داشته ولی تقریبا انحراف معیار یکسانی دارند. همانطور که دیده می‌شود، گروه همسان اول (Peer ID =1) دارای میانگین‌ ۴۲ بوده و بیشتر میزان را برای این متغیر در بین گروه‌ها به خود اختصاص داده است. گروه همسان دوم (Peer ID =2)، در عوض کمترین مقدار را دارد و گروه همسان سوم هم در بین این دو مقدار قرار دارد.

این موضوعات نشان می‌دهد که گروه دوم باید مربوط به بیمارانی باشد که زمان ورود به بیمارستان زنده نبوده‌اند و فقط هزینه‌های ثابت نگهداری یا تشخیص علت فوت برایشان در نظر گرفته شده است. گروه سوم نیز ممکن است مربوط به بیمارانی باشد که در طول دوره درمان، فوت شده‌اند و هزینه خیلی زیادی نداشته‌اند. در عوض گروه ۱ بیماران، مربوط به افرادی است که زنده مانده و دروه نقاهت را هم پشت سر گذاشته و بهبودی کامل یافته‌اند.

نکته: این روابط نشان می‌دهد که براساس متغیرهای معرفی شده بخصوص متغیرهای کمی، عمل دسته‌بندی بیماران به سه دسته اصلی به خوبی صورت گرفته و تفکیک به درستی بیماران را گروه‌بندی کرده است.

جدول مقدارهای شاخص‌های متغیرهای کیفی

درست به مانند متغیرهای کمی، متغیرهای کیفی (متغیرهای طبقه‌ای- Categorical Variable) نیز در شناسایی رده‌های همسان، نقش دارند. جدول «مقدارهای شاخص‌های متغیرها کیفی» (Categorical variable norms) به بررسی خصوصیاتی مانند معیار مرکزی «نما» (Most Popular Category)، «میزان فراوانی» (Frequency)  و «درصد فراوانی» (Percent) برای ۱۰ متغیر اول می‌پردازد.

out_detectanomaly_categorical-norms_stroke_01
جدول ۷: مقدارهای شاخص‌های متغیرها کیفی (Categorical variable norms)

در ستون آخر نیز نما و جمع و درصد مشاهدات مربوط به رده نما، مشخص شده است.

همانطور که در این جدول دیده می‌شود، به نظر می‌رسد که بیشترین تاثیر برای تفکیک یا تشخیص گروه‌های همسان به متغیر «جنسیت» (Gender) و «فعالیت فیزیکی« (Physical active) اختصاص دارد زیرا حداقل دو گروه از مشاهدات دارای مقداری متفاوت برای این دو متغیر هستند.

ادامه این جدول در تصویر زیر دیده می‌شود. به توجه به مقادیر گمشده (Missing Value) در گروه همسان ۲، فرضیه‌هایی که در مورد بیماران (فوت شده قبل از بیمارستان، فوت شده در بیمارستان و درمان شده) قوت می‌گیرد.

out_detectanomaly_categorical-norms_stroke_02
جدول ۸: مقدارهای شاخص‌های متغیرها کیفی (Categorical variable norms)، قسمت دوم

جدول توصیفی شاخص ناهنجاری

همانطور که در جدول «توصیفی شاخص ناهنجاری» (Anomaly index summary) مشاهده می‌کنید، شاخص‌های توصیفی مانند مقدار کمینه (Minimum)، بیشینه (Maximum)، میانگین (Mean) و انحراف استاندارد (Std Deviation) برای شاخص ناهنجاری محاسبه شده است. تعداد مشاهدات ناهنجار نیز در ستون اول جدول (N in the Anomaly List) مشخص شده است.

out_detectanomaly_anomaly-summary_stroke_01
جدول ۹: توصیف شاخص ناهنجاری (Anomaly index summary)

نکته: به یاد دارید که شناسایی مشاهدات ناهنجار براساس ۲ درصد بالایی مشاهدات با بزرگترین شاخص ناهنجاری، مشخص شده است. این امر به صورت زیرنویس در پایین این جدول توسط SPSS تذکر داده شده است.

جدول خلاصه علل ناهنجارها

برای هر یک از متغیرهایی که در تحلیل مورد استفاده قرار گرفته‌اند، شاخص‌های آمار توصیفی در جدول «خلاصه علل ناهنجاری» (Anomaly index summary) لحاظ شده است. البته اگر این متغیرها علت شناسایی مشاهده ناهنجار باشند، فراوانی چنین مشاهداتی نیز در ستون دوم و سوم مشخص شده است.

out_detectanomaly_reason-summary_stroke_01
جدول ۱۰: خلاصه علل ناهنجارها (Anomaly index summary)

برای مثال مشخص است که در علت اول (Reason 1) مقدار 61٫9 درصد از مشاهدات ناهنجار به واسطه متغیر Barthel index at 1 month، مشخص شده‌اند. در رتبه بعدی متغیر Total treatment and rehabilitation costs in thousands بیشترین نقش را در شناسایی چنین مشاهداتی داشته است. البته مشخص است که تعداد کل مشاهدات ناهنجار نیز ۲۱ عدد است.

نکته: باید توجه داشته باشید که این جدول برای دلایل دوم (Reason 2) و سوم (Reason 3) نیز محاسبه شده که در اینجا به خاطر صرفه‌جویی در فضای مطالعاتی، از نمایش آن‌ها صرفه نظر کرده‌ایم.

نمودار تفکیکی گروه‌های همسان

به واسطه جدول‌هایی که در قسمت قبل معرفی شد، شناسایی مشاهدات ناهنجار میسر می‌شود ولی هیچ چیز روشن‌تر و واضح‌تر از یک نمودار نمی‌تواند آن‌ها را مشخص کند. در ادامه به کمک ترسیم یک نمودار پراکندگی (Scatter Plot) بحث مشاهده ناهنجار در SPSS را کامل می‌کنیم.

برای انجام این امر مراحل زیر را طی کنید.

  • از فهرست Graphs دستور Chart Builder را انتخاب کنید.
  • در پنجره ظاهر شده، از قسمت Choose from، گزینه Scatter/Dot را انتخاب کرده و از کادر سمت راست تصویر دوم را به درون کادر Chart preview بکشید.
  • متغیرهای Reason Variable impact Measure 1‌ و Anomaly Index را به ترتیب روی محور افقی و عمودی قرار دهید.
  • متغیر Peer Group ID را هم در کادر Set Color قرار دهید.
  • دکمه OK را فشار دهید.
dlg_chart_builder_groupedscatter_stroke_01
تصویر ۷: نحوه ترسیم نمودار مشاهدات و نمایش دلایل ناهنجاری آن‌ها

با اجرای این دستور، خروجی به صورتی که در تصویر زیر خواهید دید، ایجاد می‌شود. همانطور که مشخص است، گروه‌های به خوبی براساس رنگ‌های سرمه‌ای، سبز و زرد، قابل تشخیص هستند.

out_scatterplot_stroke_01
تصویر 8: نمودار شاخص ناهنجاری براساس مقدار اثر اولین متغیر علت ناهنجاری

دایره‌های درون نمودار نیز نشانگر مقدار شاخص ناهنجاری برحسب متغیری است که به عنوان علت ناهنجاری شناخته شده. البته توجه داشته باشید که همه 1048 مشاهده این مجموعه داده در این نمودار ترسیم شده‌اند. ولی آن مشاهداتی که نسبت به بقیه دورتر هستند باید به عنوان مشاهده ناهنجار، مورد بررسی مجدد قرار گرفته یا از تجزیه و تحلیل یا مدل‌سازی آماری، حذف شوند.

اطلاعات زیر توسط این نمودار، استخراج شده که البته شایان توجه است.

  • مشاهداتی که در قسمت بالا و راست این نمودار قرار گرفته‌اند، متعلق به گروه همسان ۳ بوده که براساس یک متغیر، ناهنجار شناسایی شده‌اند.
  • با حرکت به سمت پایین روی محور عمودی، به سه مشاهده از گروه همسان ۳ برخورد می‌کنیم که شاخص ناهنجاری آن‌ها بزرگتر از ۲٫۰۰ است. در نتیجه با احتمال زیاد باید آن‌ها را ناهنجار بنامیم.
  • با حرکت روی محور افقی هم با چهار مشاهده مواجه می‌شویم که متعلق به گروه همسان ۱ بوده و میزان اثر متغیر برایشان بین ۰٫۲۳ تا ۰٫۳۳ است. این مشاهدات نیز باید به طور خاص، مورد توجه قرار گرفته و وضعیتشان روشن شود، زیرا به نظر می‌رسد که با بقیه مشاهدات در این گروه، تفاوت زیادی دارند.
  • گروه همسان ۲ که با دایره سبز‌رنگ مشخص شده‌اند، به نظر «همگن» (Homogenous) می‌رسند، زیرا «شاخص اثر» (Impact Factor) و «شاخص ناهنجاری» (Anomaly Index) برای مشاهدات آن تغییرات زیادی ندارد.

شایان ذکر است که چنین نموداری را برای متغیرهای دیگر مانند Reason Variable Impact Measure 2 و Reason Variable Impact Measure 3 نیز می‌توانید ترسیم کنید.

برای کسب اطلاعات بیشتر در مورد نحوه ترسیم انواع نمودارها در SPSS می‌توانید نوشتار دیگری از مجله فرادرس با عنوان رسم نمودار در SPSS — راهنمای کاربردی را مطالعه کنید.

نتیجه‌گیری نهایی

همانطور که دیدید، برای تشخیص گروه‌های همسان، دو یا سه متغیر از بین همه متغیرها مورد استفاده قرار گرفت و این امر باعث شد که سه گروه همسان ایجاد شود. گروه‌های همسان به نظر سه دسته هستند:

  1. بیمارانی که قبل از ورود به بیمارستان فوت شده بودند.
  2. بیمارانی که به محض ورود به بیمارستان فوت شده‌اند و فقط عملیات احیا رویشان صورت گرفته و اثر بخش نبوده.
  3. بیمارانی که بعد از ورود به بیمارستان، تحت درمان قرار گرفته و مداوا به طور کامل انجام شده و از بیمارستان ترخیص شده‌اند.

بنابراین اگر به دنبال تحلیل عملیات و هزینه‌های شیوه درمانی در این بیمارستان هستیم، شاید بهتر باشد که به گروه آخر توجه و از بقیه گروه‌ها چشم‌پوشی کنیم.

در این نوشتار به کمک روندی که برای شناسایی مشاهده ناهنجار انجام دادیم، به مشاهداتی برخوردیم که باید بیشتر مورد توجه قرار گرفته و اندازه‌ها و مقادیر آن‌ها مجدد مورد بررسی قرار گیرد.

این گام‌ها در روند شناسایی، معمولا به دو دلیل یا هدف انجام می‌شود:

  1. شناسایی مشاهده ناهنجار در SPSS به منظور حذف اثر آن‌ها در تحلیل‌های آماری یا مدل‌هایی که در آینده قرار است ایجاد شوند.
  2. شناسایی مشاهده ناهنجار در SPSS به منظور کشف چنین مشاهداتی برای تجزیه و تحلیل آن‌ها به عنوان مشاهدات استثنایی و موارد خاص که باید طبق یک گزارش جدا از تحلیل موضوع تحقیق، ارائه شوند.

باید توجه داشت که روش‌های دیگری نیز برای بررسی مشاهدات و داده‌ها قبل از اجرای تجزیه و تحلیل آماری در SPSS وجود دارد. برای مثال می‌توان از دستور Validate Data، اعتبار دهی مقادیر را صورت داد تا مقادیر نامعقول برای هر مشاهده مشخص و کنار گذاشته شود زیرا ممکن است وجود چنین مقادیری، باعث ناهنجار شدن یک مشاهده شده باشد. همچنین اعتبار دهی متقاطع (Cross Validate Data) که با توجه به رابطه بین متغیرها اعتبار مقادیر و داده‌ها را مشخص می‌کند در این بین می‌تواند کارساز بوده و کمک شایانی به خلوص داده‌ها بکند.

شایان ذکر است که هر دو این عملیات در SPSS امکان‌پذیر بوده و توسط دستور Validation از فهرست Data قابل دسترس خواهد بود.

خلاصه و جمع‌بندی

در این نوشتار با دستوراتی که عمل شناسایی مشاهده ناهنجار در SPSS را انجام می‌دهد آشنا شدیم. همانطور که دیدید، مبنای کار در این روش، تفکیک مشاهدات به دسته‌های همسان است بطوری که هر دسته با دسته دیگر بیشتر تفاوت را داشته باشد. سپس میزان تعلق هر مشاهده به دسته یا خوشه (Cluster) خودش توسط «شاخص ناهنجاری» (Anomaly Index) اندازه‌گیری شده و مشاهد ناهنجار در SPSS شناسایی می‌شود.

این امر به کمک تکنیک‌های خوشه‌بندی و ترکیبی از شاخص‌های ارزیابی خوشه‌ها صورت می‌گیرد. برای اینکه توضیحات مربوطه، شفاف و قابل درک باشد در این بین از یک فایل نمونه آموزشی استفاده کردیم تا کاربران مجبور به ورود داده‌ها نباشند، سپس به تحلیل مشاهده ناهنجار در SPSS پرداختیم.

اگر علاقه‌مند به یادگیری مباحث مشابه مطلب بالا هستید، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۲ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
IBMمجله فرادرس
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *