مشاهده ناهنجار و شناسایی آن در SPSS – راهنمای کاربردی


روش و شیوه شناسایی مشاهده ناهنجار در SPSS انحصاری و کم نظیر است و قادر است با بیشترین میزان موفقیت، به کمک ترکیبی از روشهای مختلف مانند خوشهبندی و تعیین شاخصهایی مانند «شاخص ناهنجاری» (Anomaly Index)، مقادیر یا مشاهدات «نامتعارف» (Abnormal) یا «ناهنجار» (Anomal) را از دیگر مقادیر جدا کند. در این نوشتار با مبانی «شناسایی ناهنجاری» (Anomaly Detection) آشنا شده و نحوه اجرای آن را در SPSS فرا میگیریم.
به منظور آشنایی بیشتر با روشهای خوشهبندی و تعیین نمره یا امتیاز هر خوشه، نوشتارهای آشنایی با خوشهبندی (Clustering) و شیوههای مختلف آن و روش های ارزیابی نتایج خوشه بندی (Clustering Performance) — معیارهای درونی (Internal Index) را بخوانید. همچنین خواندن مطالب نمودار جعبه ای (Boxplot) و رسم آن در پایتون – به زبان ساده و دسته بندی تصویری (Visual Binning) در SPSS — راهنمای کاربردی نیز خالی از لطف نیست.
مشاهده ناهنجار و شناسایی آن در SPSS
هنگام ایجاد مدلها یا تجزیه و تحلیلهای آماری، لازم است که مشاهداتی که ناهنجار یا نامتعارف تلقی میشوند، جداسازی شده و به صورت مجزا مورد تحلیل قرار گرفته یا بطور کل از گزارش و بررسی آماری خارج شوند.
معمولا برای شناسایی این گونه مشاهدات از دو شیوه استفاده میشود. ممکن است براساس شاخصهای آمار توصیفی و تمایل دادهها به داشتن توزیع نرمال (Normal Distribution)، هر مشاهدهای که از قواعد توزیع نرمال پیروی نمیکند را به عنوان مشاهده نامتعارف یا ناهنجار شناسایی کنیم. در این صورت اغلب از معیارهایی مانند میانگین (Mean) و انحراف معیار (Standard Deviation) و همچنین از نسبت این دو که به ضریب تغییرات (Coefficient of Variation) معروف است، برای مشخص کردن مشاهدات مشکوک کمک میگیریم. این موضوع در نوشتار دیگری با عنوان داده پرت و شناسایی آن در SPSS مورد بحث قرار خواهد گرفت.
نکته: توجه دارید که در صورتی که با دادههای چند بُعدی مواجه باشیم، شناسایی مشاهدات مشکوک یا دورافتاده را براساس هر بُعد انجام داده و در نهایت نسبت به خروج آنها به جمعبندی میرسیم.
ولی روشهایی دیگری نیز مانند خوشهبندی وجود دارد که به کمک آن براساس فاصله مشاهدات از یکدیگر یا براساس یک یا چند نقطه تمرکز، گروههای متجانس شناسایی شده و میزان تعلق هر مشاهده به خوشهاش، اندازهگیری میشود. چنانچه مقدار این شاخص از مقدار مشخصی کمتر باشد، آن مشاهده را به عنوان داده نامتعارف یا ناهنجار معرفی میشود.
رویکردی که در این شیوه وجود دارد، دستهبندی و گروهبندی مشاهدات و تعیین گروههای همسان (Peer Group) است. اگر با نگاه خوشهبندی (Clustering) به این موضوع نگاه کنیم، دستور Identify Unusual Cases، خوشههایی برمبنای روشهای خوشهبندی یا یادگیری غیرنظارتی ایجاد میکند و مشاهداتی که دارای فاصله زیادی از بقیه اعضای خوشه هستند، مبنای شناسایی مشاهده ناهنجار در SPSS خواهند بود.
در این بین شاخصهایی مانند درجه مشابهت یا «مقادیر استاندارد گروه همسان» (Peer Group Norms) هر مشاهده به خوشه و همچنین «شاخص ناهنجاری» (Anomaly Index) نیز محاسبه میشود. به این ترتیب براساس این شاخصها و درصد یا مقدار آستانهای که برای آنها تعیین میکنیم، مشاهده ناهنجار در SPSS شناسایی میشود.
مشاهده ناهنجار در SPSS
همانطور که گفته شد، SPSS دارای دستوری است که به طور اختصاصی به شناسایی مشاهدات ناهنجار یا نامتعارف اختصاص دارد. این دستور در حقیقت در پسزمینه، عملیات خوشهبندی (Clustering) را به کمک الگوریتم اختصاصی SPSS به نام TwoStep Cluster انجام میدهد. تعداد خوشهها در این الگوریتم به طور خودکار و براساس معیارهای ارزیابی مدل مانند AIC یا BIC صورت میگیرد. البته حداقل و حداکثر تعداد خوشهها (گروههای همسان-Peer Groups) در این مرحله توسط کاربر تعیین میشود.
در این بین، اندازهگیری فاصله بین مشاهدات اهمیت پیدا میکند. با توجه به نوع دادهها (کیفی یا کمی بودن)، نحوه اندازهگیری فاصله یا شباهت بین نقاط، متفاوت است. اگر از شیوههای اندازهگیری فاصله آگاهی ندارید، بهتر است قبل از ادامه این متن، نوشتار فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در دادهکاوی را مطالعه کنید که در محاسبات خوشهبندی به کار گرفته میشود. نرمافزار SPSS، از ترکیبی توابع فاصله مانند لگاریتم تابع درستنمایی (Likelihood Function) برای دادههای کیفی و فاصله اقلیدسی (Euclidean Distance Function) برای دادههای کمی استفاده کرده، فاصله مشاهدات را از یکدیگر اندازهگیری میکند.
برای تحلیل مشاهدات ناهنجار و پیدا کردن چنین دادههایی در SPSS از دستور Identify Unusual Cases از فهرست Data استفاده میکنیم. در ادامه با این دستور آشنا شده و به کمک یک فایل داده از مجموعه فایلهای راهنمای SPSS نحوه کار با آن را فرا میگیریم.
دستور Identify Unusual Cases برای شناسایی مشاهده ناهنجار در SPSS
دستور Identify Unusual Cases یکی از امکانات خودکار شناسایی مشاهده ناهنجار در SPSS بوده که از فهرست Data قابل دسترس است. با تعیین بعضی از تنظیمات در پنجره ظاهر شده، به طور خودکار، مشاهده ناهنجار در SPSS شناسایی میشود. تصویر مربوط به این پنجره و تنظیمات هر یک از قسمتهای آن در ادامه قابل مشاهده است.
پنجره Identify Unusual Cases دارای پنج برگه است که هر یک برای تعیین پارامترهای اجرایی این دستور به منظور شناسایی مشاهده ناهنجار در SPSS بکار میروند. در فهرست زیر این برگهها معرفی و در ادامه پارامترهای آنها برای شناسایی مشاهدات ناهنجار مرتبط با یک فایل نمونه، تکمیل میشوند.
- برگه Variables: از این برگه به منظور مشخص کردن متغیرهایی استفاده میشود که در امر شناسایی مشاهدات ناهنجار باید به کار گرفته شوند. دقت کنید که استفاده از یک متغیر در این قسمت ممکن است نتیجهای به همراه نداشته باشد، زیرا استفاده از یک متغیر نمیتواند کمکی برای شناسایی این گونه مشاهدات به SPSS بکند.
- برگه Output: خروجیهایی که باید توسط این دستور در پنجره Output ظاهر شود، در این برگه مشخص میشود. اغلب گزینههایی موجود در این برگه، کاربر را در تشخیص علت و شماره مشاهده نامتعارف یا ناهنجار یاری میرساند.
- برگه Save: بعضی از نتایج حاصل از دستور Identify Unusual Cases به طور جداگانه برای هر مشاهده محاسبه میشود که در پنجره Data Editor قابل مشاهده است. گزینههای این برگه، به کاربر این اختیار را میدهد که به دلخواه بعضی از این نتایج را به عنوان یک متغیر جدید ثبت کند. البته پیشوندهایی (Perfix) نیز برای شناسایی این گونه متغیرها قابل تعریف است که در ادامه معرفی میشوند.
- برگه Missing Values: ممکن است در بین اطلاعات، دادههای گمشده (Missing Values) وجود داشته باشد. نحوه بررسی یا کنار گذاشتن مشاهداتی از این دست در شناسایی مشاهدات نامتعارف در این برگه انجام میشود.
- برگه Options: آخرین برگه در این پنجره به تنظیماتی اصلی شناسایی مشاهدات نامتعارف یا ناهنجار اختصاص دارد. محدودیتهایی که برای شناسایی این گونه مشاهدات باید تعیین شوند، در این قسمت قرار دارند.
از این قسمت به بعد با یک فایل نمونه داده مراحل مربوط به شناسایی مشاهدات ناهنجار در SPSS را اجرا میکنیم. این فایل اطلاعاتی با نام Stroke_valid.sav در پوشه Sample این نرمافزار قرار دارد. مسیر دسترسی به آن به صورت زیر است. البته فرض شده که نرمافزار SPSS در درایو C نصب شده است و نسخه نرمافزار هم SPSS 26 است.
C:\Program Files\IBM\SPSS\Statistics\26\Samples\English
نکته: اگر به این پرونده درون SPSS، دسترسی ندارید میتوانید آن را با قالب فشرده از اینجا دریافت کرده، پس از خارج کردن از حالت فشرده در نرمافزار SPSS بارگذاری کنید.
با توجه به اطلاعاتی که در پرونده Stroke_valid.sav وجود دارد، پارامترهای پنجره ظاهر شده را مطابق با تصویرهای بعدی، تکمیل میکنیم.

همانطور که در تصویر ۱ مشاهده میکنید، متغیرهای «رده سنی» (Age category) تا متغیر طبقهای «وضعیت سکته در سه تا شش ماه گذشته» (Stroke between 3 and 6 months) به عنوان متغیرهای تحلیلی در کادر Analysis Variables معرفی شدهاند. همچنین شماره یا کد بیمار (Patient ID) نیز به عنوان متغیری که باید برای معرفی مشاهدات به کار رود در بخش Cases Identifier Variable وارد شده است.
حال برگه Output را انتخاب کنید تا پارامترهای مربوط به خروجی و عناوین نتایجی که باید در پنجره Output ظاهر شوند را تکمیل کنید.
در این قسمت با انتخاب گزینه اول یعنی ...List of unusual cases، از SPSS میخواهید که مشاهدات نامتعارف یا ناهنجار را لیست کند. انتخاب این گزینه باعث میشود علت ناهنجاری این گونه مشاهدات توسط ذکر نام متغیری که باعث ناهنجاری شده است، در خروجی قید شود. بر این اساس، شاخصها یا جمعبندیهایی را هم میتوان در خروجی نمایش داد. این گزینهها را در ادامه معرفی میکنیم.
- Peer group norms: میزان فاصله یا شباهت گروههای همسان به همراه توزیع آنها توسط انتخاب این گزینه صورت میگیرد. گروههای همسان (Peer groups)، به دستهای از مشاهدات گفته میشود که براساس تابع فاصله یا شباهت، در یک خوشه قرار میگیرند.
- Anomaly indices: این گزینه باعث نمایش شاخص نامتعارف یا ناهنجار بودن برای مشاهداتی است که توسط این تحلیل شناسایی شدهاند. این شاخص میزان فاصله یا عدم شباهت مشاهده را نسبت به گروه همسانی که در آن قرار گرفته، میسنجد.
- Reason occurrence by analysis variable: اگر این گزینه انتخاب شود، دلیل نامتعارف بودن هر مشاهده برحسب نام متغیر مربوطه نمایش داده میشود. به این ترتیب در کنار هر مشاهده ناهنجار، نام متغیری که بیشترین دلیل برای این امر بوده نیز در خروجی دیده میشود.
- Case processed: با انتخاب این گزینه، مشاهداتی که در این تحلیل مورد استفاده قرار گرفته یا از آن خارج شدهاند طی یک گزارش یا جدول، نمایش داده میشوند.
به این ترتیب برای تحلیل دادههای پرونده Stroke_valid.sav، گزینههای این برگه را مطابق با تصویر 2 تنظیم کرده و قسمت بعدی یعنی برگه Save را فعال میکنیم.

در برگه Save تنظیماتی برای ذخیرهسازی نتایج تحلیل برای هر مشاهده به عنوان متغیرهای جدید در پنجره ویرایشگر داده (Data Editor) وجود دارد. این گزینهها در ادامه معرفی شدهاند.
- Anomaly index: اگر بخواهید مقدار شاخص Anomaly را برای هر مشاهده نسبت به گروه همسانش، نمایش دهید این گزینه را انتخاب کنید. در کادر Name نیز برای متغیری که قرار است در پنجره Data Editor نمایش داده شود، یک اسم به عنوان پیشوند انتخاب کنید.
- Peer groups: شماره گروه (ID)، تعداد اعضای گروه (Case Count) و همچنین درصد یا سهم این گروه نسبت به همه مشاهدات مورد استفاده در تحلیل (Size)، متغیرهایی هستند که با انتخاب این گزینه ظاهر میشود. در کادر Root Name نیز یک پیشوند برای نام این متغیرها معرفی میشود.
- Reasons: انتخاب این گزینه باعث میشود دلیل ناهنجار بودن مشاهدات در پنجره ویرایشگر داده در SPSS ظاهر شود. این عمل توسط استخراج چهار متغیر مختلف صورت میگیرد. اولین قسمت نام متغیری است که بیشترین دلیل برای ناهنجار بودن مشاهده را موجب شده. قست دوم مقدار این متغیر و سپس مقدار شاخص گروه همسان و در انتها نیز میزان اثر این متغیر در ناهنجار بودن را نشان میدهد. کادر Root Name نیز این امکان را فراهم میآورد که یک پیشوند برای متغیرهای ایجاد شده توسط کاربر تعیین شود. هر یک از این چهار متغیر به ترتیب با پیشوند مشخص شده در Root Name، شمارهگذاری و قابل تشخیص در پنجره Data Editor خواهند شد.
- ...Replace existing variables: چنانچه تحلیل شناسایی مشاهدات نامتعارف را مجدد اجرا کنیم، متغیرهایی جدیدی ایجاد میشود ولی با انتخاب این گزینه، مقادیر جدید حاصل از تحلیل، جایگزین مقادیر متغیرهای قبلی در پنجره Data Editor میشود. در غیر این صورت، شمارهگذاریها به شکلی صورت میگیرد که آخرین شمارهها مربوط به آخرین تحلیل باشد.
تنظیمات این پنجره را هم مطابق با تصویر زیر انجام دهید.

برگه بعدی یعنی Missing Values را در گام بعدی انتخاب کنید. در این قسمت وضعیت «مقادیر گمشده» (Missing Values) را در تحلیل مشاهدات ناهنجار مشخص میکنید. دو گزینه اصلی در این قسمت وجود دارد که در ادامه معرفی شدهاند.
- Exclude missing values from analysis: انتخاب این گزینه باعث میشود که مشاهداتی که دارای مقدار گمشده (چه از نوع کاربر -user missing یا سیستمی system missing) هستند از تحلیل خارج شوند. این کار ممکن است باعث کاهش تعداد نمونههای در تحلیلهای بعدی شود.
- Include missing values in analysis: در صورت انتخاب این گزینه، مقدار گمشده با یک مقداری تعیین شده جایگزین میشوند تا مشاهداتی با مقدار گمشده وجود نداشته باشد. برای متغیرهایی که با مقیاس Scale مشخص شدهاند، میانگین (Mean) به عنوان جایگزین در نظر گرفته میشود. برای متغیرهای طبقهای (مانند اسمی-Nominal و ترتیبی-Ordinal) هم مقادیر گمشده از نوع کاربر و سیستمی با یکدیگر ادغام شده و به عنوان یک گروه در تحلیل به کار میروند.
- Use proportion of missing values per case as analysis variable: با انتخاب این گزینه، درصد مقادیر گمشده مشاهدات، به عنوان یک متغیر جدید برای تحلیل به کار گرفته میشود. به این ترتیب مقدار این متغیر جدید برای مشاهداتی که دارای تعداد مقادیر گمشده بیشتری هستند، بزرگتر بوده و برعکس مشاهدات با مقادیر گمشده کمتر، مقدار کوچکتری خواهند داشت.

در برگه انتهایی یا Options نیز کران یا محدودههایی برای شاخص Anomaly تعیین میکنید که به واسطه آن، مشاهدهای به عنوان نامتعارف یا ناهنجار شناسایی میشود. این گزینهها در ادامه معرفی شدهاند.
Percentage of cases with highest anomaly index value: با تعیین مقدار درصدی از مشاهدات که دارای بیشترین شاخص ناهنجاری (Anomaly Index) هستند، SPSS را برای تشخیص آنها راهنمایی میکنید. هر چه میزان این درصد بیشتر باشد، مشاهدات بیشتری ناهنجار شناخته خواهند شد.
Fixed number of cases with highest anomaly index values: این گزینه امکان تعیین دقیق تعداد مشخصی از مشاهدات را میدهد که باید ناهنجار شناخته شوند. برای مثال اگر مقدار Number را ۴ انتخاب کنید، چهار مشاهدهای که دارای بیشترین شاخص ناهنجاری هستند، به عنوان مشاهده ناهنجار شناخته و گزارش میشوند.
...Identify only cases whose anomaly index value: به جای تعیین تعداد یا درصدی از مشاهدات با بزرگترین مقدار شاخص ناهنجاری، میتوانید آستانه تشخیص مشاهدات نامتعارف را در کارد Cutoff تعیین کنید. برای مثال با وارد کردن ۲ در این کادر، مشخص میکنید که مشاهداتی با شاخص ناهنجاری بیش از ۲، نامتعارف شناخته شوند.
Number of Peer Groups: تعداد گروههای همگن یا متجانس (Peer Groups)، در این قسمت تعیین میشود. به طور پیشفرض تعداد این گروهها (خوشهها) حداقل (Minimum) برابر با ۱ و حداکثر (Maximum) مقدار ۱۵ است.
Maximum Number of Reasons: با مشخص کردن مقدار عددی برای این گزینه، تعداد متغیرهایی را مشخص میکنید که باید در گزارش خروجی به عنوان موثرترین متغیرها نام برده شوند. برای مثال اگر مقدار ۳ در این کادر وارد شده باشد، حداکثر ۳ متغیر به عنوان علت اصلی ناهنجاری مشاهدات در گزارش خروجی (Output) یا پنجره ویرایشگر داده (Data Editor) ظاهر خواهد شد.

با فشردن دکمه OK در این پنجره، عملیات و محاسبات مربوط به شناسایی مشاهده ناهنجار در SPSS اجرا خواهد شد.
نکته: با تنظیم همه این گزینهها و زدن دکمه Paste، کد دستوری و اجرایی برای انجام چنین تحلیلی در پنجره Syntax ظاهر خواهد شد. با ذخیرهسازی آن میتوانید بعدها همین تنظیمات را فراخوانی کرده، برای فایل داده دیگری اجرا نمایید. در ادامه کدهایی که به واسطه این مجموعه داده و تنظیمات گفته شده، ایجاد میشود را مشاهده میکنید.
خروجی و تفسیر مشاهده ناهنجار در SPSS
اگر مراحل و دستوراتی که در قبل برای شناسایی مشاهده ناهنجار در SPSS گفته شد را برای فایل داده stroke-valid.sav با تنظیمات گفته شده، اجرا کرده باشید، خروجیها به صورت زیر خواهند بود.
جدول خلاصه مشاهدات ناهنجار
ابتدا یک جدول به خلاصهسازی مشاهدات و تشخیص دستههای همسان و متجانس به نام «جدول خلاصه مشاهدات» (Case processing summary) میپردازد. همانطور که مشاهده میکنید، سه دسته یا گروه (Peer Groups) ایجاد شده است که هر یک از آنها با یک شماره ردیف (Peer ID) مشخص شدهاند. همانطور که میبینید جدول Case processing summary شبیه یک جدول فراوانی (Frequency Table) است که تعداد و درصدها را محاسبه و نمایش میدهد.

همانطور که مشخص است سه گروه تشکیل شده که بیشترین فراوانی مربوط به گروه 1 و کمترین نیز متعلق به گروه ۲ است. حدود ۹ درصد از مشاهدات در گروه ۲ و ۶۸ درصد نیز در گروه ۱ قرار گرفتهاند.
جدول شاخص ناهنجاری
در جدول بعدی با نام «جدول شاخص ناهنجاری» (Anomaly case index list)، مشاهدات ناهنجار لیست شدهاند. از آنجایی که از کد بیمار (patid) برای مشخص کردن مشاهدات کمک گرفتهایم، علاوه بر شماره مشاهده (case) در ستون اول این جدول، در ستون دوم هم کد بیمارانی که ناهنجار شناخته شدهاند نیز مشخص شده است. در ستون آخر نیز مقدار شاخص ناهنجاری (Anomaly Index) برای آن مشاهده ثبت شده. از آنجایی که در تنظیمات درخواست کرده بودیم حداکثر ۲ درصد از مشاهدات با شاخص ناهنجاری بزرگ، ظاهر شود، تعداد مشاهدات ناهنجار ۲۱ عدد برآورد شده که تقریبا حدود ۲ درصد از ۱۰۴۸ نفر است ().

مشخص است که بیشترین مقدار شاخص ناهنجاری برابر با 2٫837 و کمترین آن نیز 1٫736 است.
از آنجایی که بیشترین مقدار شاخص ناهنجاری برای مشاهده 843 برابر با 2٫837 است و دارای اختلاف نسبتا زیادی با مشاهده دوم از این دسته است، آن بیمار با کد 7840326167 را ناهنجار معرفی کرده ولی به علت اختلاف کم در شاخص ناهنجاری بین مشاهدات دیگر، لازم است که آنها را به صورت موردی (Case by Case) مورد تجزیه و تحلیل قرار دهیم.
جدول مشاهدات ناهنجار گروههای همسان
در جدول «مشاهدات ناهنجار گروههای همسان» (Anomaly case peer ID list)، مشاهدات ناهنجار به همراه کد و شاخصهای گروهی که در آن قرار گرفتهاند، دیده میشوند. «کد گروه همسان» (Peer ID)، اندازه یا «حجم گروه همسان» (Peer Size)، درصد حجم گروه (Peer Size Percent) در این جدول دیده میشود.

کاملا واضح است که بیشتر مشاهدات ناهنجار مربوط به گروه ۳ هستند. همچنین ۱۰ مشاهده ناهنجار اول نیز مربوط به این گروه هستند. در کل ۱۵ مشاهده ناهنجار متعلق به این گروه بوده و بقیه یعنی ۱۰ مشاهده نیز مربوط به گروه ۱ هسنتد. از گروه ۲ هیج عضوی در مشاهدات ناهنجار قرار ندارد.
جدول دلیل ناهنجاری مشاهدات
خروجی قسمت بعدی مربوط به کشف علت ناهنجار بودن مشاهده در SPSS است. جدول «دلیل ناهنجاری مشاهدات» (Anomaly case reason list)، شامل شماره مشاهده (Case) و متغیر کد بیمار (patid) است. همچنین متغیری که بیشترین دلیل برای ناهنجاری آن مشاهده است در ستون Reason Variable دیده میشود.
میزان اثر این متغیر نیز در ستون Variable Impact و مقدار این متغیر برای مشاهده ناهنجار در ستون Variable Value قرار گرفته است. مقدار معمول و مورد انتظار برای این متغیر نسبت به مشاهدات هنجار نیز در ستون آخر با عنوان Variable Norm دیده میشود.

نکته: از آنجایی که در خواست کرده بودیم تا حداکثر سه دلیل برای شناسایی مشاهده ناهنجار در SPSS معرفی شود، سه جدول به همین شکل به عنوان خروجی ظاهر میشود که در هر یک به ترتیب اولویت متغیرهای موثر در تشخیص ناهنجاری مشاهدات قرار گرفتهاند. این امر در بالای ستون اول با عنوان Reason 1 مشخص شده است. برای دسترسی به جدول مربوط به علل دیگر کافی است روی این جدول دوبار کلیک کنید و به کمک ویژگیهای جدول محوری (Pivoting Trays)، نحوه نمایش را برای هر یک از این علل تنظیم کنید.

مثلا مطابق با تصویر بالا، میتوانید فیلد Reason را به بخش ROW بکشید تا جدول زیر حاصل شود. جدول حاصل خلاصه هر سه علل تشخیص ناهنجاری مشاهده در SPSS را یکجا نشان میدهد.

این چیدمان، اجازه مقایسه مناسب برای اصلیترین دلایل ناهنجاری مشاهده را به کاربر میدهد. همانطور که مشخص است مشاهده 873 با توجه به مقدار بسیار زیاد متغیر هزینه (Cost)، ناهنجار نشخیص داده شده.
برای مشاهده 501، نمیتوان یک دلیل را به تنهایی تشخیص داده زیرا متغیرهایی که برای این مشاهده علت ناهنجاری تشخیص داده شدهاند، در حالت عادی دارای مقدار گمشده هستند ولی مشاهده ۵۰۱ برای همه آنها دارای مقدار است. همین وضعیت را برای مشاهده 614 نیز داریم. از طرفی شاخص اثر متغیرها برای این دو مشاهده همگی از ۱۰٪ (۰٫۱) کمتر هستند. شاید این امر دلیلی بر خارج کردن این بیماران از لیست مشاهدات ناهنجار باشد.
جدول مقدارهای شاخصهای متغیرهای کمی
در جدول «شاخصهای متغیرهای کمی» (Scale variable norms)، میانگین (Mean)، انحراف معیار (Std. Deviation) به تفکیک هر یک از گروههای (Peer ID) محاسبه و نمایش داده شده است. همانطور که میبینید در این مجموعه داده، فقط سه متغیر که در ستون اول این جدول دیده میشوند، از نوع کمی (Scale) هستند. به این ترتیب مشخص میشود که این متغیرها در تجزیه و تفکیک به گروههای همسان (متجانس) چه نقشی دارند.

برای مثال متغیر «طول دوره نقاهت» (Length of stay for rehabilitation) تقریبا برای هر سه گروه مقداری یکسان دارد. این امر نشان میدهد، این متغیر در تشکیل این گروهها نقش مهمی ندارد. البته به این نکته نیز باید توجه کرد که انحراف معیار برای گروه دوم در این متغیر تقریبا صفر است. به این ترتیب مشخص میشود که اغلب افراد در گروه دوم دارای طول درمان ثابت و برابر با 16٫39 بودهاند.
در عوض متغیر «کل هزینه درمان و نقاهت» (total treatment and rehabilitation costs in thousands) به شکلی در تشکیل گروههای همسان، نقش دارد زیرا میانگین هر یک در سطوح مختلف گروهها، اختلاف زیادی داشته ولی تقریبا انحراف معیار یکسانی دارند. همانطور که دیده میشود، گروه همسان اول (Peer ID =1) دارای میانگین ۴۲ بوده و بیشتر میزان را برای این متغیر در بین گروهها به خود اختصاص داده است. گروه همسان دوم (Peer ID =2)، در عوض کمترین مقدار را دارد و گروه همسان سوم هم در بین این دو مقدار قرار دارد.
این موضوعات نشان میدهد که گروه دوم باید مربوط به بیمارانی باشد که زمان ورود به بیمارستان زنده نبودهاند و فقط هزینههای ثابت نگهداری یا تشخیص علت فوت برایشان در نظر گرفته شده است. گروه سوم نیز ممکن است مربوط به بیمارانی باشد که در طول دوره درمان، فوت شدهاند و هزینه خیلی زیادی نداشتهاند. در عوض گروه ۱ بیماران، مربوط به افرادی است که زنده مانده و دروه نقاهت را هم پشت سر گذاشته و بهبودی کامل یافتهاند.
نکته: این روابط نشان میدهد که براساس متغیرهای معرفی شده بخصوص متغیرهای کمی، عمل دستهبندی بیماران به سه دسته اصلی به خوبی صورت گرفته و تفکیک به درستی بیماران را گروهبندی کرده است.
جدول مقدارهای شاخصهای متغیرهای کیفی
درست به مانند متغیرهای کمی، متغیرهای کیفی (متغیرهای طبقهای- Categorical Variable) نیز در شناسایی ردههای همسان، نقش دارند. جدول «مقدارهای شاخصهای متغیرها کیفی» (Categorical variable norms) به بررسی خصوصیاتی مانند معیار مرکزی «نما» (Most Popular Category)، «میزان فراوانی» (Frequency) و «درصد فراوانی» (Percent) برای ۱۰ متغیر اول میپردازد.

در ستون آخر نیز نما و جمع و درصد مشاهدات مربوط به رده نما، مشخص شده است.
همانطور که در این جدول دیده میشود، به نظر میرسد که بیشترین تاثیر برای تفکیک یا تشخیص گروههای همسان به متغیر «جنسیت» (Gender) و «فعالیت فیزیکی« (Physical active) اختصاص دارد زیرا حداقل دو گروه از مشاهدات دارای مقداری متفاوت برای این دو متغیر هستند.
ادامه این جدول در تصویر زیر دیده میشود. به توجه به مقادیر گمشده (Missing Value) در گروه همسان ۲، فرضیههایی که در مورد بیماران (فوت شده قبل از بیمارستان، فوت شده در بیمارستان و درمان شده) قوت میگیرد.

جدول توصیفی شاخص ناهنجاری
همانطور که در جدول «توصیفی شاخص ناهنجاری» (Anomaly index summary) مشاهده میکنید، شاخصهای توصیفی مانند مقدار کمینه (Minimum)، بیشینه (Maximum)، میانگین (Mean) و انحراف استاندارد (Std Deviation) برای شاخص ناهنجاری محاسبه شده است. تعداد مشاهدات ناهنجار نیز در ستون اول جدول (N in the Anomaly List) مشخص شده است.

نکته: به یاد دارید که شناسایی مشاهدات ناهنجار براساس ۲ درصد بالایی مشاهدات با بزرگترین شاخص ناهنجاری، مشخص شده است. این امر به صورت زیرنویس در پایین این جدول توسط SPSS تذکر داده شده است.
جدول خلاصه علل ناهنجارها
برای هر یک از متغیرهایی که در تحلیل مورد استفاده قرار گرفتهاند، شاخصهای آمار توصیفی در جدول «خلاصه علل ناهنجاری» (Anomaly index summary) لحاظ شده است. البته اگر این متغیرها علت شناسایی مشاهده ناهنجار باشند، فراوانی چنین مشاهداتی نیز در ستون دوم و سوم مشخص شده است.

برای مثال مشخص است که در علت اول (Reason 1) مقدار 61٫9 درصد از مشاهدات ناهنجار به واسطه متغیر Barthel index at 1 month، مشخص شدهاند. در رتبه بعدی متغیر Total treatment and rehabilitation costs in thousands بیشترین نقش را در شناسایی چنین مشاهداتی داشته است. البته مشخص است که تعداد کل مشاهدات ناهنجار نیز ۲۱ عدد است.
نکته: باید توجه داشته باشید که این جدول برای دلایل دوم (Reason 2) و سوم (Reason 3) نیز محاسبه شده که در اینجا به خاطر صرفهجویی در فضای مطالعاتی، از نمایش آنها صرفه نظر کردهایم.
نمودار تفکیکی گروههای همسان
به واسطه جدولهایی که در قسمت قبل معرفی شد، شناسایی مشاهدات ناهنجار میسر میشود ولی هیچ چیز روشنتر و واضحتر از یک نمودار نمیتواند آنها را مشخص کند. در ادامه به کمک ترسیم یک نمودار پراکندگی (Scatter Plot) بحث مشاهده ناهنجار در SPSS را کامل میکنیم.
برای انجام این امر مراحل زیر را طی کنید.
- از فهرست Graphs دستور Chart Builder را انتخاب کنید.
- در پنجره ظاهر شده، از قسمت Choose from، گزینه Scatter/Dot را انتخاب کرده و از کادر سمت راست تصویر دوم را به درون کادر Chart preview بکشید.
- متغیرهای Reason Variable impact Measure 1 و Anomaly Index را به ترتیب روی محور افقی و عمودی قرار دهید.
- متغیر Peer Group ID را هم در کادر Set Color قرار دهید.
- دکمه OK را فشار دهید.

با اجرای این دستور، خروجی به صورتی که در تصویر زیر خواهید دید، ایجاد میشود. همانطور که مشخص است، گروههای به خوبی براساس رنگهای سرمهای، سبز و زرد، قابل تشخیص هستند.

دایرههای درون نمودار نیز نشانگر مقدار شاخص ناهنجاری برحسب متغیری است که به عنوان علت ناهنجاری شناخته شده. البته توجه داشته باشید که همه 1048 مشاهده این مجموعه داده در این نمودار ترسیم شدهاند. ولی آن مشاهداتی که نسبت به بقیه دورتر هستند باید به عنوان مشاهده ناهنجار، مورد بررسی مجدد قرار گرفته یا از تجزیه و تحلیل یا مدلسازی آماری، حذف شوند.
اطلاعات زیر توسط این نمودار، استخراج شده که البته شایان توجه است.
- مشاهداتی که در قسمت بالا و راست این نمودار قرار گرفتهاند، متعلق به گروه همسان ۳ بوده که براساس یک متغیر، ناهنجار شناسایی شدهاند.
- با حرکت به سمت پایین روی محور عمودی، به سه مشاهده از گروه همسان ۳ برخورد میکنیم که شاخص ناهنجاری آنها بزرگتر از ۲٫۰۰ است. در نتیجه با احتمال زیاد باید آنها را ناهنجار بنامیم.
- با حرکت روی محور افقی هم با چهار مشاهده مواجه میشویم که متعلق به گروه همسان ۱ بوده و میزان اثر متغیر برایشان بین ۰٫۲۳ تا ۰٫۳۳ است. این مشاهدات نیز باید به طور خاص، مورد توجه قرار گرفته و وضعیتشان روشن شود، زیرا به نظر میرسد که با بقیه مشاهدات در این گروه، تفاوت زیادی دارند.
- گروه همسان ۲ که با دایره سبزرنگ مشخص شدهاند، به نظر «همگن» (Homogenous) میرسند، زیرا «شاخص اثر» (Impact Factor) و «شاخص ناهنجاری» (Anomaly Index) برای مشاهدات آن تغییرات زیادی ندارد.
شایان ذکر است که چنین نموداری را برای متغیرهای دیگر مانند Reason Variable Impact Measure 2 و Reason Variable Impact Measure 3 نیز میتوانید ترسیم کنید.
برای کسب اطلاعات بیشتر در مورد نحوه ترسیم انواع نمودارها در SPSS میتوانید نوشتار دیگری از مجله فرادرس با عنوان رسم نمودار در SPSS — راهنمای کاربردی را مطالعه کنید.
نتیجهگیری نهایی
همانطور که دیدید، برای تشخیص گروههای همسان، دو یا سه متغیر از بین همه متغیرها مورد استفاده قرار گرفت و این امر باعث شد که سه گروه همسان ایجاد شود. گروههای همسان به نظر سه دسته هستند:
- بیمارانی که قبل از ورود به بیمارستان فوت شده بودند.
- بیمارانی که به محض ورود به بیمارستان فوت شدهاند و فقط عملیات احیا رویشان صورت گرفته و اثر بخش نبوده.
- بیمارانی که بعد از ورود به بیمارستان، تحت درمان قرار گرفته و مداوا به طور کامل انجام شده و از بیمارستان ترخیص شدهاند.
بنابراین اگر به دنبال تحلیل عملیات و هزینههای شیوه درمانی در این بیمارستان هستیم، شاید بهتر باشد که به گروه آخر توجه و از بقیه گروهها چشمپوشی کنیم.
در این نوشتار به کمک روندی که برای شناسایی مشاهده ناهنجار انجام دادیم، به مشاهداتی برخوردیم که باید بیشتر مورد توجه قرار گرفته و اندازهها و مقادیر آنها مجدد مورد بررسی قرار گیرد.
این گامها در روند شناسایی، معمولا به دو دلیل یا هدف انجام میشود:
- شناسایی مشاهده ناهنجار در SPSS به منظور حذف اثر آنها در تحلیلهای آماری یا مدلهایی که در آینده قرار است ایجاد شوند.
- شناسایی مشاهده ناهنجار در SPSS به منظور کشف چنین مشاهداتی برای تجزیه و تحلیل آنها به عنوان مشاهدات استثنایی و موارد خاص که باید طبق یک گزارش جدا از تحلیل موضوع تحقیق، ارائه شوند.
باید توجه داشت که روشهای دیگری نیز برای بررسی مشاهدات و دادهها قبل از اجرای تجزیه و تحلیل آماری در SPSS وجود دارد. برای مثال میتوان از دستور Validate Data، اعتبار دهی مقادیر را صورت داد تا مقادیر نامعقول برای هر مشاهده مشخص و کنار گذاشته شود زیرا ممکن است وجود چنین مقادیری، باعث ناهنجار شدن یک مشاهده شده باشد. همچنین اعتبار دهی متقاطع (Cross Validate Data) که با توجه به رابطه بین متغیرها اعتبار مقادیر و دادهها را مشخص میکند در این بین میتواند کارساز بوده و کمک شایانی به خلوص دادهها بکند.
شایان ذکر است که هر دو این عملیات در SPSS امکانپذیر بوده و توسط دستور Validation از فهرست Data قابل دسترس خواهد بود.
خلاصه و جمعبندی
در این نوشتار با دستوراتی که عمل شناسایی مشاهده ناهنجار در SPSS را انجام میدهد آشنا شدیم. همانطور که دیدید، مبنای کار در این روش، تفکیک مشاهدات به دستههای همسان است بطوری که هر دسته با دسته دیگر بیشتر تفاوت را داشته باشد. سپس میزان تعلق هر مشاهده به دسته یا خوشه (Cluster) خودش توسط «شاخص ناهنجاری» (Anomaly Index) اندازهگیری شده و مشاهد ناهنجار در SPSS شناسایی میشود.
این امر به کمک تکنیکهای خوشهبندی و ترکیبی از شاخصهای ارزیابی خوشهها صورت میگیرد. برای اینکه توضیحات مربوطه، شفاف و قابل درک باشد در این بین از یک فایل نمونه آموزشی استفاده کردیم تا کاربران مجبور به ورود دادهها نباشند، سپس به تحلیل مشاهده ناهنجار در SPSS پرداختیم.
اگر علاقهمند به یادگیری مباحث مشابه مطلب بالا هستید، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای SPSS
- آموزش آماده سازی داده ها برای تحلیل آماری در SPSS
- مجموعه آموزشهای آمار و احتمال
- نمایش و رسم نمودار برای دادهها — معرفی و کاربردها
- تشخیص داده پرت با فاصله ماهالانوبیس — پیاده سازی در پایتون
- داده های گمشده در SPSS — راهنمای کاربردی
- داده های سانسور شده (Censored Data) در آمار — به زبان ساده
^^