محاسبه شاخص‌های آماری به منظور توصیف خصوصیات داده‌ها از اهمیت زیادی برخوردار است. شاخص‌های مرکزی و پراکندگی به همراه شاخص‌های تقارن و همبستگی از گونه مقادیر و شاخص‌هایی هستند که می‌توانند ویژگی‌های یک مجموعه داده برگرفته از جامعه آماری را بیان کنند. این بخش از محاسبات آماری را شاخص‌های توصیفی می‌نامند. در این نوشتار نحوه محاسبه آمار توصیفی در  SPSS را به منظور بدست آوردن این گونه شاخص‌ها مورد بررسی قرار دهیم.

میانگین(Mean)، میانه (Median) و نما (Mode) در گروه شاخص‌های مرکزی (Central Tendency) یا تمایل به مرکز قرار می‌گیرند. از طرفی واریانس (Variance)، انحراف معیار (Standard Deviation) و دامنه تغییرات (Range) شاخص‌های پراکندگی (Dispersion) در آمار توصیفی نامیده می‌شوند. همچنین چولگی (Skewness) و کشیدگی (kurtosis) نیز شاخص‌های تقارن عمودی و افقی توزیع فراوانی داده‌ها را تعیین می‌کند. از طرفی، ضریب‌های همبستگی، شاخص‌هایی برای نشان داده میزان ارتباط بین دو متغیر بوده و می‌توانند وضعیت دو متغیر را نسبت به یکدیگر، نشان دهند. در این نوشتار به فرمول‌های محاسباتی برای بدست آوردن این شاخص‌ها اشاره نخواهیم کرد زیرا هر کجا از شاخص آمار توصیفی در SPSS اشاره کرده‌ایم، لینکی هم برای آشنایی بیشتر قرار داده‌ایم که در آن، نحوه بدست آوردن شاخص نیز قابل مطالعه است.

اگر می‌خواهید با محیط SPSS و نحوه به کارگیری پنجره‌های آن بیشتر آشنا شوید خواندن نوشتار پنجره ویرایشگر داده (Data Editor) در SPSS — راهنمای کاربردی ضروری است. همچنین به منظور آگاهی از خصوصیات نسخه جدید SPSS بهتر است، نوشتار امکانات جدید SPSS نسخه ۲۵ که باید آن‌ها را بدانید را نیز بخوانید. همچنین مطالعه مطالب آشنایی با مقدمات آمار و کاربردهای آن — از صفر تا صد و شاخص های آمار توصیفی در علم داده — راهنمای کاربردی نیز خالی از لطف نیست.

آمار توصیفی در SPSS

شناخت جامعه آماری (Population) اصلی‌ترین بخش در تحلیل داده‌های آماری است. همه تلاش دانشمندان داده (Data Scientists) آن است که خصوصیات و ویژگی‌های جامعه آماری را بشناسند و روابط بین متغیرها را تشخیص دهند. یکی از روش‌های ساده ولی موثر در این مهم، محاسبه و به کارگیری شاخص‌های آمار توصیفی است. شاخص‌های توصیفی معمولا به پنج گروه تقسیم می‌شوند.

  • شاخص‌های تمایل به مرکز: این گروه از شاخص‌های آماری، امکان خلاصه‌سازی و یا جمع‌بندی مقادیر را در یک عدد یا نقطه فراهم می‌آورند. برای مثال میانگین (Mean) و میانه (Median) و همینطور نما (Mode) در این گروه از شاخص‌ها قرار دارند.
  • شاخص‌های چندکی: چندک‌ها (Quantile)، نقاطی را مشخص می‌کنند که درصد خاصی از مشاهدات از آن‌ها کمتر هستند. برای مثال اگر بگوییم که مقدار ۴۰، صدک دهم داده‌ها است به این معنی است که ۱۰ درصد داده‌ها مقداری کوچکتر یا مساوی با ۴۰ دارند. معمولا چندک‌ها مرتبط با توزیع یا فراوانی داده‌ها هستند. ممکن است چندک‌ها را به صورت صدک (Percentile)، دهک (decile)، یا چارک (Quartile) نشان دهند. صدک‌ها، مجموعه داده‌ها را به صد قسمت مساوی تقسیم می‌کنند. مشخص است که به این ترتیب نود و نه صدک‌ وجود خواهد داشت. همچنین تعداد دهک‌ها نیز ۹ تا است که جامعه را به ۱۰ قسمت مساوی تقسیم می‌کنند. چارک‌ها نیز که داده‌ها را به چهار بخش مساوی تقسیم می‌کنند، چارک اول، دوم و سوم نامیده می‌شوند.
  • شاخص‌های پراکندگی: در گروه شاخص‌های پراکندگی، میزان دوری داده‌های از یکدیگر سنجیده می‌شود. برای مثال مجموع فاصله همه داده‌ها از یکدیگر را می‌توان مبنایی برای مفهوم پراکندگی در نظر گرفت. البته تعداد محاسبات با افزایش تعداد نقاط بسیار زیاد خواهد شد. اغلب برای محاسبه پراکندگی از محاسبات ساده‌تری مانند دامنه تغییرات (Range) که میزان حداکثر پراکندگی را محاسبه می‌کند، استفاده می‌شود. همچنین شاخص‌های انحراف معیار (Standard Deviation) و واریانس (Variance) که متوسط فاصله نقاط از یک نقطه مرکزی را ملاک پراکندگی قرار می‌دهد، از شاخص‌های محبوب برای تعیین پراکندگی محسوب می‌شوند.
  • شاخص‌های تقارن: از آنجایی که منحنی توزیع و نرمال به عنوان یک حالت ایده‌آل برای پدیده‌های تصادفی در نظر گرفته شده است، اغلب دوست داریم، داده‌هایی که با آن سروکار داریم نیز دارای توزیع نرمال بوده و منحنی فراوانی (هیستوگرام) آن شبیه نمودار توزیع نرمال باشد. این منحنی متقارن بوده و زنگی شکل است. هر گونه عدم تقارن در داده‌ها نسبت به توزیع و منحنی نرمال بوسیله شاخص‌های تقارن،‌ سنجیده می‌شوند. چولگی (Skewness) و کشیدگی (Kurtosis) از این گونه شاخص‌ها هستند که اولی تقارن افقی و دوم تقارن عمودی را نسبت به توزیع نرمال می‌سنجد. در صورتی که توزیع و منحنی فراوانی داده‌ها، شبیه توزیع نرمال باشد، مقادیر این شاخص‌های به صفر نزدیک خواهد بود.
  • شاخص‌های ارتباط بین دو یا چند متغیر: اگر جامعه آماری مورد بررسی دارای دو یا چند ویژگی باشد، لازم است که ارتباط بین این متغیرها یا ویژگی‌ها نیز به عنوان شاخصی برای توصیف ارتباط بین متغیرها محاسبه شود. ضریب همبستگی و شیوه‌های مختلف محاسبه آن، شاخص‌هایی در این زمینه ارائه می‌دهند. برای مثال می‌توان به ضریب همبستگی پیرسون و ضریب همبستگی اسپیرمن اشاره کرد. البته ضریب همبستگی جزئی نیز نحوه محاسبه ارتباط بین دو متغیر با حذف اثر متغیر مداخله‌گر را تعیین می‌کند که در این متن به آن نمی‌پردازیم. در نوشتار دیگری با عنوان ضریب همبستگی جزئی (Partial Correlation) — به زبان ساده به این موضوع پرداخته‌ایم.

در ادامه سعی می‌کنیم این شاخص‌ها را به کمک نرم‌افزار SPSS‌ و دستورات ساده‌ای که فرا خواهیم گرفت، محاسبه کنیم. برای نمایش نحوه محاسبات و خروجی‌ها، از یک فایل داده SPSS استفاده کرده‌ایم که می‌توانید آن را از اینجا با قالب فشرده (ZIP)، دریافت کنید. این فایل شامل چهار متغیر و ۱۲ مشاهده است که در آن میزان فروش و تعداد سفارش دو نوع کالا را برحسب سه شیفت‌ کاری مختلف، ثبت شده.

آمار توصیفی در SPSS با دستور Frequency

یکی از شیوه‌های ساده برای محاسبه شاخص‌های مرکزی و پراکندگی و همچنین تقارن، استفاده از دستور Frequency است. مسیر دسترسی به آن به شکل زیر است:

Analysis —> Descriptive Statistics —> Frequency

در تصویر زیر پنجره پارامترهای این دستور را مشاهده می‌کنید. به منظور محاسبه شاخص‌های آمار توصیفی برای هر یک از متغیرها، کافی است که نام متغیر را در کادر Variable قرار دهیم.

 Frequencies Dialog

نکته: از آنجایی که فقط به شاخص‌های آمار توصیفی علاقمندیم و نمی‌خواهیم جدول فراوانی را در خروجی ظاهر کنیم، گزینه Display frequency tables را غیرفعال کرده‌ایم.

برای تعیین شاخص مورد نظر هنگام اجرای دستور Frequency، از دکمه Statistics استفاده کرده و از داخل پنجره آن، شاخص‌های آمار توصیفی را انتخاب می‌کنیم.

Frequencies statistics

همانطور که در تصویر بالا دیده می‌شود، شاخص‌های تمرکز، چندک‌ها، شاخص‌های پراکندگی و تقارن علامت خورده‌اند. با کلیک بر روی دکمه Continue به پنجره اصلی بازگشته و با فشردن دکمه OK، محاسبات صورت گرفته و خروجی به صورت زیر ظاهر خواهد شد.

Frequencies results

از آنجایی که دو متغیر را انتخاب کرده‌ایم، شاخص‌های آمار توصیفی این دو متغیر در کنار هم ظاهر شده و امکان مقایسه را فراهم می‌آورد. برای مثال تعداد سفارشات دارای میانگینی برابر با حدود 21٫75 واحد است در حالیکه متوسط فروش 146٫66 محاسبه شده است.

آمار توصیفی در SPSS با دستور Descriptive

در این قسمت محاسباتی که در بالا به آن اشاره کردیم، توسط دستور Descriptive در SPSS انجام می‌دهیم. البته مشخص است که نتایج بدست آمده با قسمت قبل یکسان خواهد بود و فقط در شکل و شیوه نمایش خروجی تفاوت وجود خواهد داشت. مسیر دسترسی به این دستور به صورت زیر است:

Analysis —> Descriptive Statistics —> Descriptive

پارامترهای این دستور در تصویر زیر قابل مشاهده است. شاخص‌هایی که به طور پیش‌فرض در این دستور محاسبه می‌شوند شامل میانگین (Mean)، انحراف استاندارد (Standard Deviation)، حداقل (Minimum) و حداکثر (Maximum) و البته تعداد مشاهدات (N)، است.

Descriptive dialog

اگر به شاخص‌های دیگری احتیاج دارید با انتخاب دکمه Options، امکان انتخاب آن‌ها را خواهید داشت. با این کار پنجره‌ای مطابق با تصویر زیر ظاهر خواهد شد.

Descriptive options

همانطور که مشاهده می‌کنید، در اینجا امکان محاسبه چندک‌ها وجود ندارد. با کلیک روی دکمه Continue و بازگشت به پنجره اصلی، دکمه OK‌ را فشار دهید تا خروجی به صورت زیر ظاهر شود.

Descriptive results

آمار توصیفی در SPSS با دستور Explore

یکی از دستورات بسیار موثر و کامل در محاسبات آمار توصیفی، دستور Explore است که مجموعه‌ای از نمودارها و جدول‌ها را به عنوان خروجی ظاهر می‌کند. البته از آنجایی که در این نوشتار فقط به بحث آمار توصیفی توجه داریم، گزینه‌های مرتبط با این موضوع را مورد اشاره قرار خواهیم داد. نحوه دسترسی به این دستور به صورت زیر است.

Analysis —> Descriptive Statistics —> Explore

پارامترهای این دستور در تصویر زیر قابل مشاهده است. متغیرهایی که قرار است شاخص‌های آمار توصیفی برایشان محاسبه شود باید در کادر Dependent List قرار گیرند. البته این امکان نیز در این دستور وجود دارد که شاخص‌های آمار توصیفی را برای دسته‌هایی از مشاهدات که توسط یک یا چند متغیر طبقه‌ای تعیین می‌شوند به طور جداگانه محاسبه و نمایش داد. در اینجا به طور مثال از متغیرهای type و group‌ به این منظور استفاده کرده‌ایم.

Explore dialog

همچنین از آنجایی که در خروجی فقط به آمار توصیفی احتیاج داریم، گزینه Statistics را در قسمت Display‌ انتخاب کرده‌ایم. خروجی به صورت زیر خواهد بود. مشخص است که برای هر سطوح از متغیر طبقه‌ای شاخص‌های آمار توصیفی بدست آمده است. از آنجایی که دو متغیر طبقه‌ای معرفی شده، چند جدول به عنوان خروجی اصلی ظاهر شده است. ابتدا جدول مربوط به میزان سفارش ظاهر شده که در آن نتایج مربوطه، براساس نوع کالا (تولید کننده) طبقه‌بندی شده است.

Explore result 1

سپس محاسبات برمبنای میزان فروش صورت گرفته است. از آنجایی که تعداد سطرهای این جدول زیاد است، از نمایش بقیه سطرها، صرف نظر کرده‌ایم. همانطور که گفته شد، ارتفاع این جدول زیاد بوده و امکان نمایش اطلاعات در یک مکان و مقایسه را سخت می‌کند. بهتر است آن را ویرایش کرده و نحوه نمایش اطلاعات را تغییر دهیم. برای این کار روی جدول خروجی Descriptive‌، دوبار کلیک می‌کنیم و جای شیفت‌کاری (group) را در جدول محوری (Pivot Table) تغییر می‌دهیم.

pivot tray

به این ترتیب جدول‌های مربوط شاخص‌های آمار توصیفی مقدار سفارش و میزان فروش به تفکیک سطوح متغیر طبقه‌ای شیفت‌کاری به شکل منظم‌تری مشخص خواهد شد.

Explore result 3

همانطور که مشاهده می‌کنید، زمانی که سطوح یک متغیر طبقه‌ای زیاد باشد، نمایش اطلاعات به این فرم مناسب‌تر خواهد بود و امکان مقایسه بین شاخص‌ها در گروه یا دسته‌ها مختلف به راحتی میسر می‌شود.

آمار توصیفی دو متغیره در SPSS

گاهی لازم است که ارتباط بین دو متغیر سنجیده شود. به این ترتیب می‌توانیم میزان وابستگی بین آن دو را اندازه‌گیری کنیم. با این کار قدرت پیش‌گویی یکی برحسب دیگری بوجود می‌آید. برای مثال اگر بتوانیم تشخیص دهیم که چه ارتباطی بین میزان فروش و مقدار سفارش وجود دارد، برنامه‌ریزی خرید بهتری خواهیم داشت و از طرفی مقدار سفارش را برحسب میزان فروش تعیین می‌کنیم.

برای محاسبه میزان وابستگی بین دو متغیر از نوع کمی (Scale) از شاخص‌های توصیفی به نام «ضریب همبستگی پیرسون» (Pearson Correlation Coefficient) و «ضریب همبستگی رتبه‌ای اسپیرمن» (Spearman’s Rank Correlation Coefficient) استفاده خواهیم کرد که خوشبختانه هر دو در نرم‌افزار SPSS قابل محاسبه هستند.

برای دسترسی به پنجره و تنظیم پارامترهای لازم برای این گونه محاسبات، مسیر زیر را طی کنید.

Analysis —> Correlation —> Bivariate

پارامترهای این دستور در تصویر زیر قابل مشاهده است. ابتدا باید دو متغیری که قرار است ضریب همبستگی برایشان محاسبه شود را در کادر Variables قرار دهید. البته ممکن است بیش از دو متغیر نیز در این قسمت ظاهر شوند، با این کار ضریب همبستگی برای ترکیب‌های دو تایی از آن‌ها محاسبه و نمایش داده می‌شود. در اینجا از متغیرهای Sale و Purchase استفاده کرده‌ایم.

bivariate correlation dialog

با فشردن دکمه OK، محاسبات صورت گرفته و خروجی ظاهر خواهد شد.

bivariate correlation results

همانطور که دیده می‌شود، مقدار ضریب همبستگی پیرسون بین میزان فروش و مقدار سفارش منفی است که نشانگر ارتباط معکوس بین این دو متغیر است. مقدار این شاخص برابر با $$-0.131$$ است که همبستگی ضعیف بین این دو متغیر را نشان می‌دهد. از طرفی ضریب همبستگی رتبه‌ای اسپیرمن نیز با مقدار $$-0.088$$ بیانگر ارتباط بسیار کم بین این دو متغیر است. در هر دو جدول آزمون مربوط به معنی‌داری ضریب همبستگی نیز صورت گرفته که با توجه به بزرگ بودن Sig در هر کدام از آن‌ها، فرض صفر که مرتبط با بی‌معنی بودن همبستگی دو متغیر است، تایید می‌شود. در نتیجه می‌توان گفت که این نمونه دلیلی مبنی بر ارتباط بین میزان فروش و مقدار سفارش ارائه نکرده است.

خلاصه و جمع‌بندی

در این نوشتار با شاخص‌های آمار توصیفی در SPSS و نحوه محاسبه آن‌ها با شیوه‌ و دستورات مختلف آشنا شدیم. هر چند نتایج شاخص‌های آماری با روش‌های مختلف یکسان است ولی معمولا نوع خروجی و نحوه بهره‌برداری از آن‌ها متفاوت است. به همین دلیل فراگیری شیوه‌های مختلف انجام این گونه محاسبات در این نرم‌افزار می‌تواند گزارش‌های متنوع و مناسبی برایتان تولید کند. البته برای تهیه گزارش نهایی می‌توانید خروجی‌های SPSS را به دیگر برنامه‌ها مانند نرم‌افزار MS-Word وارد کنید تا با گزارش مکتوبی که تهیه کرده‌اید، صفحه‌بندی شده و هماهنگ باشد.

اگر علاقه‌مند به یادگیری مباحث مشابه مطلب بالا هستید، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 17 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *