انجام تحلیل آماری با SPSS — گام به گام به همراه مثال عملی
یک تحلیل آماری باید توسط یک محقق آمار اجرا شود، از طرفی محاسبات زیادی که برای این کار لازم است، به کارگیری نرمافزارهای محاسبات رایانهای مانند SPSS را ناگزیر میکند. در هر طرح تحقیق آماری، گامها و مراحلی باید طی شود که آنها را در این متن به همراه دستورات مورد نیاز برای انجام تحلیل آماری با SPSS بازگو خواهیم کرد. با رعایت گامهای گفته شده، روال استانداردی را طی کرد که ما را به هدف که همان اجرای یک پروژه آماری و تحقیقاتی است، هدایت میکند. این گامها از تعیین هدف، جمعآوری دادهها آغاز شده و تا آزمون فرض و تفسیر و ارائه گزارشات ادامه دارد. البته شاید بتوان چنین روالی را در فراتحلیل نیز به کار برد. ولی به هر حال یک پروژه تحقیقاتی که با دادهها و روشهای آماری سر و کار دارد، احتیاج به مشاوره یا تائید یک آمارشناس خواهد داشت.
به عنوان پیشنیاز مطالب دیگر مجله فرادرس مانند روش تحقیق علمی — راهنمای کاربردی و سنجش پایایی پرسشنامه با آلفای کرونباخ — شیوه محاسبه را مطالعه کنید. همچنین خواندن نوشتارهای روش تحقیق و اصول آماری — به زبان ساده و مقیاس یا طیف لیکرت و پیاده سازی در پایتون — راهنمای کاربردی نیز خالی از لطف نیست.
انجام تحلیل آماری با SPSS
اگر به منظور انجام تحقیق علمی با دادهها روبرو هستید، باید روشهای آماری مناسب را به کار ببرید. نوع دادهها، هدف تحقیق، محدودیتها و امکانات سختافزاری و نرمافزاری و حتی نحوه نمونهبرداری و اندازه یا حجم نمونهگیری همگی در تشخیص و به کارگیری آنالیزهای آماری دخیل بوده و در انتخاب نوع تحلیل آماری تعیین کننده هستند.
انجام تحلیل آماری با SPSS به علت سادگی این نرمافزار طرفداران زیادی دارد. این امر باعث شده که اغلب برای محاسبات آماری، بدون مشاوره با یک کارشناس آمار، مطالعات آماری در رشتههای علوم انسانی و مهندسی، صورت گیرد. به همین جهت این راهنما را برای چنین افرادی تهیه کردهایم که نتایج بدست آمده از چنین طرحهایی، حداقل به اشتباه برداشت نشود.
گام اول: تعیین هدف و انتخاب نوع تحلیل آماری
قبل از هر کاری، باید هدف از یک طرح تحقیق علمی را مشخص کرده باشید. نوع مقادیر متغیرها آماری باید در یک تحلیل آماری، مشخص باشد. همچنین هدف از اجرای یک تحقیق آماری باید تعیین شود. ممکن است هدفهای زیر را برای تحقیقات آماری تصور کرد.
- توصیف خصوصیات یک جامعه آماری
- برآورد بهترین آماره برای پارامتر جامعه
- انتخاب و اجرای آزمون آماری برای پارامتر یا توزیع جامعه آماری
- مقایسه بین دو جامعه آماری
- شناسایی و تعیین رابطه بین جوامع آماری
- مدلسازی بین متغیرهای مستقل و و ابسته یا کشف رابطه علت و معلولی
به یاد داشته باشید که نوع داده و مقیاس اندازهگیری آنها در انتخاب روش تحلیل داده بسیار موثر است. بنابراین شناخت جامعه آماری و ویژگیها و همچنین ابعاد آن، باید در ابتدا اجرای طرح تحقیق، انجام شده باشد. همچنین با توجه به نوع متغیرها و هدف، میتوانیم نوع روش تحقیق را یکی از گونههای کمی، کیفی یا ترکیبی انتخاب کنیم.
توجه داشته باشید که در این گام، معمولا از نرمافزارهای محاسباتی استفاده نمیشود و بیشتر محقق باید به بررسی ادبیات موضوع و همینطور مطالعه مقالههای مرتبط بپردازد. این کار دید بهتری به مراحل طرح تحقیقی ایجاد کرده و از دوباره کاری و اتلاف وقت و هزینه جلوگیری میکند. هر چه مقاله و کتابهای بیشتری در این گام خوانده شود، سودآوری را چه از لحاظ هزینه و چه از لحاظ زمانی، در بر خواهد داشت.
روش شناسی و آشنایی با تکنیکهای آماری در مقالههای مشابه آنچه شما میخواهید انجام دهید، راهنمای خوبی برای پیشبرد مقاله و تحقیق شما خواهد بود. بنابراین جستجو در منابع اطلاعاتی (اینترنت و کتابخانهها) مسیر مناسب را به شما نشان خواهند داد.
گام دوم: جمعآوری دادهها
بخش طولانی و البته هزینهبر در تحقیقات آماری، مربوط به جمعآوری دادهها است. تکنیکهای نمونهگیری وابستگی زیادی به حجم جامعه و همینطور محدودیتهای جمعآوری دادهها دارد. البته روشهای زیادی برای جمعآوری دادهها بخصوص در حوزههای علوم انسانی وجود دارد که پرسشنامه یکی از مهمترین آنها است.
پس از اینکه پرسشنامه را طراحی و به جامعه مقصد ارسال کردید، باید پاسخها را دریافت کنید. معمولا برای پرسشنامهها یک شماره سریال انتخاب میکنند که برای مراجعه بعدی به پاسخها، از آن استفاده میشود. توجه داشته باشید که نواحی جغرافیایی و زمانی برای ارسال و دریافت پرسشنامهها با توجه به الگوی نمونهگیری صورت گرفته باشد.
در این مرحله باید اطلاعات مربوط به هر پرسشنامه را به نرمافزار SPSS وارد کنید. هر پرسشنامه یک سطر از کاربرگ اطلاعاتی را تشکیل میدهد. البته باید قبل از ورود دادهها، متغیرها را در پنجره ویرایشگر داده (Data Editor) تعریف کرده، سپس مقادیر را ثبت کنید.
عمل تعریف متغیرها در این پنجره، توسط برگه Variable View صورت میگیرد ولی برای ورود اطلاعات و دادههای مرتبط با این متغیرها، از برگه Data View استفاده میشود. در تصویر زیر پنجره Variable View را مشاهده میکنید که در آن دو متغیر income و group معرفی شدهاند.
همچنین تصویر زیر متغیرهای تعریف شده V1 تا V5 را برای ورود اطلاعات و دادهها نمایش میدهد. کافی است مثلا در سطر اول، مقدار این متغیرها را برای مشاهده اول وارد کنید. سطر دوم نیز به اطلاعات دومین پرسشنامه اختصاص دارد.
نکته: اگر اطلاعات آماری شما توسط نرم افزارهای دیگری ثبت و ذخیره شده، نرمافزار SPSS این امکان را دارد که از چنین برنامههایی، دادهها را دریافت (Import) کند. کافی است از فهرست File و گزینه Import Data، نام پایگاه داده یا نرمافزار ذخیرهسازی را مشخص کرده و فایل مورد نظرتان را در SPSS، بارگذاری نمایید.
گام سوم: آماده سازی دادهها برای تحلیل آماری با SPSS
پاسخهای مخدوش و پرسشنامههای نامعتبر را باید برای این گام جدا کرده و به صورت جداگانه و موردی، بررسی و آنالیز کنید. زیرا حضور آنها ممکن است نتایج حاصل از طرح آماری را مخدوش کند. روشهای مختلفی برای اعتبارسنجی پرسشنامهها وجود دارد که با توجه به حوزه مورد مطالعه، قابل تعیین است و باید توسط یک متخصص به کار گرفته شود.
مشاهدات «دورافتاده» (Outlier) یا مواردی که فراوانی «مقدار گمشده» (Missing) در پرسشنامه آنها زیاد است، باید شناسایی شده و از طرح تحقیق کنار گذاشته شوند. البته برای دستهبندی و جداسازی مواردی که به عنوان مقدار گمشده در نظر میگیرید، در SPSS، راهکارهایی وجود دارد. تصویر زیر، این گزینهها را در پنجره ویرایشگر داده و هنگام تعریف متغیرها در برگه Variable View نشان میدهد. کافی است روی دکمه ... در ستون Missing کلیک کنید تا به این پنجره دسترسی پیدا کنید. در تصویر زیر مشخص شده است، مقادیری که بین ۰ تا ۱۲۸۰ وارد شوند، مقدار گمشده یا نامعتبر خواهند بود.
همچنین تعیین و جستجوی مشاهدات دورافتاده نیز یک کار تخصصی است که روشهای مختلفی دارد. برای مثال استفاده از الگوریتم جنگل ایزوله یک راهکار محسوب میشود که البته در SPSS پیادهسازی نشده ولی در عوض ابزارهای مختلفی برای انجام این کار در این نرمافزار وجود دارد که آنها را در ادامه فهرست کردهایم.
- روشهای تصویری و رسم نمودار جعبهای
- روشهای عددی و تعیین نقاط خارج از محدوده شش سیگما
- مقایسه و بررسی دادهها با توزیع نرمال یا برازش توزیع
- خوشهبندی و استفاده از الگوریتم DBSCAN
- ...
البته توضیحات بیشتر در این زمینه را در متن شناسایی داده پرت در SPSS — راهنمای کاربردی پیدا میکنید. بنابراین خواندن این نوشتار، بسیاری از مشکلات مربوط به اجرای طرح تحقیق آماری در این گام را برطرف میکند.
گام چهارم: مرتبسازی و تبدیل دادهها در SPSS
بخش مهم دیگری که باید قبل از اجرای تحلیلهای آماری به کار برد، مرتبسازی و تبدیل دادهها است. در این مرحله، باید عملیات زیر را به درستی انجام داد. بدون اجرای این گام، دادهها و اطلاعات یک دست نبوده و مشاهدات در کاربرگ SPSS به درستی شکل نمیگیرند.
بعضی از کارهای مهم در این گام را در ادامه مشاهده میکنید.
- همگامسازی دادههایی که از منابع مختلف جمعآوری شدهاند؛ چه به لحاظ زمانی و چه از لحاظ ترتیب مورد نیاز.
- در نظر گرفتن اولویت زمانی برای مشاهدات بخصوص در تحلیلهای سری زمانی.
- تجمیع و گردآوری دادهها از منابع مختلف در یک مجموعه داده (Data Set).
- جداسازی اطلاعات کاربرگ، با توجه به هدف و نیاز تحقیق با دستور Split File در SPSS.
- وزندهی و تفکیک اطلاعات برحسب یک یا چند متغیر کیفی.
- تغییر مقادیر متغیرها و ایجاد متغیرهای جدید به منظور اجرای تحلیلهای خاص. برای مثال تبدیل متغیر کمی به متغیر طبقهای یا دو وضعیتی.
- جمعبندی (Aggregate) و محاسبه جدولهایی از تعداد یا درصد مشاهدات در گروههای مختلف.
- تبدیلهای ریاضی (مثلا جذرگیری یا لگاریتم) روی متغیرهای کمی به منظور آماده سازی و طراحی مدلهای آماری.
- جداسازی و تفکیک مشاهدات به منظور اجرای تحلیل برای بخشی از مشاهدات.
نکته: در اغلب موارد، تحلیلهایی را به کار خواهیم گرفت که براساس توزیع جامعه به صورت نرمال به کار میروند. ولی اگر توزیع جامعه نرمال نباشد، اغلب به کمک محاسبات و تبدیلهای ریاضی میتوان متغیر وابسته را به شکلی به توزیع نرمال شبیه کرد. برای مثال تبدیل باکس-کاکس از این جمله روشها محسوب میشود. البته به یاد داشته باشید که این کار اغلب در مدلهای رگرسیونی مورد استفاده واقع میشود.
در تصویر زیر، پنجره جمعبندی (Aggregate) و تهیه گزارش از اطلاعات جمعآوری شده در SPSS را مشاهده میکنید. این جمعبندیها (مانند محاسبه درصدها، جمعها یا میانگینگیری) میتواند در گامهای بعدی مورد استفاد قرار گیرد.
گام پنجم: نمایش و توصیف دادهها
پس از طی کردن چهار گام قبلی، هنگام آن فرا رسیده است که دادهها و اطلاعات جمعآوری شده را به کار گیریم. در این قسمت شاید توصیف جامعه آماری و خصوصیات آن، به درک دادهها و رفتار آنها کمک شایانی به محقق بکند. مصورسازی دادهها به کمک ترسیم نمودارها و محاسبه شاخصها در جدولهای آماری، در این مرحله از انجام تحلیل آماری با SPSS صورت میگیرد.
یکی از ساده و در عین حال مهمترین خروجیهایی که برای دادههای کیفی میتوان در SPSS تولید کرد، «جدول فراوانی» (Frequency Table) است. البته اگر دادهها کمی باشند، به کمک روشهای کیفی سازی مانند Visual Binning میتوان یک متغیر جدید که از نوع طبقهای یا فاکتور است تولید کرد. به یاد داشته باشید که این کار باید در گام چهارم صورت گرفته باشد.
جدول فراوانی دو طرفه یا «جدولهای توافقی» (Crosstab) نیز در این میان برای نمایش رابطه بین متغیرهای کیفی به کار میروند. شاخصهای وابستگی برای متغیرهای کیفی نیز از طریق این جدولها استخراج شده و میتوان آنها را مدلسازی کرد. نمودارهای فراوانی یک و دوطرفه نیز نقش مهمی در نمایش پراکندگی و وابستگی در متغیرهای کیفی دارند.
ولی برای نمایش متغیرهای کمی، از «نمودارهای ستونی» (Bar Chart)، «هیستوگرام» (Histogram) و «دایرهای» (Pie Chart) استفاده میشود. همچنین بررسی روند برای دادههای سری زمانی براساس «نمودار خطی» (Line Chart) صورت گرفته و امکان پیشبینی مقدار این گونه متغیرها را فراهم میسازد.
در تصویر زیر پنجره رسم نمودار در نرمافزار SPSS را مشاهده میکنید که در آن بسیار از انواع نمودارها قابل ترسیم هستند.
گام ششم: انتخاب نوع آزمون مناسب
مهمترین گام در انجام تحلیل آماری با SPSS انتخاب نوع آزمون و استباط آماری متناسب با هدف محقق است. اغلب با استفاده از روندنما (Flow Chart) یا جدولهای مخصوص، مراحل انتخاب یک آزمون مناسب در SPSS ارائه میشود. ولی حتما به این نکته توجه داشته باشید که در بسیاری از حالتها، فرضیههای مختلف و حتی سختگیرانهای برای انتخاب آزمون مناسب یا روشهای ایجاد مدل آماری وجود دارد. اگر به چنین فرضیههای توجه نکنید، نتایج حاصل ممکن است کاملا گمراه کننده باشند.
انتخاب تکنیکهای پارامتری یا ناپارامتری، انتخاب مدل رگرسیون خطی یا غیر خطی و غیره، باید با توجه به توزیع داده و جامعه آماری و همچنین محدودیتهای نمونه و مدل انتخابی صورت گیرد. در جدول زیر آزمونهای آماری مناسب برای میانگین جامعهها را برای حالت پارامتری (یعنی فرض توزیع نرمال برای جامعه آماری) مشاهده میکنید.
جدول ۱: آزمونهای پارامتری مناسب برای انجام تحلیل آماری با SPSS
نوع داده / هدف از آزمون | مقایسه میانگین دو جامعه مستقل | مقایسه میانگین دو جامعه وابسته | مقایسه میانگین چند جامعه مستقل |
دادههای کمی | آزمون دو جامعه مستقل تی | تحلیل واریانس یک طرفه |
همچنین درصورتی که با دادههای کیفی مواجه باشید، معیارهای مرکزی به صورت میانه یا نما در میآیند و برای آزمون روی پارامتر مکان، آزمونهایی که در جدول زیر قابل مشاهده است، به کار میآیند. در اغلب موارد، توزیع دادههای کیفی را دو جملهای یا یکنواخت در نظر میگیرند.
جدول ۲: آزمونهای ناپارامتری مناسب برای انجام تحلیل آماری با SPSS
نوع داده / هدف از آزمون | آزمون دو جامعه مستقل | مقایسه دو جامعه وابسته | مقایسه چند جامعه |
دادههای کیفی | آزمون من-ویتنی | آزمون فریدمن |
از طرفی، اگر برای تصادفی بودن و برازش توزیع نیز لازم باشد آزمونهای ناپارامتری را به کار گیریم، مطالعه جدول زیر میتوان کارساز باشد. هدف آن است که توسط نمونه آماری، بدانیم توزیع جامعه آماری با کدام یک از توزیعهای مهم، به خوبی برازش میشود.
جدول ۳: آزمونهای ناپارامتری برازش توزیع و رابطه بین متغیرها برای انجام تحلیل آماری با SPSS
نوع داده / هدف از آزمون | آزمون تصادفی بودن | آزمون برازش | آزمون همبستگی |
دادههای کمی | آزمون گردش | ضریب همبستگی پیرسون | |
دادههای کیفی | آزمون رتبه-علامت ویلکاکسون | ضریب همبستگی اسپیرمن |
همچنین مدلسازی و استفاده از تکنیک رگرسیون در بسیاری از تحقیقات علت و معلولی وجود دارد که در جدول ۴ آنها را به اختصار معرفی کردهایم.
جدول ۴: تکنیکهای رگرسیونی پر کاربرد در انجام تحلیل آماری با SPSS
متغیرهای مستقل | متغیر وابسته - کمی | متغیر وابسته - کیفی دو وضعیتی | متغیر وابسته شمارشی |
دادههای کمی | رگرسیون خطی | رگرسیون پواسون | |
دادههای کیفی | رگرسیون سلسله مراتبی | رگرسیون پواسون | |
دادههای ترکیبی | رگرسیون خطی چندگانه | رگرسیون پواسون |
البته میتوانید اکثر روشهای رگرسیونی و کاربرد هر یک را در نوشتار انواع روش های رگرسیونی — راهنمای جامع بخوانید و کدهای پیاده سازی مربوط به هر یک را در زبان R مشاهده کنید. به دلیل محدودیتهایی که در SPSS وجود دارد، همه این تکنیکها در آن پیادهسازی نشدهاند ولی بسیاری از برنامههای R و پایتون را میتوانید به صورت کتابخانهها یا افزونههایی در SPSS اجرا و استفاده کنید.
گام هفتم: تفسیر و ارائه خروجیها
تهیه خروجی مناسب و چشمانداز و آماده سازی برای چاپ نتایج تهیه شده در انجام تحلیل آماری با SPSS و ارائه آن بسیار موثر است. به این منظور، رسم جدولها و تشکیل نمودارها از تهیه یک متن طولانی بسیار موثرتر است. به همین دلیل گویایی و خوانایی جدولها و نمودارها برای کسانی که خواننده گزارش تحقیق شما هستند، جذابیت ایجاد کرده و تشویق میشوند که مقاله شما را بخوانند.
توجه داشته باشید که اکثر نتایج محاسبات در نرمافزار SPSS در پنجره خروجی (Output) و در برنامه SPSS Viewer قابل مشاهده هستند. البته در بعضی از حالات، برنامه SPSS Modeler وظیفه نمایش خروجی بعضی از دستورات را به عهده دارد. ولی به هر حال ویرایش و به زیباسازی نتایج در هر دو حالت امکانپذیر است.
در اکثر اوقات جدولها و خروجیها باید با استاندارد APA تهیه شوند. نگران این کار نباشید، زیرا نرمافزار SPSS، سبکی برای نمایش جدولها به این شیوه را به کاربر ارائه میکند.
در هنگام نوشتن تفسیر نتایج بعد از انجام تحلیل آماری با SPSS نیز به این موضوع توجه داشته باشید که خروجیهای تحلیل آماری برحسب p-مقدار (p-Value) در SPSS نوشته میشوند که در جدولها با عبارت Sig مشخص میشود. با توجه به فرضهای آماری و مقدار Sig میتوان نسبت به رد یا تایید فرض صفر اقدام کرد.
خلاصه و جمعبندی
تعریف یک طرح آماری و انجام تحلیل آماری با SPSS موضوعاتی بود که در این نوشتار به آن پرداخته و گامهای مختلف آن را مطرح کردیم. بسیاری از ابزارهای مربوط به این گامها در SPSS وجود دارد ولی به هر حال بعضی از بخشهای یک طرح آماری و تحلیل علمی باید توسط محقق صورت گیرد. از همه مهمتر، تفسیری است که از خروجیهای حاصل از نرمافزار بدست میآید. نتایج حاصل از نرمافزار باید با شرایط مسئله و همچنین پیشفرضهای مربوط به مدلهای به کار رفته، مورد آزمون قرار گیرد و پس از بررسی آنها گزارش و ارائه شوند.