آمار , داده کاوی 76 بازدید

نرم‌افزارهای آماری مانند SPSS، وظیفه انجام محاسبات مربوط به فرمول‌ها را به خوبی انجام می‌دهند. شاید در نگاه اول به فرمول‌های آماری، از شیوه بدست آوردن آن‌ها به خوبی مطلع نباشیم ولی از آنجایی که مطمئن هستیم این گونه نرم‌افزارها به درستی عملیات محاسباتی را اجرا می‌کنند، به نتایج حاصل اطمینان خواهیم داشت. در این نوشتار به بررسی نحوه اجرای آزمون میانگین نمونه‌ تکی در SPSS می‌پردازیم که یکی از آزمون‌های آماری است. اگر مجموعه داده، دارای مشاهدات زیادی باشد، بدون استفاده از نرم‌افزارهای محاسبات آماری، انجام چنین آزمونی امکان پذیر نیست.

از آنجایی که در مورد مبحث آزمون فرض صحبت می‌کنیم، بهتر است پیش‌نیازهای مربوط به آن را که در مطلب آزمون فرض میانگین جامعه در آمار — به زبان ساده و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری گفته شده، مطالعه کنید. همچنین خواندن آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات خالی از لطف نیست.

آزمون میانگین نمونه‌ تکی در SPSS

در این نوشتار به بررسی آزمون میانگین نمونه‌ تکی خواهیم پرداخت بنابراین با یک نمونه از جامعه آماری سروکار خواهیم داشت. قرار است براساس این نمونه در مورد میانگین جامعه قضاوت انجام گیرد. فرض کنید به عنوان یک تحلیل‌گر داده (Data Scientist)، با یک جامعه‌ آماری مواجه شده‌اید که میانگین آن مشخص نیست و می‌خواهید در مورد این میانگین، تحقیق و بررسی انجام دهید و به یک تصمیم برسید. برای مثال در نظر بگیرید که در یک کارخانه تولیدی لبنیات، شکایاتی مبنی بر کم بودن وزن بسته‌های پنیر دریافت شده است. مسئولین برای آنکه مشخص کنند آیا شکایات معتبر یا بی‌دلیل هستند دست به نمونه‌گیری زده‌اند و براساس اطلاعاتی که از وزن بسته‌های پنیر در نمونه وجود دارد، می‌خواهند به این تصمیم آماری برسند که آیا دستگاه‌ها احتیاج به تنظیم دارند یا شکایات بی‌مورد هستند.

برای رسیدن به این تصمیم از آزمون آماری میانگین نمونه تکی استفاده می‌شود. البته از آنجایی که جامعه بزرگ و حجم نمونه نیز متناسب گرفته شده، می‌توان شکل پراکندگی داده‌ها و جامعه را مطابق با توزیع نرمال در نظر گرفت.

پیش‌نیازهای ضروری برای آزمون میانگین نمونه تکی (One Sample T Test)

قبل از هر چیز باید از شرایط و فرضیاتی که آزمون میانگین نمونه تکی باید داشته باشد مطلع باشیم. در زیر فهرستی از این فرضیات دیده می‌شود:

  • داده‌ها کمی (عددی) هستند.
  • توزیع جامعه آماری نرمال است.
  • واریانس جامعه آماری ثابت ولی نامعلوم است. این پارامتر باید توسط مشاهدات نمونه‌ای محاسبه یا برآورد شود.

نکته: اگر حجم نمونه کم (حدود 3۰) و میزان چولگی، کم باشد، باز هم می‌توان از آزمون میانگین نمونه‌ تکی برای قضاوت در مورد میانگین جامعه استفاده کرد.

فرض‌ها و آماره آزمون

در انجام آزمون میانگین نمونه‌ تکی، فرض‌های صفر و مقابل به صورت زیر در نظر گرفته می‌شوند:

$$\large \begin{cases} H_0: \mu =\mu_0 \\ \large H_1: \mu \neq  \mu_0\\ \end{cases}$$

مقدار $$\mu_0$$ همان مقداری است که به نظر می‌رسد باید میانگین جامعه آماری داشته باشد. حتی می‌توان آن را به عنوان حدس اولیه برای میانگین جامعه در نظر گرفت. مشخص است که در فرض مقابل یا $$H_1$$ این تصور به چالش کشیده شده است. آماره آزمون، در ادامه معرفی شده و دارای توزیع t student است.

$$\large T=\dfrac{\overline{X}-\mu_0}{\frac{s}{\sqrt{n}}}$$

نکته: در نرم‌افزار SPSS فرضیات، به صورت زیر در نظر گرفته می‌شوند. ولی به هر حال نتیجه حاصل، در هر دو حالت یکسان خواهد بود.

$$\large \begin{cases} H_0: \mu-\mu_0=0 \\ \large H_1: \mu- \mu_0\neq 0\\ \end{cases}$$

با توجه به خصوصیاتی که مقدار احتمال (p-value) دارد، اگر نتیجه آن برای آزمون کمتر از احتمال خطای نوع اول ($$\alpha$$) یا همان سطح خطای آزمون شود، فرض صفر را رد خواهیم کرد.

شیوه اجرای آزمون میانگین نمونه تکی در SPSS

برای اجرای این آزمون طبق معمول از فهرست Analysis شروع می‌کنیم سپس گزینه Compare Means و دستور One Sample T-test را انتخاب کرده و پارامترهای آزمون را مطابق تصویرهای زیر تنظیم خواهیم کرد.

one sample t test in spss

در تصویر زیر هر یک از پارامترهای مربوط به این آزمون، معرفی شده‌اند. توجه داشته باشید که متغیرهایی که در قسمت (Test Variable(s قرار می‌دهید، مقدارهای عددی یا متغیر کمی باشند.

one sample t test dialog box in spss

در خروجی این آزمون، یک فاصله اطمینان برای اختلاف میانگین جامعه از $$\mu_0$$ نیز ایجاد می‌شود. سطح اطمینان برای این فاصله اطمینان را با انتخاب دکمه Options می‌توان تعیین کرد.

one sample t test option dialog box in spss

همینطور اگر چندین متغیر را در بخش متغیرهای آزمون قرار داده‌اید، با انتخاب گزینه‌ Exclude cases analysis by analysis مشخص می‌کنید که داده‌های گمشده (Missing Values) در هر تحلیل جداگانه در نظر گرفته شود. برای مثال اگر برای متغیر اول،‌ مشاهده سوم و برای متغیر دوم، مشاهده پنجم دارای مقدار گمشده است، هنگام اجرای آزمون برای متغیر اول، مشاهده سوم و برای آزمون میانگین متغیر دوم،‌ مشاهده پنجم در نظر گرفته نخواهد شد. ولی با انتخاب Exclude cases listwise فقط مشاهداتی در انجام همه آزمون‌ها به کار می‌روند که مقدار گمشده در هیچ یک از آن‌ها وجود ندارد. بنابراین با انتخاب این گزینه، مشاهده سوم و پنجم در تحلیل به کار نخواهند رفت.

همچنین برای اطلاع از روش بوت استرپ (Bootstap) بهتر است مطلب جک نایف و بوت استرپ (Jackknife and Bootstrap) روش های بازنمونه‌ گیری — به زبان ساده را مطالعه کنید.

مثال 1

فرض کنید اطلاعات مربوط به وزن 2۰ بسته 750 گرمی پنیر تولیدی در یک کارخانه در اختیار شما قرار گرفته است. باید قضاوت کنید که آیا این نمونه در مورد شکایت مشتریان مبنی بر کم بودن وزن بسته‌ها دلیل خوبی است یا شکایت‌ها بی‌مورد هستند؟ این اطلاعات را در SPSS مطابق تصویر زیر وارد کرده‌ایم. فایل اطلاعاتی این داده‌ها را با قالب فشرده از اینجا دریافت کنید.

one sample t test data in spss

برای آنکه مشخص شود توزیع این داده‌ها شبیه نرمال هستند، از یک «بافت‌نگار فراوانی» (Histogram) استفاده می‌کنیم. برای ترسیم آن از فهرست Analysis گزینه frequency را انتخاب و در پنجره ظاهر شده تنظیمات را مطابق با تصویرهای زیر پیاده می‌کنیم.

one sample t test data in spss example1

نکته: از آنجایی که احتیاجی به مشاهده جدول فراوانی وجود ندارد، گزینه display frequency tables را از حالت انتخاب خارج کرده‌ایم.

خروجی به صورت زیر در خواهد آمد. همانطور که دیده می‌شود، بافت‌نگار شبیه توزیع نرمال است. پس پیش‌نیازهای مربوط به آزمون میانگین نمونه تکی وجود دارد.

one sample t test output in spss example1

حال مراحل دسترسی به آزمون میانگین نمونه تکی را طی کرده و پارامترها را مطابق تصویر زیر در پنجره مربوط به آزمون تنظیم می‌کنیم.

one sample t test analysis in spss example1

با فشردن دکمه OK محاسبات صورت گرفته و خروجی مطابق با جدول زیر ظاهر خواهد شد.

one sample t test output in spss

در جدول اول با عنوان One-Sample Statistics، میانگین نمونه برابر با 750.1645 گرم و با انحراف استاندارد  9.64228 گرم است. خطای استاندارد میانگین نیز برابر با 2.15608 گرم محاسبه شده است. در جدول دوم، آزمون آماری مطابق با فرض صفر و فرض مقابل که پیش‌تر گفته شد، انجام شده است. مقدار آمار آزمون 0.076 و درجه آزادی نیز 19 بدست آمده است. با توجه به بزرگ بودن مقدار احتمال (p-Value) که در SPSS با Sig نمایش داده می‌شود و مقایسه آن با احتمال خطای نوع اول دلخواه $$\alpha$$ (که معمولا آن را 0.05 در نظر می‌گیریم) متوجه می‌شویم که ادعا مشتریان نادرست است زیرا 0.940 بزرگتر از 0.05 است. در نتیجه این نمونه دلیلی بر رد فرض صفر ارائه نکرده است و نمی‌توان فرض صفر را رد کرد.

مثال 2

فرض کنید دو نوع محصول A و B در بسته‌های 750 گرمی تولید می‌شوند. می‌خواهیم برای هر دو این محصولات آزمون کنیم که متوسط وزن بسته‌ها همان 750 گرم است. ولی بنا به دلایلی (مثلا باز بودن بسته بندی و خارج شدن محتویات از بسته‌ها) در هر دو نمونه یک مقدار گمشده وجود دارد. فایل فشرده مربوط به این مثال را از اینجا دریافت کنید. همان مراحل مربوط به مثال 1 را پی می‌گیریم تا پیش‌فرض‌های مربوط به آزمون میانگین نمونه تکی بررسی شود.

one sample t test output in spss- example2one sample t test output in spss- example2-2

حال آزمون را با دو وضعیت برای داده‌های گمشده اجرا می‌کنیم. در حالت اول گزینه Exclude cases analysis by analysis را در بخش option فعال کرده و نتایج آزمون را مشاهده می‌کنیم.

one sample t test output in spss-2

از آنجایی که هر کدام از متغیرها یا ستون‌ها دارای یک مشاهده گمشده بودند، تعداد در جدول اول برابر با 1۹ ثبت شده است. همچنین در جدول دومی، همانطور که Sig‌ نشان می‌دهد، فرض صفر در سطح خطای 0.05، توسط این نمونه‌ها رد نخواهد شد و به نظر می‌رسد میانگین وزن بسته‌ها همان ۷۵۰ گرم ادعای کارخانه است.

اگر لازم باشد که هر دوی مشاهدات گمشده در متغیرها لحاظ نشوند، کافی است که گزینه Exclude cases listwise را از بخش options انتخاب و آزمون را اجرا کنید. خروجی در این حالت به صورت زیر در خواهد آمد. مشخص است که در جدول اول، تعداد مربوط به هر دو گروه 1۸ خواهد بود و درجه آزادی (df) مربوط به آماره آزمون هم 1۷ محاسبه می‌شود.

one sample t test output in spss-3

نکته: به تغییر مقدار میانگین هر دو متغیر توجه کنید. از آنجایی که تعداد مشاهدات متفاوت است، میانگین نیز تغییر کرده است. همانطور که دیده می‌شود در این کارخانه وزن بسته‌های محصول B کمتر از ۷۵۰ گرم است زیرا مقدار Sig در سطر دوم با احتساب داده‌های گمشده برای هر دو گروه کمتر از 0.05 است. بنابراین فرض صفر رد می شود یعنی میانگین بسته‌های محصول B مخالف ۷۵۰ گرم است. از طرف دیگر چون فاصله اطمینان شامل ناحیه منفی است مشخص می شود که تفاضل میانگین وزن بسته‌ها از ۷۵۰ گرم دد ۹۵٪ مواقع کمتر از صفر است. به این ترتیب مشخص است که وزن بسته‌ها کمتر از ۷۵۰ گرم است و دستگاه‌های مربوط به بسته‌بندی باید تعمیر و تنظیم شوند.

اگر مطلب بالا برای شما مفید بوده است و به یادگیری مباحث مشابه آن علاقه‌مند هستید، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *