آزمون نسبت و آماره Z — به زبان ساده

۴۷۶۷ بازدید
آخرین به‌روزرسانی: ۲۴ خرداد ۱۴۰۲
زمان مطالعه: ۱۳ دقیقه
دانلود PDF مقاله
آزمون نسبت و آماره Z — به زبان ساده

آزمون‌های آماری روشی برای تعیین اختلاف معنی‌دار برای پارامترهای جامعه آماری هستند. به بیان دیگر به کمک آزمون‌های آماری متوجه می‌شویم، چه میزان از اختلاف بین پارامترهای دو جامعه، وابسته به هویت و ساختار این جوامع است و چه میزان متوجه طرح نمونه‌گیری است. به این ترتیب وجود اختلاف به معنی نامساوی بودن دو مقدار یا دو برآورد در جامعه، نشانگر تفاوت واقعی بین آن‌ها نیست، زیرا اختلاف حاصل با تکرار نمونه‌گیری، تغییر خواهد کرد. در این نوشتار به آزمون نسبت و آماره Z خواهیم پرداخت و برای اجرای این آزمون از زبان و دستورات نرم‌افزار R کمک خواهیم گرفت. نسبت‌های حاصل از تقسیم تعداد گروه خاصی از جامعه به کل افراد آن حاصل شده‌اند.

997696

برای آشنایی بیشتر با اصطلاحات آماری مرتبط با آزمون و استنباط آماری، نوشتارهای استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات و جامعه آماری – انواع داده و مقیاس‌های آن‌ها را مطالعه کنید. همچنین خواندن آزمون Z در آمار — به زبان ساده و توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها نیز خالی از لطف نیست.

آزمون نسبت و آماره Z

در نوشتار دیگری از مجله فرادرس به موضوع آزمون Z پرداختیم. ولی در این متن می‌خواهیم به جای مقایسه میانگین و انجام آزمون در مورد آن، به نسبت در جامعه آماری پرداخته و در باره آزمون دست به آزمون آماری بزنیم.

اگر بخواهیم نسبت دو گروه یا دو بخش از یک جامعه آماری را مورد آزمون قرار دهیم، از آزمون نسبت و آماره Z استفاده خواهیم کرد. معمولا فرض می‌کنیم که برای اندازه نمونه بزرگ، آماره آزمون نسبت دارای توزیع نرمال است و به کمک آن سعی می‌کنیم آزمون فرض آماری را انجام دهیم.

grades bell curve
تقریب توزیع نرمال برای داده‌های طبقه‌ای

برای مثال فرض کنید در یک جامعه آماری براساس یک نمونه ۱۰۰۰ نفری، ۵۰۰ نفری متاسفانه سیگاری بوده و نیم دیگر غیر سیگاری باشند. اگر تعداد افرادی که سیگاری بوده و به بیماری تنفسی ریه مبتلا شده‌اند برابر با ۴۹۰ نفر بوده و در بین ۵۰۰ نفر غیر سیگاری نیز ۴۰۰ به بیماری تنفسی دچار شده باشند، می‌خواهیم نسبت بیماران را در هر دو گروه (سیگاری و غیر سیگاری) مقایسه کنیم و مثلا حکم کنیم که نسبت بیماران در سیگاری‌ها بیشتر از نسبت افراد غیرسیگاری است و نتیجه بگیریم که سیگار عامل اصلی در سرطان ریه است.

بیان فرضیه‌های آماری آزمون نسبت و آماره Z

بیان فرضیه‌های آماری در آزمون نسبت و آماره Z برای دو گروه A و B‌ می‌تواند به صورت زیر نوشته شود. توجه داشته باشید که در اینجا PAP_A نسبت گروه A و PBP_B نیز نسبت در گروه B است.

{H0:PA=PBH1:PAPB \large \begin{cases}H_0 : & P_A = P_B \\ \large H_1 : & P_A \neq P_B \end{cases}

نکته: در این آزمون فرض بالا، یک آزمون دو طرفه صورت گرفته است ولی می‌توان آزمون را به صورت یک طرفه یا دو طرفه و به صورت مرکب یا ساده نیز در نظر گرفت. در این صورت ترکیب فرض صفر و فرض مقابل می‌تواند به صورت زیر در بیاید. چنین آزمون‌هایی به صورت مرکب بوده و یک طرفه محسوب می‌شوند.

H0:{PA=PBPAPBPAPB \large H_0: \begin{cases} P_A = P_B \\ P_A \leq P_B \\ P_A \geq P_B \end{cases}

H1:{PAPBPA>PBPA<PB \large H_1: \begin{cases} P_A \neq P_B \\ P_A > P_B \\ P_A < P_B \end{cases}

البته می‌توان یک نسبت را با مقدار ثابت نیز در نظر گرفت. در این صورت آزمون نسبت با P0P_0 مقایسه می‌شود. به این ترتیب خواهیم داشت.

{H0:P=P۰H1:PP۰ \large \begin{cases}H_0 : & P = P_۰ \\ \large H_1 : & P \neq P_۰ \end{cases}

جدول زیر بهترین ترکیب آزمون‌ها را با یکدیگر نشان داده است.

شماره ترکیبفرض صفرفرض مقابلتعداد دم‌ها (دو طرفه یا یک طرفه)
1pApB=0 p_A - p_B = 0pApB0 p_A - p_B \neq 0دو طرفه
2pApB0 p_A - p_B \geq 0pApB<0 p_A - p_B < 0یک طرفه
۳pApB0 p_A - p_B \leq 0pApB>0 p_A - p_B > 0یک طرفه

همچنین اگر هدف مقایسه نسبت با یک مقدار ثابت است، می‌توان از جدول زیر برای مشخص کردن فرض صفر و مقابل بهره گرفت.

شماره ترکیبفرض صفرفرض مقابلتعداد دم‌ها (دو طرفه یا یک طرفه)
1pp0=0 p - p_0 = 0pp00 p - p_0 \neq 0دو طرفه
2pp00 p - p_0 \geq 0pp۰<0 p - p_۰ < 0یک طرفه
۳pp00 p - p_0 \leq 0pp0>0 p - p_0 > 0یک طرفه

ابتدا حالت مقایسه نسبت یا مقدار ثابت (p0p_0) را براساس آزمون Z اجرا کرده، سپس به بررسی آزمون اختلاف دو نسبت از جامعه آماری خواهیم پرداخت.

شرایط اولیه برای انجام آزمون نسبت و آماره Z

فرض کنید متغیر تصادفی X را به صورت دو مقداری (باینری) در نظر بگیریم. اگر کسی در گروه A قرار گرفته باشد، مقدار ۱ و در غیر اینصورت مقدار ۰ را خواهد داشت. در این صورت متغیر تصادفی X‌ از این جامعه، دارای توزیع برنولی است.

XBernoulli(p) \large X \sim Bernoulli (p)

در نتیجه امید ریاضی و واریانس چنین متغیر تصادفی به ترتیب برابر با pp و pqpq یا p(1p)p(1-p) است. اگر اندازه نمونه بزرگ باشد طبق قضیه حد مرکزی (CLT)، می‌توان آماره زیر را دارای توزیع نرمال فرض کرد

Z=p^p0p0(1p0)/n \large Z = \dfrac{\widehat{p} - p_0}{\sqrt{ p_0(1 - p_0)/n}}

واضح است که p^\widehat{p}، همان برآوردگر نااریب پارامتر pp یا نسبت در جامعه است.

  • شرط اول: موضوع گفته شده در قسمت قبل، نشان می‌دهد که بزرگ بودن اندازه نمونه از شرایط مهم در این آزمون آماری محسوب می‌شود تا بتوان از تقریب توزیع نرمال برای محاسبات بهره برد. معمولا اگر اندازه نمونه بزرگتر از ۳۰ باشد، می‌توان توزیع آماره zz را نرمال در نظر گرفت.
  • شرط دوم: مشاهدات نمونه‌ای باید از یکدیگر مستقل باشند. در نتیجه بین هر کدام از آن‌ها رابطه‌ای وجود ندارد. در غیر اینصورت شرایط به کارگیری قضیه حد مرکزی برقرار نبوده و نمی‌توان از تقریبا نرمال و توزیع برنولی استفاده کرد.
  • شرط سوم: نمونه‌های حاصل باید به صورت تصادفی استخراج شده باشند. اگر این موضوع صحت نداشته باشد، برآوردگر p^\widehat{p}، یک برآوردگر نااریب نخواهد بود. در نتیجه باز هم قضیه حد مرکزی برقرار نبوده و توزیع آماره آزمون مشخص نخواهد شد.
  • شرط چهارم: تعداد موفقیت (مقدار متغیر تصادفی برابر با ۱) باید حداقل ۱۰ مورد باشد. همچنین تعداد شکست‌ها (مقدار متغیر تصادفی برابر با ۰) نیز باید از ۱۰ بیشتر باشند، بطوری که مجموع این دو، از ۳۰ نیز بیشتر شده باشد.
  • شرط پنجم: تعداد نمونه‌ها از جامعه، باید تقریبا به نسبت یک به ۲۰ باشد. یعنی برای یک جامعه با اندازه ۱۰0۰ واحد، اندازه نمونه باید حداقل ۲۰۰ مورد در نظر گرفته شود.

آزمون نسبت و آماره Z برای مقدار ثابت یا اختلاف نسبت‌ها

برای مشخص کردن آزمون نسبت و آماره Z دو حالت در نظر می‌گیریم. در حالت اول فرض بر این است که هدف از آزمون آماری، مقایسه نسبت در جامعه با یک مقدار ثابت p0p_0 است که در فرض صفر مشخص شده است. در حالت دوم فرض می‌کنیم که هدف از انجام آزمون مقایسه دو نسبت از جامعه است و می‌خواهیم مشخص کنی که pAp_A با pBp_B چه رابطه‌ای دارد. آیا با هم برابرند، یک یکی از دیگری بزرگتر یا کوچکتر است.

ابتدا آماره آزمون را در حالت اول مورد بررسی قرار می‌دهیم. به این ترتیب با توجه به تعداد یا حجم نمونه که با nn مشخص شده است، آماره آزمون به صورت زیر خواهد بود.

Z=p^p0p0(1p0)n\large Z = \dfrac{\widehat{p} – p_0 }{\sqrt{ \dfrac{p_0 (1 – p_0)}{n}}}

توجه داشته باشید که این آماره با توجه به فرض صفر نوشته شده است و تحت این فرض در صورت بزرگ بودن nn دارای توزیع نرمال خواهد بود.

نکته: از آنجایی که p0p_0‌ معلوم است، واریانس یعنی p0(1p0)p_0(1 - p_0) نیز معلوم بوده و از قضیه حد مرکزی توزیع آماره را نرمال در نظر می‌گیریم.

در حالت دوم دو نسبت pAp_A و pBp_B‌، وجود دارند. باز هم با توجه به فرض صفر آماره آزمون و توزیع آن را مشخص می‌کنیم.

Z=(p^Ap^B)pp^(1p^)(1n1+1n2) \large Z = \dfrac{(\widehat{p}_A - \widehat{p}_B ) - p^* }{ \sqrt{\widehat{p}(1-\widehat{p})(\dfrac{1}{n_1}+ \dfrac{1}{n_2})} }

توجه داشته باشید که در اینجا p^\widehat{p}، همان برآوردگر نسبت کل (بدون در نظر گرفتن گروه‌ها) است. از آنجایی که تحت فرض صفر هر دو نسبت باید با هم برابر باشند، برآورد نسبت کل را ملاک محاسبه واریانس (خطای استاندارد) قرار داده‌ایم. همچنین pp^* نیز مقدار اختلاف بین دو نسبت را مشخص می‌کند. در اغلب موارد مقدار pp^*، صفر در نظر گرفته می‌شود.

به این ترتیب برای محاسبه آن از رابطه زیر کمک می‌گیریم.

p=(pA×nA+pB×nB)(nA+nB) \large p= \dfrac{(p_A \times n_A + p_B \times n_B)}{(n_A + n_B) }

که در آن nAn_A، تعداد نمونه‌های متعلق به گروه A و nBn_B‌ نیز تعداد نمونه‌های مربوط به گروه B است.

همچنین خطای استاندارد (Standard Error) نیز برای برآوردگر نسبت که در مخرج آماره آزمون قرار  گرفته به شکل زیر حاصل شده است.

SE(p^)=(p(1p)×(1/nA+1/nB) \large SE(\widehat{p})= \sqrt{(p (1-p) \times (1/n_A + 1/ n_B) }

واضح است که آماره آزمون یک کسر است که در صورت آن تفاضل دو نسبت و در مخرج نیز SESE، قرار دارد.

نکته: آماره آزمون و نحوه اجرای آزمون برای مقایسه میانگین (μ\mu) در جامعه نرمال را در نوشتار دیگری از مجله فرادرس با عنوان آزمون Z در آمار — به زبان ساده خوانده‌اید. در اینجا هم میانگین توزیع برنولی همان احتمال موفقیت یا pp است. به همین دلیل از آماره Z برای چنین حالتی نیز می‌توان استفاده کرد.

گام‌های انجام آزمون نسبت و آماره Z

مراحل اجرای آزمون نسبت و آماره Z طبق فهرست زیر معرفی می‌شوند.

  • گام اول: مشخص کردن نوع آزمون و فرضیه‌های آن اولین بخش را شامل می‌شود. اینکه هدف از استنباط آماری، اجرای یک آزمون یک طرفه یا دو طرفه، ساده یا مرکب است، در این گام انجام می‌شود.
  • گام دوم: نمونه‌گیری و بررسی شرط‌های مربوط به اجرای آزمون نیز در گام دوم مورد ارزیابی قرار می‌گیرد. با مشخص شدن مقادیر نمونه‌ها و مشاهدات، فرض‌ها و شرایط اجرای آزمون در این گام باید بررسی شده و در صورت برقرار نبودن این شرط‌ها، باید از اجرای گام‌های بعدی انصراف داده و از روش‌های دیگری استنباط آماری مانند روش‌های ناپارامتری کمک گرفت.
  • گام سوم: محاسبه آماره آزمون، طبق اجرای آزمون نسب یا اختلاف دو نسبت، گام سوم را شامل می‌شود. از آنجایی که نوع آماره آزمون بستگی به این موضوع دارد، تعیین نوع دقیق آماره آزمون از اهمیت ویژه‌ای برخوردار است.
  • گام چهارم: تصمیم نسبت به رد یا تایید فرض صفر براساس آماره آزمون محاسبه شده و مقایسه یا صدک یا چندک‌های توزیع نرمال با توجه به سطح خطای نوع اول، در آخرین گام صورت گرفته و می‌توانیم در مورد برابری یا اختلاف پارامتر نسبت یک یا دو جامعه، دست به تصمیم بزنیم.

در ادامه برای روشن‌تر شدن موضوع و نحوه به کارگیری هر یک از این آماره‌ها، به ذکر چند مثال خواهیم پرداخت. در انتها نیز این گونه محاسبات را به کمک نرم‌افزار R، پی خواهیم گرفت.

مثال ۱

در این مثال به بررسی یک آزمون نسبت دو طرفه می‌پردازیم. فرض کنید، می‌خواهیم نسبت دختران دانشجو را در یک دانشگاه مورد بررسی قرار دهیم. از رشته‌های علوم تربیتی یک نمونه ۱2۰ نفره گرفته‌ایم و حدود ۷۰ نفر آن‌ها، دختر هستند. آیا با خطای ۵٪ می‌توان گفت نسبت دختران دانشجو به کل دانشجویان دانشگاه، 50 درصد است؟

در گام اول نوع آزمون مورد نظر را مشخص می‌کنیم. این آزمون دو طرفه و با فرضیه‌های زیر است:

{H0:P=0.5H1:P0.5 \large \begin{cases}H_0 : & P = 0.5 \\ \large H_1 : & P \neq 0.5 \end{cases}

با توجه به بیان مسئله پارامترها و آماره آزمون را به صورت زیر محاسبه می‌کنیم. این قسمت گام دوم و سوم را تشکیل می‌دهد.

p^=70120=58%,      p0=50%,        n=120 \large \widehat{p} = \dfrac{70}{120} = 58\% , \;\;\; p_0 = 50\% ,\;\;\;\;n = 120

SE(p^)=(0.50×(10.50)×(1/120)=0.00208 = 0.046 \large SE(\widehat{p})= \sqrt{( 0.50 \times (1 - 0.50) \times (1/120) } = \sqrt{0.00208}  =  0.046

Z=0.580.50.046= 1.74 \large Z = \dfrac{0.58 -0.5 }{0.046} =  1.74

گام انتهایی، مقایسه قدر مطلق آماره آزمون با مقدار چندک ۹7۵ام توزیع نرمال است.

one proportion

 z10.05/2=z0.975=1.96\large  z_{1 - 0.05/2} = z_{0.975} = 1.96

از آنجایی که آماره آزمون کوچکتر از چندک توزیع نرمال است، دلیلی بر رد فرض صفر نداریم. پس می‌توان ادعای فرض صفر را تایید کرده و نتیجه بگیریم که حدود ۵۰٪ دانشجویان را دختران تشکیل می‌دهند.

مثال ۲

دو داروی آنفولانزا مورد آزمایش قرار گرفته است. داروی نوع A روی ۱۹۵ مورد آزمایش قرار گرفت و حال ۴۱ نفر از آن‌ها بهبود یافت. از طرفی داروی B نیز برای ۶۰۵ نفر تجویز شده و ۳۵۱ نفر نیز سلامت شدند. آیا در سطح خطای ۵٪ می‌توان این دو دارو را معادل در نظر گرفت؟

در گام اول مشخص است که باید نوع آزمون را مشخص کنیم. اگر فرضیه‌ها را به صورت زیر در نظر گرفته باشیم، آزمون از نوع دو طرفه بوده و باید آزمون اختلاف دو نسبت مورد بررسی قرار گیرد.

{H0:PA=PBH1:PAPB \large \begin{cases}H_0 : & P_A = P_B \\ \large H_1 : & P_A \neq P_B \end{cases}

در گام دوم، محاسبه نسبت‌ها و خطای استاندارد صورت می‌گیرد.

pA=41/195=0.21,      pB=351/605=0.58 \large p_A = 41/ 195 = 0.21 , \;\;\; p_B = 351 / 605 = 0.58

p=(41+351)/(195+605)=0.49 \large p = (41 + 351 )/(195 + 605) = 0.49

در گام سوم نیز آماره آزمون را بدست خواهیم آورد.

Z=0.580.2100.49×(10.49)×(1195+1605)=8.99 \large Z = \dfrac{0.58 - 0.21 - 0 }{\sqrt{0.49 \times (1 - 0.49) \times (\dfrac{1}{195} + \dfrac{1}{605})}} = 8.99

با توجه به جدول زیر و نمودار قسمت قبل، مشخص است که فرض صفر رد می‌شود

خطای

نوع اول

نصف خطای

نوع اول

چندک توزیع نرمال

z1α/2z_{1-\alpha/2}

سطح اطمینان
10%5%1.64590%
5%2.5%1.9695%
2%1%2.32698%
1%0.5%2.57699%

از آنجایی که مقدار قدرمطلق آماره آزمون از تمامی چندک‌های توزیع نرمال بزرگتر است، فرض صفر رده شده و نتیجه می‌گیریم که درصد بهبودیافتگان دارو A و B با یکدیگر اختلاف معنی‌داری دارند.

انجام آزمون نسبت و آماره Z در R

در این جا هم به دو شکل آزمون نسبت را انجام می‌دهیم. ابتدا برای آزمون نسبت و آماره Z در یک گروه با مقدار ثابت دستورات لازم را مرور کرده، سپس به آزمون اختلاف دو نسبت خواهیم پرداخت.

آزمون نسبت و آماره Z با مقدار ثابت

برای انجام آزمون نسبت با مقدار ثابت (p0p_0) می‌توان از دو دستور متفاوت در R بهره گرفت. دستور اول آزمون دو جمله‌ای (Binomial Test) را اجرا می‌کند و دومی نیز به آزمون نسبت می‌پردازد. زمانی که اندازه نمونه کوچک باشد، آزمون دوجمله‌ای به کار رفته ولی اگر اندازه نمونه را بزرگ در نظر بگیریم، با توجه به تقریب توزیع نرمال، آزمون نسبت مناسب خواهد بود.

1binom.test(x, n, p = 0.5, alternative = "two.sided")
2prop.test(x, n, p = NULL, alternative = "two.sided",
3          correct = TRUE)
4            <div class="faradars-courses faradars-courses-single">
5                <a href="https://faradars.org/courses/fvr97041-basic-scientific-and-statistical-calculations-using-r?utm_source=blog.faradars&utm_medium=referral-post&utm_campaign=related-courses-inline-5&utm_term=a.reybod&utm_content=statistics" target="_blank">
6                    <div class="card card-course">
7                        <div class="card-image">
8                            <img class="pop-img" src="https://faradars.org/wp-content/uploads/2018/07/fvr97041-svg.svg" alt="آموزش محاسبات عددی و آماری با برنامه نویسی در R – مقدماتی">
9                        </div>
10                        <div class="card-body">
11                            <div class="card-title">
12                                فیلم آموزش محاسبات عددی و آماری با برنامه نویسی در R – مقدماتی در فرادرس
13                            </div>
14                        </div>
15                        <div class="card-action ml-3">
16                            <div class="fdb-btn">کلیک کنید</div>
17                        </div>
18                    </div>
19                </a>
20            </div>
21        

پارامترهای این دو دستور یا تابع شبیه یک یکدیگر هستند.

  • x: تعداد موفقیت‌ها
  • n: تعداد آزمایش‌های برنولی
  • p: مقدار احتمال تحت فرض صفر (همان p0p_0)
  • alternative: تعیین شکل فرض مقابل برای تعیین یک یا دو طرفه بودن آزمون
  • correct: استفاده از اصلاح یا «تصحیح یتس» (Yates Correction) برای تقریب نرمال در آزمون prop.test

برای مثال دستور زیر را برای انجام آزمون مقایسه نسبت در یک جامعه با ۱۶۰ نمونه و تعداد موفقیت ۹۵ واحد در نظر بگیرید. می‌خواهیم بدانیم که نسبت در این حالت برابر با ۵۰٪ است یا خیر.

1res <- prop.test(x = 95, n = 160, p = 0.5, 
2                 correct = FALSE)
3# Printing the results
4res

خروجی به صورت زیر خواهد بود.

1    1-sample proportions test without continuity correction
2data:  95 out of 160, null probability 0.5
3X-squared = 5.625, df = 1, p-value = 0.01771
4alternative hypothesis: true p is not equal to 0.5
595 percent confidence interval:
6 0.5163169 0.6667870
7sample estimates:
8      p 
90.59375

از آنجایی که مقدار آماره آزمون بزرگ بوده و مقدار p-value=0٫01771 نیز از خطای نوع اول 0٫05 کوچکتر است، فرض صفر رد می‌شود. پس بین مقدار احتمال و ۰٫۵، اختلاف معنی‌داری وجود دارد. در ضمن براساس نمونه بدست آمده، برآورد پارامتر نسبت نیز برابر با 0٫59375 است.

نکته: آزمون‌های مترادف به صورت یکطرفه نیز به شکل زیر نوشته خواهند شد.

یک طرفه چپ:

1prop.test(x = 95, n = 160, p = 0.5, correct = FALSE,
2           alternative = "less")

یک طرفه راست:

1prop.test(x = 95, n = 160, p = 0.5, correct = FALSE,
2              alternative = "greater")

آزمون نسبت و آماره Z برای دو گروه در R

برای انجام آزمون اختلاف نسبت در محیط برنامه‌نویسی و محاسبات آماری R، باید از تابع prop.test استفاده کرد. شکل دستوری این تابع به همراه پارامترهای آن، صورت زیر است.

1prop.test(x, n, p = NULL, alternative = "two.sided",
2          correct = TRUE)

در این دستور، پارامترهای به شکل زیر به کار می‌روند.

x: برداری که تعداد موفقیت‌ها را می‌شمارد.

n: برداری که تعداد آزمایش‌ها را مشخص می‌کند.

p: مقدار اختلاف یا همان pp^* در آماره آزمون اختلاف دو نسبت.

alternative: نوع آزمون فرض به صورت یک طرفه (one.sided) یا دو طرفه (two.sided) توسط این پارامتر تعیین می‌شود. مقدار پیش‌فرض برای این پارامتر دو طرفه two.sided است.

correct: با توجه به این پارامتر که مقداری منطقی (TRUE , FASLE) را می‌گیرد، تعیین می‌کنید که آیا از «تصحیح پیوستگی یتس» (Yates Correction) برای محاسبه آماره آزمون استفاده بشود یا خیر. به طور پیش‌فرض این گزینه دارای مقدار TRUE بوده و تصحیح صورت می‌گیرد.

اگر بخواهید آزمون را برای مقایسه اختلاف دو نسبت در دو گروه انجام دهید،‌ کافی است بردار x را به صورت یک بردار با مقدار تعداد موفقیت‌ها در گروه A و B‌ مشخص کنید. همچنین بردار n‌ نیز در این حالت تعداد آزمایش‌های برنولی را در هر دو گروه مشخص می‌کند.

برای مثال، فرض کنید برای ۱۰۰۰ نفر که به دو گروه ۵۰۰ تایی زن و مرد تقسیم شده‌اند، موافقت با انجام تست کرونا پرسیده شده است. ۴۹۰ نفر از گروه مردان پاسخ موافق به تست داده‌اند ولی در گروه دوم یا گروه زنان فقط ۴۰۰ نفر موافق با انجام تست بوده‌اند.

آیا می‌توان گفت که درصد موافقت در بین زنان و مردان یکسان است؟

دستوری که برای اجرای آزمون به کار برده‌ایم به صورت زیر است. همانطور که مشخص است، آزمون بصورت دو طرفه در نظر گرفته شده است.

1res <- prop.test(x = c(490, 400), n = c(500, 500))
2# Printing the results
3res

خروجی حاصل به صورت زیر است:

1    2-sample test for equality of proportions with continuity correction
2data:  c(490, 400) out of c(500, 500)
3X-squared = 80.909, df = 1, p-value < 2.2e-16
4alternative hypothesis: two.sided
595 percent confidence interval:
6 0.1408536 0.2191464
7sample estimates:
8prop 1 prop 2 
9  0.98   0.80

با توجه به مقدار آماره آزمون X-squared=80.909 و p-value<2.2e-16، مشخص است که فرض صفر رد می‌شود. همچنین فاصله اطمینان ۹۵، نیز شامل مقدار 0 نیست، در نتیجه می‌توان گفت که درصد یا نسبت موافق‌ها در گروه مردان به طور معنی‌داری با درصد گروه زنان تفاوت دارد.

نکته: اگر بخواهید آزمون را به صورت یک طرفه انجام داده و مشخص کنید که طبق فرض مقابل، درصد موافق‌ها در گروه مردان کمتر از زنان است، از دستور زیر استفاده کنید.

1prop.test(x = c(490, 400), n = c(500, 500),
2           alternative = "less")
3            <div class="faradars-courses faradars-courses-single">
4                <a href="https://faradars.org/courses/fvr9711-supplementary-of-scientific-and-statistical-calculations-using-r?utm_source=blog.faradars&utm_medium=referral-post&utm_campaign=related-courses-inline-5&utm_term=a.reybod&utm_content=statistics" target="_blank">
5                    <div class="card card-course">
6                        <div class="card-image">
7                            <img class="pop-img" src="https://faradars.org/wp-content/uploads/2019/03/fvr9711-svg.svg" alt="آموزش محاسبات علمی و آماری با آر R – تکمیلی">
8                        </div>
9                        <div class="card-body">
10                            <div class="card-title">
11                                فیلم آموزش محاسبات علمی و آماری با آر R – تکمیلی در فرادرس
12                            </div>
13                        </div>
14                        <div class="card-action ml-3">
15                            <div class="fdb-btn">کلیک کنید</div>
16                        </div>
17                    </div>
18                </a>
19            </div>
20        

همچنین برعکس برای مشخص کردن فرض مقابل به صورت بزرگتر بودن درصد مردان از زنان، از شکل دستوری زیر کمک بگیرید.

1prop.test(x = c(490, 400), n = c(500, 500),
2              alternative = "greater")

خروجی‌های تابع prob.test

هنگام استفاده از تابع prob.test می‌توانید مقادیر زیر را نیز به صورت جداگانه از این تابع دریافت کنید.

مقدار احتمال (p-value)

برای دریافت این خروجی کافی است کدی مطابق با عبارت زیر وارد کنید.

1# printing the p-value
2res$p.value

در این صورت مقدار زیر برای p-value حاصل می‌شود.

1[1] 2.363439e-19

محاسبه برآورد نسبت (Estimate)

بدست آوردن نسبت در بین هر یک از گروه‌ها به کمک دستور زیر میسر است.

1# printing the mean
2res$estimate

اگر قطعه کد بالا را اجرا کنید، مشاهده خواهید کرد که خروجی به صورت زیر بوده و نسبت برای هر دو گروه نمایش داده می‌شود.

1prop 1 prop 2 
2  0.98   0.80

فاصله اطمینان (Confidence Interval)

اگر می‌خواهید برای اختلاف نسبت گروه‌ها، یک فاصله اطمینان ۹۵٪ ایجاد کنید، دستور زیر را اجرا کنید.

1# printing the confidence interval
2res$conf.int

بدیهی است اگر این فاصله شامل مقدار صفر باشد، فرض صفر رد نشده که این امر تایید بر یکسان بودن نسبت در هر دو گروه است. در بخش اول خروجی فاصله اطمینان و در دستور مربوط به قسمت دوم در کد زیر نیز نمایانگر سطح اطمینان یا همان ۰٫۹۵ است.

1[1] 0.1408536 0.2191464
2attr(,"conf.level")
3[1] 0.95

خلاصه و جمع‌بندی

همانطور که خواندید، آزمون نسبت و آماره Z می‌تواند برای تصمیم در مورد پارامتر نسبت در یک یا دو جامعه مورد استفاده قرار گیرد. این آزمون را به کمک چند مثال مورد تحلیل قرار دادیم و در انتها نیز به کمک محاسبات رایانه‌ای در محیط برنامه‌نویسی R، دستورات لازم برای اجرای چنین آزمونی را یادآوری کردیم. همچنین تفسیر خروجی‌های نرم‌افزاری یا محاسباتی حاصل از این آزمون را نیز مورد بحث قرار داده و نتایج را بازگو کردیم. از آنجایی که نواحی بحرانی آزمون Z وابسته به اندازه نمونه نیست، در صورت معلوم بودن پارامتر واریانس جامعه، استفاده از این آزمون نسبت به آزمون t‌ ارجح است. ولی در صورتی که واریانس مشخص نباشد، باید از آزمون تی (t) یا روش‌های ناپارامتری برای قضاوت در مورد نسبت جامعه، کمک گرفت.

بر اساس رای ۹ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
مجله فرادرس
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *