ضریب همبستگی پیرسون چیست؟ – نحوه محاسبه با مثال و تمرین

۲۵۷ بازدید
آخرین به‌روزرسانی: ۱۱ مهر ۱۴۰۳
زمان مطالعه: ۲۷ دقیقه
دانلود PDF مقاله
ضریب همبستگی پیرسون چیست؟ – نحوه محاسبه با مثال و تمرین

یکی از پرکاربردترین ضرایب همبستگی، «ضریب همبستگی پیرسون» (Pearson Correlation Coefficient) است که با r نمایش داده می‌شود و همبستگی خطی بین دو مجموعه داده را اندازه‌گیری می‌کند. مقدار ضریب r همواره در بازه ۱- تا ۱ است و بسته به علامت و اندازه این عدد، می‌توانیم تعیین کنیم همبستگی در چه جهتی و با چه شدتی برقرار است. در این نوشته از مجله فرادرس ابتدا تعریف می‌کنیم که ضریب همبستگی پیرسون چیست و چه مشخصاتی دارد.

فهرست مطالب این نوشته
997696

سپس توضیح می‌دهیم چگونه می‌توانیم انواع همبستگی را بر اساس مقدار ضریب r تعیین کنیم و شروط استفاده از ضریب همبستگی پیرسون چیست. همچنین با برخی از مفاهیم آماری مانند اندازه اثر و آزمون معناداری آشنا خواهید شد و با بررسی مثال‌ها و تمرین‌های متنوع، به روش محاسبه این ضریب نیز کاملا مسلط می‌شوید.

ضریب همبستگی پیرسون چیست؟

محاسبه ضریب همبستگی مرسوم‌ترین روش اندازه‌گیری همبستگی خطی است. مقدار این ضریب که همواره عددی بین ۱- و ۱ است، نشان می‌دهد رابطه خطی بین دو مجموعه داده تا چه اندازه قوی است و در چه جهتی پیش می‌رود. اگر هر دو گروه متغیر ما کمی باشند، رابطه بین آن‌ها خطی باشد و توزیع نرمالی با تعداد داده‌های پرت خیلی کمی داشته باشند، در این صورت می‌توانیم از ضریب همبستگی پیرسون برای بررسی همبستگی این داده‌ها استفاده کنیم که توسط فرمول زیر محاسبه می‌شود:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

  • r: ضریب همبستگی پیرسون
  • x: مقادیر اولین مجموعه داده‌ها
  • y: مقادیر دومین مجموعه داده‌ها
  • n: تعداد کل مقادیر یا اندازه نمونه
تصویر کارتنی از دو ماشین در حال حرکت موازی با هم که با زنجیر بهم وصل شده‌اند - ضریب همبستگی پیرسون چیست؟
ضریب همبستگی بیان‌کننده شدت و راستای حرکت دو متغیر نسبت به هم است. برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

دقت کنید اگر در متون مختلف عبارت ضریب همبستگی بدون مشخص کردن نوع آن استفاده شد، منظور همان ضریب همبستگی پیرسون است. همچنین ممکن است این ضریب با عبارت‌هایی مانند Pearson’s r، همبستگی دو متغیره، یا با نماد اختصاری PPMCC به معنای «ضریب همبستگی حاصل‌ضرب - گشتاور پیرسون» (Pearson Product-Moment Correlation Coefficient) و یا با نمادی بر گرفته از حروف اول نام لاتین آن به شکل PCC بیان شود.

ضریب همبستگی پیرسون نمونه‌ای از یک کمیت آماری توصیفی است، چرا که توصیف کننده جهت و شدت رابطه خطی بین دو متغیر کمی است. در حقیقت این ضریب، نسبت کواریانس به حاصل‌ضرب انحراف معیار دو مجموعه داده است. کواریانس و انحراف معیار به‌صورت زیر تعریف می‌شوند:

  • «کواریانس» (Covariance): نرخ تغییرات دو متغیر را در مقایسه با هم توصیف می‌کند.
  • «انحراف معیار‌» (Standard Deviation) یا σ: نوعی شاخص پراکندگی است که نشان می‌دهد فاصله داده‌ها از مقدار میانگین چقدر است.
تصویری از یک توزیع نرمال و میانگین و انحراف معیار در آن
مفهوم انحراف معیار و میانگین

تعریف بالا همان مفهوم گشتاور حاصل‌ضرب است که به آن اشاره شد. در واقع، اگر بخواهیم تعریف دقیق‌تری از ضریب همبستگی پیرسون ارائه دهیم، لازم است ابتدا ببینیم داده‌های ما مربوط به یک نمونه هستند یا یک جمعیت. البته در نهایت، تفاوت فرمول ضریب همبستگی پیرسون برای این دو حالت فقط در نمادها و ورودی‌ها است. برای مثال ضریب همبستگی پیرسون جمعیت با ρ نشان داده می‌شود، در حالی که برای نمایش ضریب همبستگی پیرسون نمونه حرف r بکار می‌رود. در ادامه این دو وضعیت را توضیح خواهیم داد.

مقدمات یادگیری ضریب همبستگی با فرادرس

پس از اینکه با کلیات ضریب همبستگی پیرسون آشنا شدیم، در این بخش قصد داریم چند دوره آموزشی با مباحث آمار و احتمال در مقطع متوسطه از مجموعه فرادرس را به شما معرفی کنیم. مشاهده این فیلم‌های آموزشی به شما کمک می‌کند تا بهتر متوجه شوید مفهوم ضریب همبستگی پیرسون چیست. همچنین با یادگیری چند پارامتر آماری مهم مانند میانگین، انحراف معیار و واریانس به انجام محاسبات با کمک فرمول ضریب همبستگی پیرسون تسلط بیشتری خواهید داشت.

تصویری از مجموعه آموزش ریاضی متوسطه دوم در فرادرس
برای دسترسی به مجموعه فیلم آموزش ریاضی متوسطه دوم در فرادرس، روی تصویر کلیک کنید.

چنانچه در رشته‌های ریاضی یا علوم تجربی مشغول به تحصیل در مقطع متوسطه هستید، می‌توانید فیلم‌های آموزشی زیر را با موضوع آمار و احتمال مشاهده کنید:

  1. فیلم آموزش ریاضی دهم تجربی و ریاضی فرادرس
  2. فیلم آموزش ریاضی یازدهم تجربی فرادرس
  3. فیلم آموزش ریاضی دوازدهم تجربی فرادرس
  4. فیلم آموزش آمار و احتمال پایه یازدهم فرادرس

اما اگر دانش‌آموز رشته علوم انسانی هستید، فیلم‌های آموزشی زیر به شما در یادگیری مفاهیمی مانند آمار توصیفی، احتمال و توزیع‌های احتمالاتی کمک می‌کنند:

  1. فیلم آموزش ریاضی و آمار دهم انسانی فرادرس
  2. فیلم آموزش ریاضی و آمار دهم حل سوالات کنکور فرادرس
  3. فیلم آموزش ریاضی و آمار دوازدهم انسانی فرادرس
  4. فیلم آموزش ریاضی و آمار دوازدهم حل سوالات کنکور فرادرس

ضریب همبستگی پیرسون برای جمعیت

اگر از ضریب همبستگی پیرسون در مورد یک جمعیت استفاده کنیم، در این صورت برای نشان دادن آن از حرف یونایی ρ استفاده می‌شود. معمولا ضریب همبستگی جمعیت، ضریب همبستگی پیرسون جمعیت نیز نامیده می‌شود. جفت متغیر تصادفی (X,Y)(X,Y) را در نظر بگیرید، در این صورت فرمول ضریب همبستگی پیرسون جمعیت خواهد شد:

ρX,Y=cov(X,Y)σXσY\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}

که در آن cov نشان‌دهنده کواریانس، ‎σX انحراف معیار متغیر X و ‎σY انحراف معیار متغیر Y است.

در ادامه می‌توانیم از فرمول کواریانس که بر حسب مقدار میانگین (μ) و مقدار انتظاری یا امید ریاضی (E) است، استفاده کنیم:

cov(X,Y)=E[(XμX)(YμY)]cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]

در رابطه بالا μX و μY به‌ترتیب معادل مقادیر میانگین روی متغیرهای X و Y هستند. اگر به خاطر داشته باشید، امید ریاضی برای یک مجموعه داده گسسته برابر می‌شود با مجموع حاصل‌ضرب احتمال وقوع هر حالت در مقدار آن. بنابراین ضریب همبستگی پیرسون جمعیت برابر خواهد شد با:

ρX,Y=E[(XμX)(YμY)]σXσY\rho_{X,Y}=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X\sigma_Y}

حالا فرض کنید می‌خواهیم فرمول ρ را برای گشتاورهای غیرمرکزی بازنویسی کنیم. در این شرایط خواهیم داشت:

μX=E[X]\mu_X=E[X]

μY=E[Y]\mu_Y=E[Y]

σX2=E[(XE[X])2]=E[X2](E[X])2\sigma^2_X=E[(X-E[X])^2]=E[X^2]-(E[X])^2

σY2=E[(YE[Y])2]=E[Y2](E[Y])2\sigma^2_Y=E[(Y-E[Y])^2]=E[Y^2]-(E[Y])^2

E[(XμX)(YμY)]=E[(XE[X])(YE[Y])]\Rightarrow E[(X-\mu_X)(Y-\mu_Y)]=E[(X-E[X])(Y-E[Y])]

E[(XμX)(YμY)]=E[XY]E[X]E[Y]\Rightarrow E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-E[X]E[Y]

ρX,Y=E[XY]E[X]E[Y]E[X2](E[X])2E[Y2](E[Y])2\Rightarrow \rho_{X,Y}=\frac{E[XY]-E[X]E[Y]}{\sqrt{E[X^2]-(E[X])^2}\sqrt{E[Y^2]-(E[Y])^2}}

دقت کنید این رابطه خیلی شبیه به رابطه‌ای است که در ابتدای نوشته برای ضریب همبستگی پیرسون نمونه معرفی کردیم. اما تفاوت اینجاست که در ضریب همبستگی پیرسون جمعیت، از کواریانس جمعیت بین متغیرها و انحراف معیار‌ جمعیت استفاده می‌شود.

ضریب همبستگی پیرسون برای نمونه

در مورد نمونه، ضریب همبستگی پیرسون نمونه یا ضریب همبستگی نمونه داریم که با rxy یا r نشان داده می‌شود. پیش از اینکه به بررسی این موضوع بپردازیم، پیشنهاد می‌کنیم فیلم آموزشی رگرسیون خطی فرادرس را مشاهده کنید. یادگیری رگرسیون‌ خطی و غیرخطی به شما کمک می‌کند رابطه بین داده‌ها را بهتر تشخیص دهید و در نتیجه ضریب همبستگی مناسبی را برای بررسی و محاسبه انتخاب کنید. لینک این دوره در ادامه قرار داده شده است:

تصویری از دو گروه جامعه
مفهوم جمعیت و نمونه

اگر n جفت داده‌ به‌صورت مجموعه‌ای از Xها و Yها داشته باشیم، در این صورت rxy برابر است با:

rxy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r_{xy}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n (y_i-\bar{y})^2}}

که در آن n اندازه نمونه، xi و yi نقاط داده‌ای هستند که با اندیس i مشخص شده‌اند. در رابطه بالا، xˉ\bar{x} یا همتای آن یعنی yˉ\bar{y} برابر هستند با میانگین نمونه که با فرمول‌های زیر محاسبه می‌شوند:

xˉ=1ni=1nxi\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i

yˉ=1ni=1nyi\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i

اگر رابطه بالا را کمی ساده‌تر کنیم، می‌توان آن را به شکل زیر بازنویسی کرد:

rxy=i=1nxiyinxˉyˉi=1nxi2nxˉ2i=1nyi2nyˉ2r_{xy}=\frac{\sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}}{\sqrt{\sum_{i=1}^n x_i^2-n\bar{x}^2}\sqrt{\sum_{i=1}^n y_i^2-n\bar{y}^2}}

rxy=nxiyixiyinxi2(xi)2nyi2(yi)2\Rightarrow r_{xy}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{\sqrt{n\sum x_i^2-(\sum x_i)^2}\sqrt{n\sum y_i^2-(\sum y_i)^2}}

این فرمول همان فرمولی است که در این مطلب برای ضریب همبستگی پیرسون معرفی کردیم و در بخش‌های بعدی با حل مثال، یاد می‌گیرید که چگونه با آن کار کنید.

انواع همبستگی چیست؟

در بخش‌‌های قبل تا حدی متوجه شدیم که ضریب همبستگی پیرسون چیست و گفتیم مقدار این ضریب همواره در بازه ۱- تا ۱ قرار می‌گیرد. اگر این بازه را به دو قسمت ۱ تا ۰ و ۰ تا ۱- تقسیم کنیم، برای هر بخش می‌توانیم نوع همبستگی مشخصی تعریف کنیم.

سه نمودار نقطه‌ای در یک زمینه روشن همراه با خطی که فیت با داده‌ها رسم شده است.
انواع همبستگی (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

بر این اساس، سه نوع همبستگی به‌صورت زیر هستند:

  • همبستگی مثبت
  • همبستگی صفر
  • همبستگی منفی
انواع همبستگیهمبستگی مثبتهمبستگی نداریمهمبستگی منفی
مقدار r0<r<10 < r < 1 00 1<r<0-1 < r <0
نتیجهتغییرات متغیرها هم‌جهت است.متغیرها هیچ رابطه‌ای با هم ندارند.تغییرات متغیرها در خلاف جهت هم است.

در ادامه انواع همبستگی را معرفی می‌کنیم و با بیان مثال و تحلیل هر نوع، به شما کمک می‌کنیم تا با مفهوم همبستگی بیشتر آشنا شوید.

همبستگی مثبت چیست؟

در این بخش یاد می‌گیریم رابطه بین همبستگی مثبت و ضریب همبستگی پیرسون چیست. اگر مقدار r در بازه عددی ۰ تا ۱ قرار بگیرد، در این صورت می‌گوییم همبستگی مثبت است. همبستگی مثبت به این معنا است که با تغییر یک متغیر، متغیر دیگر هم در همان راستا تغییر می‌کند.

برای مثال رابطه بین دو متغیر وزن و قد یک نوزاد را در نظر بگیرید. هر چه قد نوزاد بیشتر باشد، احتمالا وزن بیشتری هم دارد. بنابراین جهت تغییرات این دو متغیر با هم یکی است و این مسئله نشان‌ دهنده همبستگی مثبت است.

همبستگی صفر چیست؟

حالا می‌خواهیم ببینیم مفهوم صفر شدن ضریب همبستگی پیرسون چیست. در تقسیم‌بندی بازه عددی ممکن برای ضریب همبستگی پیرسون گفتیم دو بازه در نظر می‌گیریم که شامل اعداد مثبت از صفر تا یک و اعداد منفی از صفر تا منفی یک می‌شوند.

اما اگر مقدار r صفر شود، چه نوع همبستگی داریم؟ در این شرایط همبستگی نداریم. پس همبستگی صفر معادل r = ۰ است و به معنای نداشتن همبستگی است. در چنین شرایطی هیچ نوع رابطه‌ای بین متغیرها وجود ندارد. برای مثال بین قیمت یک خودرو و عرض برف‌ پاک‌کن‌های آن هیچ ارتباطی وجود ندارد. بنابراین در این نمونه ضریب همبستگی پیرسون برابر با صفر است.

همبستگی منفی چیست؟

در سومین نوع همبستگی یاد می‌گیریم مفهوم منفی شدن ضریب همبستگی پیرسون چیست. اگر مقدار r در بازه ۰ تا ۱- قرار بگیرد، در این صورت همبستگی منفی است. در نتیجه انتظار داریم با تغییر یک متغیر، متغیر دیگر در جهت مخالف تغییر کند.

برای نمونه رابطه ارتفاع و فشار هوا را در نظر بگیرید. می‌دانیم با افزایش ارتفاع، فشار هوا کم می‌شود. بنابراین رابطه این دو متغیر عکس هم است یا می‌توانیم بگوییم در جهت‌های مخالف هم رشد می‌کنند. پس در این مثال همبستگی منفی است.

اندازه اثر چیست؟

در بخش قبل آموختیم انواع همبستگی چیست و چگونه جهت ارتباط دو متغیر با توجه به نوع همبستگی مشخص می‌شود. در این قسمت بازه‌ عددی مجاز برای ضریب همبستگی پیرسون را به بخش‌های بیشتری تقسیم می‌کنیم تا ببینیم چه ارتباطی بین مقدار ضریب r و شدت یا قدرت همبستگی وجود دارد. میزان قوی بودن همبستگی با پارامتری به نام اندازه اثر یا Effect Size مشخص می‌شود.

مقدار ضریب همبستگی پیرسون (r) شدت همبستگیجهت همبستگی
r=1 r =1کاملهمبستگی مثبت
0.5<r<10.5 < r < 1 قویهمبستگی مثبت
0.3<r<0.50.3 < r < 0.5 متوسطهمبستگی مثبت
0<r<0.30 < r < 0.3 ضعیفهمبستگی مثبت
00 صفرهمبستگی نداریم.
0.3<r<0-0.3 < r < 0ضعیفهمبستگی منفی
0.5<r<0.3-0.5 < r < -0.3متوسطهمبستگی منفی
1<r<0.5-1 < r < -0.5قویهمبستگی منفی
r=1 r =-1کاملهمبستگی منفی

در جدول بالا مشخص کرده‌ایم چگونه با توجه به مقادیر مختلف r می‌توانیم مشخص کنیم جهت و قدرت همبستگی به چه صورت است. بنابراین ضریب همبستگی پیرسون علاوه بر ایکه موضوع آمار توصیفی است، در شاخه آمار استنباطی نیز قرار می‌گیرد و در نتیجه می‌توان با محاسبه این کمیت، فرضیات آماری مختلف را آزمود.

اثر ضریب همبستگی پیرسون در نمودار

در بخش‌های قبل آموختیم رابطه بین جهت و شدت همبستگی با مقدار ضریب همبستگی پیرسون چیست. در این بخش قصد داریم توضیح دهیم اثر این ضریب روی نمودار نقطه‌ای رسم شده بر اساس داده‌هایمان چگونه است. از مبحث رگرسیون خطی می‌دانیم زمانی که می‌خواهیم رابطه بین متغیرها را بررسی کنیم، سعی می‌کنیم بهترین و مناسب‌ترین خط مستقیمی که با داده‌هایمان فیت شده است، رسم کنیم. این خط، «خط رگرسیون» (Regression Line) نام دارد. اگر علاقه‌مند به کسب اطلاعات بیشتر و حل مثال‌ در مورد رگرسیون هستید، پیشنهاد می‌کنیم مطلب «رگرسیون چیست؟ – توضیح به زبان ساده» از مجله فرادرس را مطالعه کنید.

دو نمودار خطی و نقاطی که با این خطوط فیت شده‌اند.
همبستگی کامل (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

با نگاه کردن به نمودار نقطه‌ای و خط رگرسیون باید بتوانیم حدس بزنیم همبستگی به چه صورت است. هر چه مشاهدات ما به این خط رگرسیون رسم شده نزدیک‌تر باشند، همبستگی قوی‌تر و در نتیجه مقدار ضریب همبستگی پیرسون بیشتر است. یکی دیگر از نکاتی که با نگاه کردن به خط رگرسیون می‌توانیم نتیجه‌گیری کنیم این است که اگر شیب این خط منفی باشد، مقدار r هم منفی است و اگر شیب مثبت باشد، مقدار r نیز مثبت است. همچنین در شرایطی که مقدار r کاملا با ۱- یا ۱ برابر شود، تمام نقاط مشاهدات ما کاملا روی خط رگرسیون قرار می‌گیرند و شرایط همبستگی کامل برقرار است.

دو نمودار نقطه‌ای
همبستگی قوی (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

برای مثال در شکل بالا مشاهده می‌کنید که اگر مقدار r از ۰٫۵ بزرگتر یا از ۰٫۵- کمتر باشد، نقاط روی نمودار که معادل همان مشاهدات ما است، به خط رگرسیون خیلی نزدیک هستند، اما برخلاف حالت همبستگی کامل، دقیقا روی خط قرار نمی‌گیرند. در این شرایط همبستگی قوی داریم، اما کامل نیست. اگر مقدار r بین ۰ و ۰٫۳ یا بین ۰٫۳- و ۰ قرار داشته باشد، نقاط داده از خط رگرسیون دور هستند (شکل زیر). در این حالت همبستگی ضعیف است.

تصویری از دو نمودار نقطه‌ای و خطوطی که داده‌ها را فیت کرده است.
همبستگی ضعیف (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

در نهایت زمانی که همبستگی وجود نداشته باشد، پراکندگی داده‌ها در نمودار نقطه‌ای شکلی شبیه تصویر زیر خواهد داشت. در این شرایط مقدار ضریب همبستگی پیرسون یا r برابر با صفر است.

نموداری از نقاط مختلف یا داده‌های نقطه‌ای
ضریب همبستگی صفر (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

چه زمانی باید از ضریب همبستگی پیرسون استفاده کنیم؟

ضریب همبستگی پیرسون یکی از ابزارهایی است که جهت اندازه‌گیری همبستگی می‌توانید از بین انواع ضرایب همبستگی دیگر انتخاب کنید. در بخش‌های بعد توضیح می‌دهیم انواع ضرایب همبستگی چه هستند تا بهتر درک کنید که تفاوت سایر ضرایب با ضریب همبستگی پیرسون چیست. اما برای اینکه بتوانید از این ضریب استفاده کنید، لازم است شرایطی برقرار باشد که عبارت‌اند از:

  • هر دو متغیر ما کمی هستند.
  • نحوه توزیع متغیرها نرمال است.
  • «داده‌های پرت» (Outliers) کمی داریم.
  • نوع ارتباط بین متغیرها خطی است.

دقت کنید کاربرد ضریب همبستگی پیرسون زمانی مجاز است که تمام شروط بالا برقرار باشند. در ادامه هر کدام از این موارد را به‌صورت مختصر توضیح می‌دهیم.

دو نفر در حال تلاش برای نگه داشتن خطوط روی نمودار هستند.

کمی بودن متغیرها

می‌خواهیم ببینیم اولین شرط استفاده از ضریب همبستگی پیرسون چیست. کمی بودن متغیرها به این معنا است که هر دو متغیر مورد بررسی در مسئله ما باید کمی باشند و حتی اگر یکی از دو متغیر کیفی باشد، باید روش دیگری برای بررسی همبستگی داده‌های خود انتخاب کنیم. بنابراین در اولین قدم باید بتوانیم نوع متغیرها را به‌درستی تشخیص دهیم.

توزیع نرمال متغیرها

پس از بررسی اولین شرط، می‌خواهیم ببینیم دومین شرط استفاده از ضریب همبستگی پیرسون چیست. برای اینکه بتوانیم تشخیص دهیم آیا توزیع داده‌های ما نرمال است یا نه، کافی است هیستوگرام هر متغیر را رسم کنیم. البته در اینجا منظورمان از توزیع نرمال، داشتن یک توزیع دقیقا نرمال نیست. اگر نرمال بودن با تقریب هم برقرار باشد، شرط دوم را داریم.

ناچیز بودن داده‌های پرت

سومین شرط این است که داده پرت نداشته باشیم یا اگر داریم، تعداد خیلی کمی باشند. داده پرت به هر داده‌ای گفته می‌شود که از روند یا الگوی سایر داده‌ها پیروی نمی‌کند. برای تشخیص داده‌های پرت، باید نمودار نقطه‌‌ای داده‌های خود را رسم کنیم و هر نقطه‌ای که در مقایسه با سایر نقاط در مکان دورتری قرار داشت را به‌عنوان داده پرت در نظر بگیریم.

خطی بودن رابطه بین متغیرها

رابطه خطی بین متغیرها به این معنا است که بتوانیم ارتباط بین داده‌های خود را توسط یک خط مستقیم توصیف کنیم. برای اینکه مشخص شود آیا رابطه بین داده‌های ما خطی است یا نه، اولین قدم رسم نمودار نقطه‌ای است.

دو نمونه نمودار نقطه‌ای با رنگ سبز
ارتباط غیرخطی داده‌ها (سمت راست) در مقابل ارتباط خطی داده‌ها (سمت چپ)

فرمول ضریب همبستگی پیرسون چیست؟

در این بخش یاد می‌گیریم روش محاسبه ضریب همبستگی پیرسون چیست. فرمول ضریب همبستگی پیرسون به شکل زیر است:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

که در آن r ضریب همبستگی پیرسون، x مقادیر اولین مجموعه داده‌های ما، y مقادیر دومین مجموعه داده‌های ما و n تعداد کل مقادیر یا اندازه نمونه ما است. اگر طبق مثال‌ بخش بعد قدم به قدم مقادیر مختلف را محاسبه کنید، کار کردن با این فرمول بسیار راحت است. همچنین می‌توانید برای محاسبه مقدار r از نرم‌افزارهایی مانند آر (R) یا اکسل (Microsoft Excel) نیز استفاده کنید.

برای مثال در R کافی است از تابع ()cor استفاده کنید تا ضریب همبستگی پیرسون را برای شما محاسبه کند. در اکسل تابع ()PEARSON این ضریب را به شما می‌دهد، به این صورت که اگر داده‌های خود را در دو ستون A و B قرار داده باشید، با کلیک در یک سلول خالی و نوشتن فرمول (A:A,B:B)PEARSON ضریب r به‌دست می‌آید.

یک نکته مهم در مورد به‌دست آوردن ضریب همبستگی پیرسون با این فرمول این است که مهم نیست کدام یک از متغیرهای خود را x و کدام را y در نظر بگیرید. در نهایت جواب با هر کدام از این فرضیات، یکسان خواهد بود. این در حالی است که اگر خاطرتان باشد، برای به‌دست آوردن معادله خط رگرسیون این مسئله مهم است و باید متغیر مستقل را x و متغیر وابسته را y در نظر می‌گرفتیم. بنابراین اگر خط رگرسیون هم جزء محاسبات شما هست، بهتر است از ابتدا متغیر وابسته و مستقل خود را مشخص کنید. اما در شرایطی که فقط می‌خواهید مقدار r را پیدا کنید، نوع متغیر مهم نیست.

مراحل محاسبه ضریب همبستگی پیرسون

فرض کنید شخصی می‌خواهد رابطه بین وزن نوزادان تازه متولد شده با قد آن‌ها را مطالعه کند. به همین دلیل مشخصات ۱۰ نوزاد را در جدولی به شکل زیر جمع‌آوری می‌کند. می‌خواهیم ببینیم مقدار ضریب همبستگی پیرسون چیست و چه اطلاعاتی به ما می‌دهد.

قد (cm)وزن (kg)
53.153.13.633.63
49.749.73.023.02
48.448.43.823.82
54.254.23.423.42
54.954.93.593.59
43.743.72.872.87
47.247.23.033.03
45.245.23.463.46
54.454.43.363.36
50.450.43.33.3

برای محاسبه r قدم به قدم با مراحل زیر پیش می‌رویم:

  • مرحله اول: محاسبه x\sum x و y\sum y
  • مرحله دوم: محاسبه x2\sum x^2 و y2\sum y^2
  • مرحله سوم: محاسبه xy\sum xy
  • مرحله چهارم: قرار دادن مقادیر بالا در فرمول r
کودکی در کلاس درس نشسته است.

مرحله اول

اولین قدم برای اینکه ببینیم در این سوال مقدار ضریب همبستگی پیرسون چیست، محاسبه مقادیر x\sum x و y\sum y است. اگر وزن نوزاد با x و قد با y مشخص شود، در این صورت خواهیم داشت:

x=3.63+3.02+3.82+3.42+3.59+2.87+3.03+3.46+3.36+3.30=33.5\sum x=3.63+3.02+3.82+3.42+3.59+2.87+3.03+3.46+3.36+3.30=33.5

y=53.1+49.7+48.4+54.2+54.9+43.7+47.2+45.2+54.4+50.4=501.2\sum y=53.1+49.7+48.4+54.2+54.9+43.7+47.2+45.2+54.4+50.4=501.2

مرحله دوم

در دومین مرحله برای محاسبه r باید مجموع مقادیر x2 x^2 و y2 y^2 را به‌دست آوریم. برای این مرحله بهتر است جدولی رسم کنیم و توان دوم هر کدام از xها و yها را در این جدول درج کنیم:

وزن (kg) = xx2 x^2قد (cm) = yy2 y^2
3.633.6313.1813.1853.153.12819.62819.6
3.023.029.129.1249.749.72470.12470.1
3.823.8214.5914.5948.448.42342.62342.6
3.423.4211.711.754.254.22937.62937.6
3.593.5912.8912.8954.954.930143014
2.872.878.248.2443.743.71909.71909.7
3.033.039.189.1847.247.22227.82227.8
3.463.4611.9711.9745.245.220432043
3.363.3611.2911.2954.454.42959.42959.4
3.33.310.8910.8950.450.42540.22540.2

حالا مجموع مقادیر ستون‌های x2 x^2 و y2 y^2 را به‌دست می‌آوریم:

x2=113.05\sum x^2=113.05

y2=25264\sum y^2=25264

مرحله سوم

در این مرحله باید حاصل xy\sum xy را پیدا کنیم. اما قبل از اینکه مجموع مقادیر xy را محاسبه کنیم، لازم است ابتدا حاصل‌ضرب x در y را برای هر مشاهده یا هر نوزاد به‌دست آوریم. مجددا جدولی مشابه جدول بالا رسم می‌کنیم:

وزن (kg) = xقد (cm) = yxy xy
3.633.6353.153.1192.8192.8
3.023.0249.749.7150.1150.1
3.823.8248.448.4184.9184.9
3.423.4254.254.2185.4185.4
3.593.5954.954.9197.1197.1
2.872.8743.743.7125.4125.4
3.033.0347.247.2143143
3.463.4645.245.2156.4156.4
3.363.3654.454.4182.8182.8
3.33.350.450.4166.3166.3

xy=1684.2\sum xy=1684.2

مرحله چهارم

در آخرین مرحله محاسبه می‌کنیم مقدار ضریب همبستگی پیرسون چیست. فقط کافی است اعدادی که در مراحل قبل پیدا کردیم را در فرمول ضریب همبستگی پیرسون قرار دهیم. دقت کنید مقدار n در این مطالعه برابر با ۱۰ است:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

r=(10)(1684.2)(33.5)(501.2)[(10)(113.5)(33.5)2][(10)(25264)(501.2)2]\Rightarrow r=\frac{(10)(1684.2)-(33.5)(501.2)}{\sqrt{[(10)(113.5)-(33.5)^2][(10)(25264)-(501.2)^2]}}

r=0.47\Rightarrow r=0.47

ضریب همبستگی کمتر از ۰٫۵ و بیشتر از ۰٫۳ شد. بنابراین طبق آنچه که در بخش‌های قبل گفتیم، همبستگی ما متوسط و مثبت است. مثبت بودن همبستگی به این معنا است که رابطه بین دو متغیر قد و وزن نوزاد در یک جهت پیش می‌رود. پس با افزایش قد، وزن نوزاد نیز بیشتر می‌شود. اما دقت داریم که چون همبستگی متوسط است، شدت این رابطه خیلی قوی نیست.

آزمون معناداری ضریب همبستگی پیرسون

پس از اینکه یاد گرفتیم فرمول محاسبه ضریب همبستگی پیرسون چیست و برای محاسبه r لازم است چه مراحلی را طی کنیم، در این قسمت قصد داریم یکی دیگر از کاربردهای ضریب همبستگی پیرسون را بیان کنیم. این ضریب را می‌توان با هدف بررسی اینکه آیا رابطه بین دو متغیر معنادار است یا خیر، بکار برد. در ادامه با استفاده از مثال بخش قبل نشان می‌دهیم چگونه می‌توان این فرآیند را انجام داد.

گفتیم همبستگی پیرسون یک نمونه را با r نشان می‌دهیم، اما r در حقیقت تخمینی از ρ است. ρ همبستگی پیرسون جمعیت است. بنابراین با دانستن r و n (اندازه نمونه)، می‌توانیم استنباط کنیم آیا ρ خیلی با مقدار صفر متفاوت است یا خیر. ابتدا فرضیات آزمون را تعریف می‌کنیم:

  • «فرض صفر» (Null Hypothesis) یا H0: زمانی این فرض برقرار است که ρ=0\rho=0 باشد.
  • «فرض مقابل» (Alternative Hypothesis) یا Ha: زمانی این فرض برقرار است که ρ0\rho\neq0 باشد.

جهت آزمون این فرضیات می‌توانید از نرم‌افزارهایی مانند آر (R) با کاربرد تابع ()cor.test یا استتا (Stata) استفاده کنید، اما اجرای مراحل زیر نیز اطلاعات مشابهی به شما خواهد داد:

  1. مرحله اول: محاسبه t value
  2. مرحله دوم: پیدا کردن مقدار بحرانی t
  3. مرحله سوم: مقایسه t value با مقدار بحرانی t
  4. مرحله چهارم: تصمیم‌گیری در مورد اینکه فرض صفر رد شود یا نه

در ادامه هر مرحله را با توجه به داد‌ه‌هایی که در مثال بخش قبل داشتیم، بررسی می‌کنیم. دقت کنید در اکسل تابع مشخصی برای آزمودن معناداری همبستگی وجود ندارد.

مرحله اول: محاسبه t value

اولین مرحله برای اینکه بهتر متوجه شویم آزمون معناداری ضریب پیرسون چیست و چه اطلاعاتی به ما می‌دهد، محاسبه t value است. برای محاسبه مقدار t می‌توانید از فرمول زیر استفاده کنید:

t=r1r2n2t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}

اگر به مشخصات قد و وزن نوزادان در مثال قبل مجددا بازگردیم، ضریب همبستگی پیرسون برای آن داده‌ها معادل ۰٫۴۷ شد. با توجه به اینکه در آن مثال اندازه نمونه برابر با ۱۰ است، پس می‌توانیم با فرمول بالا t value را پیدا کنیم:

t=0.471(0.47)2102\Rightarrow t=\frac{0.47}{\sqrt{\frac{1-(0.47)^2}{10-2}}}

t=0.4710.228\Rightarrow t=\frac{0.47}{\sqrt{\frac{1-0.22}{8}}}

t=1.506\Rightarrow t=1.506

مرحله دوم: پیدا کردن مقدار بحرانی t

مقدار بحرانی t را با tt^\star نشان می‌دهیم. برای پیدا کردن tt^\star باید به جدول t مراجعه کنیم که برای استفاده از آن، لازم است سه مورد زیر را بدانیم:

  • درجات آزادی یا df: در مورد آزمون‌های همبستگی پیرسون فرمول درجات آزادی به‌صورت df=n2df=n-2 است.
  • سطح معناداری یا α: طبق قرارداد سطح معناداری معمولا برابر با ۰٫۰۵ است.
  • یک طرفه یا دو طرفه بودن: عموما دو طرفه بودن انتخاب مناسبی برای همبستگی‌ها است.

بنابراین در مورد مثال قد و وزن، با در نظر گرفتن دو طرفه بودن شرایط به‌صورت زیر خواهد شد:

n=10df=102=8n=10 \Rightarrow df=10-2=8

α=0.05\alpha=0.05

مقادیر مختلف در یک جدول برای نمایش مقدارهای بحرانی و توضیح ضریب پیرسون
برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

طبق تصویر بالا که از بخشی از یک جدول t در مورد آزمون‌های فرضیه دو طرفه تهیه شده است، با در نظر گرفتن شرایط بالا، مقدار بحرانی t برابر می‌شود با ۲٫۳۰۶.

مرحله سوم: مقایسه t value با مقدار بحرانی t

در این مرحله فقط کافی است مقدار مطلق t به‌دست آمده در مرحله اول را با t بحرانی حاصل از مرحله قبل مقایسه کنید. دقت کنید منظورمان از مقدار مطلق t این است که اگر در محاسبه t value عدد منفی به‌دست آوردید، علامت منفی را در این مقایسه در نظر نگیرید. همان‌طور که مشاهده می‌کنید، در مثال مورد بررسی ما، t value از tt^\star کمتر است:

t=1.506t=1.506

t=2.306t^\star=2.306

t<t\Rightarrow t < t^\star

مرحله چهارم: تصمیم‌گیری در مورد اینکه فرض صفر رد شود یا نه

در انتها می‌خواهیم ببینیم آخرین مرحله از آزمون معناداری ضریب همبستگی پیرسون چیست. در این گام به یکی از این دو نتیجه می‌رسیم:

  • اگر مقدار t value از مقدار بحرانی t بیشتر شد، در این صورت رابطه بین داده‌ها از نظر آماری معنادار است، یعنی داریم p<αp < \alpha.
  • اگر مقدار t value از مقدار بحرانی t کمتر شد، در این صورت رابطه بین داده‌ها از نظر آماری معنادار نیست، یعنی داریم α<p\alpha < p.

دقت کنید در روابط بالا p به معنای مقدار احتمال یا p value است که نباید با ρ اشتباه شود. رسیدن به معناداری نشان می‌دهد داده‌های ما فرض صفر را رد کرده و فرض مقابل را پشتیبانی می‌کنند. اما اگر به معناداری نرسیدیم و مقدار بحرانی t از t value بیشتر شد، در این حالت داده‌های ما نه‌تنها اجازه رد فرض صفر را نمی‌دهند، بلکه فرض مقابل را هم پشتیبانی نمی‌کنند.

در مثال قد و وزن، شرایط دوم برقرار است، یعنی رابطه بین داده‌های ما از نظر آماری معنادار نیست. بنابراین فرض صفر را رد نمی‌کنیم، به این معنا که ضریب همبستگی پیرسون جمعیت یا ρ ممکن است صفر باشد. همچنین رابطه معناداری بین قد و وزن وجود ندارد و داریم 0.05<p0.05 < p. البته در این مثال باید دقت کنید که اندازه نمونه ۱۰ اندازه بسیار کوچکی برای بررسی همبستگی در این سطح است. بنابراین ممکن است با افزایش اندازه نمونه، به معناداری رابطه بین قد و وزن دست پیدا کنید.

مثال ضریب همبستگی پیرسون

پس از اینکه متوجه شدید فرمول و مراحل محاسبه ضریب همبستگی پیرسون چیست و چگونه می‌توانیم معناداری همبستگی را بررسی کنیم، در این بخش با حل چند سوال نحوه استفاده از فرمول‌ بالا را تمرین می‌کنیم تا کاملا به این مبحث مسلط شوید.

مثال ۱

طبق بررسی زیر در یک شهر، رابطه بین سن و درآمد اشخاص به‌صورت جدول زیر است. بررسی کنید که آیا با افزایش سن، درآمد اشخاص نیز زیاد می‌شود یا خیر؟

سندرآمد
25253000030000
30304400044000
36365200052000
43437000070000

پاسخ

در مسائل این چنینی که با اعداد بزرگی مانند میزان درآمد مواجه‌ایم، برای اینکه محاسبات آسان‌تری داشته باشیم، می‌توانیم این اعداد را بر ۱۰۰۰ تقسیم کنیم. بنابراین با در نظر گرفتن این نکته و انتخاب متغیر x به‌عنوان سن و متغیر y به‌عنوان میزان درآمد تقسیم بر ۱۰۰۰، مراحل محاسبه را پیش ‌می‌بریم. در اولین مرحله مجموع مقادیر x و y را پیدا می‌کنیم:

x=25+30+36+43=134\sum x=25+30+36+43=134

y=30+44+52+70=196\sum y=30+44+52+70=196

در دومین مرحله برای محاسبه r باید مجموع مقادیر x2 x^2 و y2 y^2 را به‌دست آوریم. طبق جدول زیر پیش می‌رویم:

سن = xx2 x^2۱/۱۰۰۰ درآمد = yy2 y^2
25256256253030900900
3030900900444419361936
363612961296525227042704
434318491849707049004900

حالا مجموع مقادیر ستون‌های x2 x^2 و y2 y^2 را به‌دست می‌آوریم:

x2=4670\sum x^2=4670

y2=10440\sum y^2=10440

سپس باید حاصل xy\sum xy را پیدا کنیم. اما قبل از اینکه مجموع مقادیر xy را محاسبه کنیم، لازم است ابتدا حاصل‌ضرب x در y را برای هر مشاهده به‌دست آوریم. بنابراین مجددا جدولی مشابه جدول بالا رسم می‌کنیم:

سن = x۱/۱۰۰۰ درآمد = yxy xy
25253030750750
3030444413201320
3636525218721872
4343707030103010

xy=6952\sum xy=6952

در نهایت اعدادی که در مراحل قبل پیدا کردیم را در فرمول ضریب همبستگی پیرسون قرار می‌دهیم. دقت کنید مقدار n در این مطالعه برابر با ۴ است:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

r=(4)(6952)(134)(196)[(4)(4670)(134)2][(4)(10440)(196)2]\Rightarrow r=\frac{(4)(6952)-(134)(196)}{\sqrt{[(4)(4670)-(134)^2][(4)(10440)-(196)^2]}}

r=2780826264[1868017956][4176038416]=1544[724][3344]=0.99\Rightarrow r=\frac{27808-26264}{\sqrt{[18680-17956][41760-38416]}}=\frac{1544}{\sqrt{[724][3344]}}=0.99

ضریب همبستگی بسیار به یک نزدیک شد. این مقدار r نشان می‌دهد که همبستگی ما قوی و مثبت است. مثبت بودن همبستگی به این معنا است که رابطه بین دو متغیر سن و درآمد اشخاص در این مثال در یک جهت پیش می‌رود و با افزایش سن، درآمد هم بیشتر می‌شود. چون همبستگی قوی است، می‌توانیم با اطمینان بیشتری در مورد چنین ارتباطی صحبت کنیم.

مثال ۲

نمرات ریاضی و هندسه ۵ دانش‌آموز به شرح زیر است:

ریاضیهندسه
16161111
15151818
12121010
10102020
881717

نشان دهید که همبستگی این داده‌ها متوسط و منفی است.

پاسخ

برای اینکه بتوانیم تعیین کنیم نوع همبستگی به چه صورت است، باید ضریب همبستگی پیرسون یا r را محاسبه کنیم. سپس با توجه به اندازه و علامت این ضریب در مورد نوع همبستگی می‌توانیم نظر دهیم. برای محاسبه r مطابق مثال قبل عمل می‌کنیم. در این سوال نمرات ریاضی را متغیر x و نمرات هندسه را متغیر y در نظر می‌گیریم و جدولی به شکل زیر رسم می‌کنیم:

ریاضی = xx2 x^2هندسه = yy2 y^2
16162562561111121121
15152252251818324324
12121441441010100100
10101001002020400400
8864641717289289
sumx=61sum x=61sumx2=789sum x^2=789sumy=76sum y=76sumy2=1234sum y^2=1234

پس اغلب مقادیر لازم برای فرمول ضریب همبستگی پیرسون در جدول بالا محاسبه شد. فقط باید xy xy و مجموع آن را حساب کنیم:

ریاضی = xهندسه = yxy xy
16161111176176
15151818270270
12121010120120
10102020200200
881717136136
sumx=61sum x=61sumy=76sum y=76sumxy=902sum xy=902

بنابراین کافی است در آخرین مرحله فرمول r را بنویسیم:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

با توجه به اینکه n = ۵ است، حاصل برابر است با:

r=(5)(902)(61)(76)[(5)(789)(61)2][(5)(1234)(76)2]=0.424r=\frac{(5)(902)-(61)(76)}{\sqrt{[(5)(789)-(61)^2][(5)(1234)-(76)^2]}}=-0.424

همان‌طور که مشاهده می‌کنید، علامت ضریب همبستگی پیرسون منفی شد. بنابراین همبستگی منفی است، به این معنا که اگر نمرات ریاضی زیاد شوند، نمرات هندسه کم می‌شوند و برعکس. همچنین مقدار این ضریب بین ۰٫۳ و ۰٫۵ قرار دارد که طبق جدول بخش‌های ابتدایی این مطلب، همبستگی این سوال متوسط است.

مثال ۳

معنادار بودن همبستگی در داده‌های زیر را تعیین کنید:

x=10,13,15,17,19x=10,13,15,17,19

y=5,10,15,20,25y=5,10,15,20,25

پاسخ

اگر خاطرتان باشد، گفتیم برای تعیین معناداری همبستگی باید از آزمون معناداری ضریب همستگی پیرسون استفاده کنیم. این آزمون چهار مرحله داشت که در اولین مرحله آن لازم است t value محاسبه شود. فرمول مقدار t به شکل زیر است:

t=r1r2n2t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}

 که در آن n اندازه نمونه است که در اینجا برابر می‌شود با ۵ و r هم که ضریب همبستگی پیرسون است. پس برای محاسبه t در اولین مرحله آزمون معناداری نیاز داریم اول مقدار r را بدانیم. برای محاسبه r مانند مثال‌های قبل از فرمول زیر استفاده می‌کنیم:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

همچنین جدول مقادیر خود را رسم کرده و حاصل هر ستون را به‌دست می‌آوریم:

 xx2 x^2yy2 y^2
1010100100552525
13131691691010100100
15152252251515225225
17172892892020400400
19193623622525625625
sumx=74sum x=74sumx2=1144sum x^2=1144sumy=75sum y=75sumy2=1375sum y^2=1375

در مرحله بعدی مقادیر حاصل‌جمع xy را باید به‌دست آوریم:

 xyxy xy
1010555050
13131010130130
15151515225225
17172020340340
19192525475475
sumx=74sum x=74sumy=75sum y=75sumxy=1103sum xy=1103

حالا با قرار دادن مقادیر بالا در فرمول r خواهیم داشت:

r=5(1103)(74)(75)[5(1144)74)2][5(1375)(75)2]\Rightarrow r=\frac{5(1103)-(74)(75)}{\sqrt{[5(1144)-74)^2][5(1375)-(75)^2]}}

r=35[244][1250]\Rightarrow r=\frac{-35}{\sqrt{[244][1250]}}

r=35552.26=0.0633\Rightarrow r=\frac{-35}{552.26}=-0.0633

پس مقدار r تعیین شد که نشان‌دهنده همبستگی منفی و ضعیفی است (چون r بین ۰ و ۰٫۳- قرار دارد). حالا می‌توانیم برویم سراغ فرمول t value:

t=0.061(0.06)252\Rightarrow t=\frac{0.06}{\sqrt{\frac{1-(0.06)^2}{5-2}}}

دقت کنید نوشتن دو رقم بعد از اعشار در محاسبات برای مقدار r کافی است. همچنین درج علامت منفی r برای این مرحله ضرورتی ندارد:

t=0.060.99643=0.060.57=0.10\Rightarrow t=\frac{0.06}{\sqrt{\frac{0.9964}{3}}}=\frac{0.06}{0.57}=0.10

مقدار t به‌دست آمد. مرحله بعدی تعیین مقدار t بحرانی یا tt^\star است که گفتیم روند زیر را باید برای انتخاب این مقدار طی کنیم:

  • استفاده از فرمول درجات آزادی به‌صورت df=n2df=n-2 که درجه آزادی df=52=3df=5-2=3 به ما می‌دهد.
  • سطح معناداری یا α که طبق قرارداد گفتیم سطح معناداری برابر با ۰٫۰۵ در نظر گرفته می‌شود.
  • همچنین گفتیم در مورد همبستگی‌ها آزمون دو طرفه است.

حالا اگر به جدول مناسب آزمون دو طرفه t مراجعه کنیم، طبق شکل زیر مقدار t بحرانی با درجه آزادی ۳ و سطح معناداری ۰٫۰۵ برابر می‌شود با ۳٫‍۱۸. پس اگر t را با t بحرانی مقایسه کنیم، مشخصا مقدار tt^\star خیلی از t بزرگتر است. گفتیم اگر مقدار t value از مقدار بحرانی t کمتر شد، در این صورت رابطه بین داده‌ها از نظر آماری معنادار نیست.

مقادیر مختلف در یک جدول برای نمایش مقدارهای بحرانی و توضیح ضریب پیرسون
برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

مثال ۴

فرض کنید مقادیر ضریب همبستگی پیرسون برای چند مطالعه به‌صورت زیر است. نوع همبستگی را برای هر کدام مشخص کنید:

0.69,0.42,0.23,0.990.69, 0.42, -0.23, -0.99

پاسخ

  • ضریب همبستگی پیرسون ۰٫۶۹ مثبت و بزرگتر از ۰٫۵ است. بنابراین همبستگی قوی و مثبت می‌دهد.
  • ضریب همبستگی پیرسون ۰٫۴۲ مثبت و کوچکتر از ۰٫۵ است. بنابراین همبستگی متوسط و مثبت می‌دهد.
  • ضریب همبستگی پیرسون ۰٫۲۳- منفی و بزرگتر از ۰٫۳- است. بنابراین همبستگی ضعیف و منفی می‌دهد.
  • ضریب همبستگی پیرسون ۰٫۹۹- منفی و کوچکتر از ۰٫۵- است. بنابراین همبستگی قوی و منفی می‌دهد.

تمرین ۱

فرض کنید داده‌هایی به شکل زیر دارید، کدام گزینه صحیح نیست؟

x=5,9,14,16x=5,9,14,16

y=6,10,16,20y=6,10,16,20

همبستگی داد‌ه‌های بالا مثبت است.

همبستگی داد‌ه‌های بالا کامل است.

همبستگی داده‌های بالا قوی است.

همبستگی داده‌های بالا قوی و مثبت است.

پاسخ تشریحی

گزینه دوم تنها گزاره اشتباه است. برای اینکه بتوانیم تشخیص دهیم نوع همبستگی و جهت آن چگونه است، باید ضریب همبستگی پیرسون را محاسبه کنیم که فرمول آن به‌صورت زیر است:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

جدول زیر به ما کمک می‌کند تا محاسبات را راحت‌تر پیش ببریم:

 xx2 x^2 yy2 y^2
552525663636
9981811010100100
14141961961616256256
16162562562020400400
sumx=44sum x=44sumx2=558sum x^2=558sumy=52sum y=52sumy2=792sum y^2=792

همچنین لازم است مقادیر حاصل‌ضرب x و y نیز محاسبه شوند و در انتها مجموع این مقادیر نیز محاسبه شود:

 x yxy xy
55663030
9910109090
14141616224224
16162020320320
sumx=44sum x=44sumy=52sum y=52sumxy=664sum xy=664

همچنین مقدار n در این سوال برابر است با ۴. حالا کافی است مقادیر بالا را در فرمول r جای‌گذاری کنیم:

r=(4)(664)(44)(52)[(4)(558)(44)2][(4)(792)(52)2]\Rightarrow r=\frac{(4)(664)-(44)(52)}{\sqrt{[(4)(558)-(44)^2][(4)(792)-(52)^2]}}

r=368[296][464]\Rightarrow r=\frac{368}{\sqrt{[296][464]}}

r=368370.599=0.994\Rightarrow r=\frac{368}{370.599}=0.994

بنابراین مقدار ضریب همبستگی پیرسون در این سوال عددی مثبت و بزرگتر از ۰٫۵ شد. مثبت شدن ضریب به معنای همبستگی مثبت است. اما چون r = ۱ نشده است، پس همبستگی کامل نداریم. اما با توجه به اینکه مقدار r نزدیک به ۱ است، همبستگی قوی است.

تمرین ۲

اگر یک مجموعه داده در مورد ارتباط سن و وزن اشخاص به شکل زیر داشته باشیم، کدام گزینه صحیح است؟

 سن وزن
40409999
25257979
22226969
54548989

با توجه به این داده‌ها، همبستگی رابطه بین سن و وزن افراد معنادار است و همبستگی مثبت و قوی است.

با توجه به این داده‌ها، همبستگی رابطه بین سن و وزن افراد معنادار است و همبستگی منفی و قوی است.

با توجه به این داده‌ها، همبستگی رابطه بین سن و وزن افراد معنادار نیست و همبستگی مثبت و قوی است.

با توجه به این داده‌ها، همبستگی رابطه بین سن و وزن افراد معنادار نیست و همبستگی منفی و قوی است.

پاسخ تشریحی

گزینه سوم صحیح است. برای بررسی معناداری باید از آزمون معناداری ضریب همبستگی پیرسون استفاده کنیم که جهت کاربرد این آزمون اولین مرحله، محاسبه t value است. فرمول مقدار t به شکل زیر است:

t=r1r2n2t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}

 در فرمول بالا n برابر با ۴ است اما مقدار r مشخص نیست و باید محاسبه شود. برای محاسبه r جدول زیر را کامل می‌کنیم:

 x یا سنx2 x^2 y یا وزنy2 y^2
404016001600999998019801
2525625625797962416241
2222484484696947614761
545429162916898979217921
sumx=141sum x=141sumx2=5625sum x^2=5625sumy=336sum y=336sumy2=28724sum y^2=28724

در ادامه محاسبات خود مقادیر xy را باید به‌دست آوریم:

 x یا سن y یا وزنxy xy
4040999939603960
2525797919751975
2222696915181518
5454898948064806
sumx=44sum x=44sumy=336sum y=336sumxy=12259sum xy=12259

پس ضریب همبستگی پیرسون با توجه به اینکه اندازه نمونه برابر است با ۴، خواهد شد:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

r=(4)(12259)(141)(336)[(4)(5625)(141)2][(4)(28724)(336)2]=0.72\Rightarrow r=\frac{(4)(12259)-(141)(336)}{\sqrt{[(4)(5625)-(141)^2][(4)(28724)-(336)^2]}}=0.72

مقدار r بین ۰٫۵ و ۱ شد، بنابراین همبستگی مثبت و قوی است. پس تا اینجا می‌توانیم دو گزینه را حذف کنیم. برای بررسی درستی بخش اول گزینه‌ها، لازم است آزمون معناداری را انجام دهیم که شامل مراحل زیر است:

محاسبه t value
پیدا کردن مقدار بحرانی t به کمک جدول
مقایسه t value با مقدار بحرانی t
تصمیم‌گیری در مورد معناداری

فرمول محاسبه مقدار t به شکل زیر است:

t=r1r2n2t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}

با توجه به اینکه اندازه نمونه برابر با ۴ است و مقدار r برابر با ۰٫۷۲ است، خواهیم داشت:

t=0.721(0.72)242\Rightarrow t=\frac{0.72}{\sqrt{\frac{1-(0.72)^2}{4-2}}}

t=0.7210.512=0.724.94=0.14\Rightarrow t=\frac{0.72}{\sqrt{\frac{1-0.51}{2}}}=\frac{0.72}{4.94}=0.14

حالا اگر مقدار بحرانی t را با tt^\star نشان دهیم، برای پیدا کردن tt^\star باید به جدول t مراجعه کنیم که تصویر آن را در مثال‌های قبل دیدید. با توجه به اینکه فرمول درجات آزادی به‌صورت df=n2df=n-2 است و سطح معناداری یا α طبق قرارداد معمولا برابر با ۰٫۰۵ در نظر گرفته می‌شود و عموما دو طرفه بودن، انتخاب مناسب ما در مورد همبستگی‌ها است، tt^\star برابر است با:

n=4df=42=2n=4 \Rightarrow df=4-2=2

α=0.05\alpha=0.05

t=4.303t^\star=4.303

همان‌طور که مشاهده می‌کنید، t value از tt^\star کمتر است:

t=0.14t=0.14

t=4.303t^\star=4.303

t<t\Rightarrow t < t^\star

می‌دانیم اگر مقدار t value از مقدار بحرانی t بیشتر شد، در این صورت رابطه بین داده‌ها از نظر آماری معنادار است اما اگر مقدار t value از مقدار بحرانی t کمتر شد، در این صورت رابطه بین داده‌ها از نظر آماری معنادار نیست. پس رابطه بین داده‌های ما از نظر آماری معنادار نیست. بنابراین فرض صفر را رد نمی‌کنیم، به این معنا که ضریب همبستگی پیرسون جمعیت یا ρ ممکن است صفر باشد. همچنین رابطه معناداری بین سن و وزن وجود ندارد و داریم 0.05<p0.05 < p.

تفاوت ضریب همبستگی رتبه‌ای اسپیرمن با ضریب همبستگی پیرسون چیست؟

در بخش‌های گذشته یاد گرفتیم ضریب همبستگی پیرسون چیست، چه شرایط اولیه‌ای برای کاربرد آن باید برقرار باشد و مقادیر آن چه ارتباطی با نوع همبستگی داد‌ه‌های ما دارد. در این بخش می‌خواهیم ببینیم این ضریب با ضریب همبستگی دیگری به نام «ضریب همبستگی رتبه‌ای اسپیرمن» (Spearman’s Rank Correlation Coefficients) چه تفاوتی دارد. ضریب همبستگی رتبه‌ای اسپیرمن یکی دیگر از پرکاربردترین پارامترهایی است که در مطالعات همبستگی محاسبه می‌شود. در ادامه شرایطی را بیان می‌کنیم که اگر یکی یا تعداد بیشتری از این شرایط برقرار بودند، بهتر است انتخاب ما به‌جای ضریب همبستگی پیرسون، ضریب همبستگی رتبه‌ای اسپیرمن باشد:

  • متغیرهای ما ترتیبی هستند.
  • نحوه توزیع متغیرها نرمال نیست.
  • داده‌های پرت داریم.
  • نوع ارتباط بین متغیرها غیرخطی و یکنوا است.
تصویری از سه نمودار منحنی شکل نقطه‌ای
ضریب همبستگی اسپیرمن و انواع یکنواختی (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

دقت کنید در آخرین شرط مهم‌ است که علاوه بر خطی نبودن رابطه بین داده‌ها، با رسم نمودار نقطه‌ای منحنی حاصل یکنوا باشد. یعنی هر دو شرط غیرخطی بودن و یکنوا بودن با هم باید درست باشند. در حالی که ضریب همبستگی پیرسون خطی بودن رابطه داده‌ها را اندازه می‌گیرد، ضریب همبستگی اسپیرمن یکنواختی رابطه بین داده‌ها را بررسی می‌کند.

در یک رابطه خطی، هر متغیر در جهت موافق یا مخالف متغیر مقابل خود تغییر می‌کند، اما در رابطه یکنواخت، متغیرها در یک راستا تغییر می‌کنند اما با نرخی متفاوت از دیگری. همین مسئله باعث می‌شود دو نوع یکنواختی داشته باشیم:

  • یکنواختی مثبت: وقتی با افزایش یک متغیر، دیگری هم زیاد شود.
  • یکنواختی منفی: وقتی با افزایش یک متغیر، دیگری کم شود.

انواع ضرایب همبستگی چه هستند؟

برای اینکه بهتر درک کنید تفاوت سایر ضرایب همبستگی با ضریب همبستگی پیرسون چیست، در این بخش می‌خواهیم به‌صورت مختصر انواع ضرایب همبستگی را معرفی کنیم. انتخاب اینکه کدام ضریب برای بررسی داده‌های شما مناسب است، در اولین قدم به این بستگی دارد که نوع ارتباط داده‌های شما خطی است یا غیرخطی. همچنین نحوه توزیع داده‌ها به همراه سطح اندازه‌گیری متغیرها از نظر میزان دقت، موارد دیگری هستند که باید در نظر گرفته شوند.

همان‌طور که تا اینجا متوجه شدید، اگر رابطه بین داده‌های شما خطی است، بهترین انتخاب استفاده از ضریب همبستگی پیرسون است. اما در صورت غیرخطی بودن، ضرایب همبستگی مانند اسپیرمن یا «کندال» (Kendall) به کار می‌آیند. ترجیح این است که برای نمونه‌های کوچکتر، از ضریب کندال و برای نمونه‌های بزرگتر، از ضریب اسپیرمن استفاده شود. جدول زیر انواع ضرایب همبستگی همراه با مشخصات آن‌ها را نشان می‌دهد:

ضریب همبستگینوع رابطه بین داده‌هاسطح اندازه‌گیرینحوه توزیع داده‌ها
پیرسون (r)خطیدو متغیر کمینرمال
اسپیرمن (ρ)غیرخطیدو متغیر ترتیبیهر نوع توزیعی
بیسریال نقطه‌ایخطییک متغیر باینری و یک متغیر کمینرمال
کرامر (V)غیرخطیدو متغیر اسمیهر نوع توزیعی
کندال (τ)غیرخطیدو متغیر ترتیبیهر نوع توزیعی

چند نکته در مورد ضریب همبستگی پیرسون

در این قسمت توضیح می‌دهیم چنانچه مقاله‌ یا گزارشی داشتیم، روش استفاده از ضریب همبستگی پیرسون چیست، چگونه و در چه بخشی آن را وارد کنیم و چگونه اثر آن را در نتایج خود تحلیل کنیم. ضریب همبستگی پیرسون در بخش نتایج اعلام می‌شود و معمولا برای نشان دادن آن از نماد r ایتالیک استفاده می‌شود. بهتر است که مقادیر عددی با دو رقم بعد از اعشار نشان داده شوند. همچنین چون مقدار ضریب r همواره بین مقادیر ۱- و ۱ قرار می‌گیرد، معمولا در متون آماری پیش از علامت اعشار آن از ۰ استفاده نمی‌شود.

زمانی که ضریب همبستگی پیرسون را در آمار استنباطی و بررسی معناداری بکار می‌برید، بهتر است r را همراه با درجات آزادی و p value یا مقدار احتمال بیان کنید. درجات آزادی داخل یک پرانتز و بلافاصله بعد از r به شکل زیر نمایش داده می‌شود:

r(8)=0.47, 0.05<pr(8)=0.47, \ 0.05 < p

رابطه بالا را بر اساس مثال قد و وزن در بخش «مراحل محاسبه ضریب همبستگی پیرسون» نوشتیم که طبق آن اگرچه بین قد و وزن نوزادان تازه متولد شده همبستگی متوسطی برقرار است، اما این رابطه از نظر آماری معنادار نیست.

تصویر رنگارنگی با مفهوم اتصال نقاط داده

ضریب تعیین چیست؟

در این بخش می‌خواهیم ببینیم مربع ضریب همبستگی پیرسون چیست. اگر r را به توان دوم برسانیم، «ضریب تعیین یا تشخیص» (Coefficient of Determination) به‌دست خواهد آمد. مقدار ضریب تعیین همیشه بین ۰ و ۱ قرار می‌گیرد و معمولا در قالب درصد بیان می‌شود. معمولا از ضریب تعیین در مدل‌های مختلف رگرسیون استفاده می‌کنیم تا بدانیم چه مقدار از واریانس یک متغیر توسط واریانس متغیر دیگر توضیح داده می‌شود.

r2r^2

بیشتر بودن مقدار r۲ یا ضریب تعیین، به این معنا است که مقدار زیادی از میزان تنوع در یک متغیر توسط رابطه‌اش با متغیر دیگر تعیین می‌شود. در مقابل، کمتر بودن ضریب تعیین نشان می‌دهد که تنها نسبت خیلی کمی از میزان تنوع در یک داده را می‌توان توسط رابطه‌اش با داده دیگر توضیح داد.

ضریب ناهمبستگی چیست؟

اگر مقدار ضریب تعیین را از واحد یا عدد یک کم کنید، «ضریب ناهمبستگی» (Coefficient of Alienation) را به‌دست می‌آورید. ضریب ناهمبستگی نسبتی از واریانسی است که بین متغیرها مشترک نیست یا در واقع، همان واریانس توضیح داده نشده بین متغیرها است.

1r21-r^2

اگر ضریب ناهمبستگی بزرگی داشته باشیم یعنی دو متغیر واریانس کوچکی را با هم به اشتراک گذاشته‌اند. در صورتی که مقدار ضریب ناهمبستگی کوچک بیان‌گر این است که بخش قابل‌توجهی از واریانس، توسط رابطه بین متغیرها تعیین می‌شود.

مسیر یادگیری آمار و احتمال در سطح دانشگاهی با فرادرس

در انتهای این مطلب و با توجه به اینکه کاملا یاد گرفتید ضریب همبستگی پیرسون چیست، در نظر داریم چند فیلم آموزشی با موضوع آمار و احتمال در سطوح دانشگاهی به شما معرفی کنیم.

تصویری از مجموعه فیلم های آموزش آمار و احتمالات در فرادرس
برای دسترسی به مجموعه فیلم آموزش آمار و احتمالات در فرادرس، روی تصویر کلیک کنید.
  1. فیلم آموزش آمار و احتمال مهندسی با مثال های مختلف فرادرس
  2. فیلم آموزش آمار و احتمال مهندسی حل تمرین و تست کنکور ارشد فرادرس
  3. فیلم آموزش رایگان رگرسیون فرادرس
  4. فیلم آموزش رایگان رگرسیون خطی ساده فرادرس
  5. فیلم آموزش رگرسیون ۱ - رگرسیون خطی فرادرس
  6. فیلم آموزش رگرسیون ۲ فرادرس
  7. فیلم آموزش اقتصاد سنجی فرادرس

پس از اینکه کاملا به مباحث آمار و احتمال مسلط شدید، مشاهده فیلم‌های آموزشی زیر از مجموعه فرادرس در زمینه کاربردهای آمار و احتمال یا یادگیری نرم‌افزارهای آماری به شما کمک خواهد کرد:

  1. مجموعه آموزش اس پی اس اس SPSS – مقدماتی تا پیشرفته فرادرس
  2. مجموعه آموزش تخمین و رگرسیون – مقدماتی تا پیشرفته فرادرس
  3. فیلم آموزش محاسبات آماری در اکسل Excel فرادرس
  4. فیلم آموزش برنامه نویسی R و نرم افزار RStudio مقدماتی فرادرس
  5. فیلم آموزش آمار و احتمال در پایتون Python فرادرس
  6. فیلم آموزش رایگان رگرسیون غیرخطی و لجستیک در تحلیل اطلاعات با SAS فرادرس
  7. فیلم آموزش رایگان رگرسیون خطی و شبکه عصبی MLP در پایتون برای پیش بینی چربی بدن فرادرس
  8. فیلم آموزش همبستگی و رگرسیون خطی در اس پی اس اس SPSS فرادرس
  9. فیلم آموزش تحلیل های رگرسیونی با اس پی اس اس SPSS فرادرس

جمع‌بندی

در این نوشته از مجله فرادرس توضیح دادیم که ضریب همبستگی پیرسون چیست و یاد گرفتیم که از آن برای بررسی همبستگی خطی بین دو مجموعه داده کمی استفاده می‌شود. پیش از انتخاب این ضریب برای مطالعه وضعیت همبستگی در یک بررسی، لازم است پیش‌فرض‌هایی برقرار باشند. برای مثال، هر دو گروه داده‌ باید کمی و دارای توزیع نرمال باشند، تا حد امکان داده پرتی در بررسی وجود نداشته باشد، داده‌ها از یک نمونه تصادفی باشند و حتما رابطه بین آن‌ها خطی باشد.

بنابراین اگر ارتباط بین داده‌های شما غیرخطی است یا توزیع آ‌ن‌ها دارای نوعی خمیدگی یا چولگی است، محاسبه ضریب r برای بررسی همبستگی اطلاعات دقیقی به شما نخواهد داد. همچنین زمانی که می‌خواهید همبستگی را پیدا کنید، لازم است در نظر داشته باشید که داد‌ه‌های شما از نمونه است یا از جمعیت. در صورتی که با داده‌های یک نمونه سروکار دارید، فرمول محاسبه ضریب همبستگی پیرسون یا r برای دو گروه داده x و y و اندازه نمونه n، به‌صورت زیر است:

r=nxy(x)(y)[nx2(x)2][ny2(y)2]r=\frac{n\sum xy-(\sum x)(\sum y)}{\sqrt{[n\sum x^2-(\sum x)^2][n\sum y^2-(\sum y)^2]}}

بر اساس رای ۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
ScribbrScribbrCuemathGeeksforGeeksWikipediaScribbrInvestopediaInvestopediaInvestopediaDatatab
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *