آمار, ریاضی 44916 بازدید

در تحلیل‌های چند متغیره آماری، شیوه‌های مختلف محاسباتی برای اندازه‌گیری وابستگی یا ارتباط بین دو متغیر تصادفی وجود دارد. منظور از همبستگی بین دو متغیر، قابلیت پیش‌بینی مقدار یکی برحسب دیگری است. برای مثال، عرضه و تقاضا دو پدیده وابسته به یکدیگر هستند. یکی از روش‌های نمایش ارتباط بین دو متغیر، محاسبه «کوواریانس» (Covariance) و «ضریب همبستگی» (Correlation Coefficient) بین آن‌ها است.

محتوای این مطلب جهت یادگیری بهتر و سریع‌تر آن، در انتهای متن به صورت ویدیویی نیز ارائه شده است.

برای مشاهده ویدیوها کلیک کنید.

هر چه مقدار این دو شاخص بزرگتر باشد، نشان‌دهنده ارتباط یا وابستگی بیشتر بین دو متغیر است. برای مثال می‌توان وابستگی زیادی بین دو متغیر میزان مصرف برق و دمای هوا در نظر گرفت. زیرا هر چه دما افزایش یابد، استفاده از وسایل سرمایشی نیز افزایش داشته و مصرف برق را بالا می‌برد. در نتیجه وابستگی زیادی بین این دو متغیر وجود دارد.

البته باید توجه داشت که کوواریانس یا ضریب همبستگی بیانگر ارتباط علت و معلولی نیستند، بلکه فقط معیاری برای نشان دادن میزان وابستگی بین دو متغیر محسوب می‌شوند.

به عنوان پیش‌زمینه این بحث احتیاج به میانگین‌گیری و محاسبه واریانس دارید. برای آشنایی بیشتر با این مباحث می‌توانید مطالب رابطه بین میانگین حسابی، هندسی و همساز و اندازه‌های پراکندگی — به زبان ساده را مطالعه کنید.

کوواریانس

یک روش برای نشان دادن ارتباط بین دو متغیر، استفاده از «کوواریانس» (Covariance) است. این میزان جهت ارتباط بین دو متغیر را نیز نشان می‌دهد. به این معنی که اگر مقدار کوواریانس مثبت شود،‌ بیانگر ارتباط مستقیم بین دو متغیر است. این گفته بدان معناست که با افزایش یکی دیگری نیز افزایش می‌یابد. همچنین منفی بودن کوواریانس نشان می‌دهد که جهت تغییرات دو متغیر عکس یکدیگر هستند. به بیان دیگر ارتباط معکوس بین دو متغیر نشان می‌دهد که با افزایش یکی، دیگری کاهش می‌یابد.

رابطه مستقیم بین X و Y
رابطه مستقیم
رابطه معکوس
رابطه معکوس

 

بدون رابطه
بدون رابطه

فرض کنید X و Y‌ دو متغیر تصادفی با امید-ریاضی $$E(X)$$ و $$E(Y)$$ هستند. رابطه زیر نحوه محاسبه کوواریانس X و Y را که به صورت $$COV(X,Y)$$ نشان می‌دهیم، مشخص کرده است:

$$\large COV(X,Y)=E[(X-E(X))(Y-E(Y))]$$

خواص کوواریانس

با توجه به رابطه تعریف شده برای کوواریانس می‌توان خصوصیات زیر را برایش مشخص کرد:

  • تقارن: کوواریانس یک شاخص متقارن است. یعنی $$COV(X,Y)=COV(Y,X)$$.
  • واحد ترکیبی: واحد اندازه‌گیری کوواریانس، ترکیبی است. به این معنی که اگر X با واحد متر و Y با واحد کیلوگرم اندازه‌گیری شده باشد، واحد اندازه‌گیری کوواریانس به صورت متر در کیلوگرم است.
  • کوواریانس بین X و X برابر با واریانس خواهد بود. $$COV(X,X)=V(X)$$
  • اگر بین X و Y رابطه خطی وجود داشته باشد، یعنی داشته باشیم a+bX=Y آنگاه $$COV(X,Y)=bV(X)$$ به این معنی که تغییر مکان داده‌ها در مقدار کوواریانس تاثیری نداشته و فقط تغییر مقیاس باعث می‌شود که کوواریانس نیز به همان مقیاس تبدیل شود.
  • با توجه به مقیاس اندازه‌گیری داده‌ها، بزرگی یا کوچکی کوواریانس برای مقایسه مناسب نیست.

مثال 1

براساس مطالعه قد و وزن ۹ نوزاد و نوپا، داده‌های زوجی ($$x,y$$) در جدول زیر ثبت شده‌اند. کوواریانس بین قد و وزن این افراد برابر است با 10.80 کیلوگرم در سانتی‌متر.

وزن (کیلوگرم) 3.7 4.4 5.6 6.4 7.0 7.5 8.0 8.3 8.7
قد (سانتی‌متر) 49.8 54.9 58.4 61.5 64.0 66.0 67.6 69.0 70.8

میانگین وزن‌ها برابر 6.6 کیلوگرم و میانگین قدها نیز برابر با 62.4 سانتی‌متر است. محاسبات مورد نیاز برای بدست آوردن کوواریانس نیز در جدول زیر قرار دارد.

تفاوت وزن‌ها از میانگین -2.9 -2.2 -1.0 -0.2 0.4 0.9 1.4 1.7 2.1
تفاوت قدها از میانگین -12.6 -7.5 -4.0 -0.9 1.6 3.6 5.2 6.6 8.4
حاصلضرب وزن در قد 36.54 16.5 4 0.18 0.64 3.24 7.28 11.22 17.64
کوواریانس = میانگین حاصلضرب‌ها= 10.8

این مقدار نشان می‌دهد که رابطه مستقیم بین قد و وزن کودکان وجود دارد.

ماتریس کوواریانس

اگر لازم باشد ارتباط بین چندین متغیر، محاسبه و نمایش داده شود، از ماتریس کوواریانس استفاده می‌شود. در سطرها و ستون‌های این ماتریس متغیرها قرار گرفته و مقدارهای درون ماتریس نیز، کوواریانس مربوط به متغیر سطر با ستون متناظرش را نشان می‌دهد. اگر X,Y,Z سه متغیر تصادفی باشند، ماتریس کوواریانس آن‌ها به صورت زیر نمایش داده می‌شود.

$$\large V = \begin{bmatrix} COV(X,X) & COV(X,Y) &COV(X,Z) \\ COV(Y,X)&COV(Y,Y)& COV(Y,Z)\\ COV(Z,X)& COV(Z,Y)& COV(Z,Z) \end{bmatrix}$$

از آنجایی کوواریانس هر متغیر با خودش برابر با واریانس آن متغیر است، گاهی به V ماتریس واریانس-کوواریانس نیز می‌گویند. توجه داشته باشید که ماتریس V یک ماتریس متقارن است و عناصر روی قطر اصلی همان واریانس‌ها هستند.

ضریب همبستگی

همانطور که اشاره شد، کوواریانس به واحد اندازه‌گیری داده‌ها بستگی دارد. در نتیجه نمی‌توان بزرگی کوواریانس دو متغیر را با بزرگی کوواریانس دو متغیر دیگر بدون در نظر گرفتن واحد اندازه‌گیریشان، مقایسه کرد. ضریب همبستگی که شاخصی بدون واحد است، این مشکل را حل کرده.

در قسمت‌های قبل متوجه شدیم که ضریب همبستگی نیز برای اندازه‌گیری میزان وابستگی بین دو متغیر استفاده می‌شود. با توجه به نوع داده‌ها، شیوه‌های مختلفی برای اندازه‌گیری ضریب همبستگی وجود دارد. اغلب ضریب همبستگی، رابطه بین مقدارهای میانگین دو متغیر را نشان می‌دهد. ضریب همبستگی را با $$\rho$$ و یا r نشان می‌دهند. در این متن به بررسی و شیوه محاسبه «ضریب همبستگی پیرسون» (Peasron Correlation Coefficient) ، «ضریب همبستگی اسپیرمن» (Spearman Correlation Coefficient) و «ضریب همبستگی کندال» (Kendall Correlation Coefficient) می‌پردازیم.

ضریب همبستگی پیرسون

یکی از مشهورترین شیوه‌های اندازه‌گیری وابستگی بین دو متغیر کمی، محاسبه ضریب همبستگی پیرسون است. این شاخص توسط «کارل پیرسون» (Karl Pearson) آماردان انگلیسی در سال‌ 1900 طی مقاله‌ای معرفی شد. او از این شاخص برای بررسی علمی روی علوم زیستی و حتی جمعیتی استفاده کرد و به نتایج جالب توجهی رسید. شیوه محاسبه برای ضریب همبستگی پیرسون در ادامه دیده می‌شود.

کارل پیرسون

فرض کنید X و Y‌ دو متغیر تصادفی هستند که دارای امید-ریاضی $$E(X)$$ و $$E(Y)$$ و واریانس $$V(X)$$ و $$V(Y)$$‌ هستند. ضریب همبستگی بین X و Y‌ را با $$\rho (X,Y)$$ یا $$corr(X<Y)$$ نشان داده و به صورت زیر محاسبه می‌کنیم.

$$\large  \rho(X,Y)=corr(X,Y)=\dfrac{E[(X-E(X))(Y-E(Y))]}{[V(X)V(Y)]^\tfrac{1}{2}}$$

صورت این کسر همان کوواریانس بین دو متغیر X و Y محسوب می‌شود. منظور از E‌ نیز، امید-ریاضی دو متغیر تصادفی X و Y است.

البته باید توجه داشت که ضریب همبستگی پیرسون فقط زمانی که واریانس و امید-ریاضی وجود داشته باشند، قابل محاسبه است. برای مثال داده‌هایی «توزیع کوشی» (Cauchy Distribution) دارای میانگین و واریانس نیستند در نتیجه ضریب همبستگی به این شکل برای آن‌ها قابل محاسبه نیست. همچنین اگر یکی از واریانس‌ها نیز صفر باشد (یعنی داده‌ها پراکندگی نداشته باشند) مقدار ضریب همبستگی نامفهوم خواهد بود.

با استفاده از نامساوی کوشی-شوارتز نیز می‌توان نشان داد که قدر مطلق ضریب همبستگی هرگز بزرگتر از ۱ نخواهد بود. پس می‌توان نوشت:

$$\large -1\leq \rho(X,Y) \leq 1$$

خصوصیات ضریب همبستگی پیرسون

با توجه به تعریفی که ضریب همبستگی پیرسون دارد می‌توان خصوصیات زیر را برای آن اثبات کرد.

  • بدون واحد بودن: ضریب همبستگی پیرسون به واحد اندازه‌گیری داده‌ها بستگی ندارد. یعنی شاخصی بدون واحد است. حتی گاهی آن را به صورت درصدی نیز بیان می‌کنند.
  • تقارن ضریب همبستگی پیرسون: واضح است که ضریب همبستگی پیرسون دارای تقارن است. زیرا $$COV(X,Y)=COV(Y,X)$$
  • اندازه‌گیری ارتباط خطی بین دو متغیر: هر چه مقدار ضریب همبستگی به ۱ یا ۱- نزدیک شود، وجود رابطه خطی بین دو متغیر بیشتر می‌شود. فرض کنید a+bX=Y باشد. ضریب همبستگی بین X , Y به صورت زیر قابل محاسبه است:

$$\large  \rho(X,Y)=\dfrac{E[(X-E(X))(a+bX-(a-bE(X))]}{[V(X)b^2V(X)]^\tfrac{1}{2}}$$

حال سعی می‌کنیم صورت کسر را ساده کنیم.

$$\large E[(X-E(X))(a+bX-(a+bE(X))]=$$

$$\large E[(aX+bX^2-aX-bXE(X)-E(X)a-E(X)bX+E(X)a+bE^2(X)]=$$

$$\large E[bX^2-2bXE(X)+bE^2(X)]=b(E[X^2-2E(X)+E^2(X)]=bE[(X-E(X)]^2=bV(X)$$

از طرفی نیز برای واریانس داریم:

$$\large V(X)V(Y)=V(X)V(a+bX)=V(X)b^2V(X)=b^2V^2(X)$$

در نتیجه برای ضریب همبستگی بین X و Y خواهیم داشت:

$$\large \rho(X,Y)=\dfrac{bV(X)}{[b^2V^2(X)]^\tfrac{1}{2}}=1$$

البته همین محاسبات را برای a-bX=Y نیز می‌توان انجام داد و نتیجه گرفت که ضریب همبستگی پیرسون برای چنین رابطه خطی برابر با ۱- است.

  • تعیین جهت همبستگی: چنانچه ضریب همبستگی مثبت باشد، رابطه بین دو متغیر را مستقیم و اگر منفی باشد، رابطه بین دو متغیر معکوس خواهد بود.
  • استقلال دو متغیر: اگر دو متغیر مستقل باشند، ضریب همبستگی پیرسون برابر با صفر خواهد بود. البته عکس این موضوع صحیح نیست. یعنی ممکن است ضریب همبستگی پیرسون برای دو متغیر برابر با صفر باشد در حالیکه آن دو متغیر مستقل نیستند. در چنین حالتی اگر X یک متغیر تصادفی متقارن حول صفر باشد (یعنی $$E(X)=E(X^3)=0$$) و متغیر تصادفی y به صورت $$Y=X^2$$ باشد، آنگاه ضریب همبستگی بین این دو برابر صفر است ولی مشخص است که Y کاملا به X‌ وابستگی دارد. در چنین حالتی صورت مربوط به محاسبه ضریب همبستگی پیرسون به شکل زیر خواهد بود:

$$\large E[(X-E(X))(X^2-E(X^2))]=E[(X-0)(X^2-E(X^2)]=$$

$$\large E(X(X^2-E(X^2))]=E[(X^3)-XE(X^2)]=$$

$$\large E(X^3)-E(X)E(X^2)=0-0=0$$

در نتیجه برای دو متغیر X و Y که به شدت به هم مرتبط هستند ضریب همبستگی برابر با صفر خواهد بود.

  • استقلال برای دو متغیر نرمال: اگر دو متغیر X و Y‌ دارای توزیع نرمال باشند، آنگاه صفر بودن ضریب همبستگی می‌تواند دلیلی برای استقلال دو متغیر تصادفی نرمال باشد.
  • ضریب همبستگی نمونه‌ای: اگر یک نمونه تصادفی به حجم n از متغیرهای تصادفی X و Y‌ به صورت $$(x_i,y_i)$$‌ داشته باشیم، «ضریب همبستگی نمونه‌ای پیرسون» (Pearson Sample Correlation Coefficient) به شکل زیر محاسبه می‌شود:

$$\large r(x,y)=\dfrac{n\sum x_iy_i-\sum x_i \sum y_i}{[n\sum x^2_i-(\sum x_i)^2]^\tfrac{1}{2}[n\sum y^2_i-(\sum y_i)^2]^\tfrac{1}{2}}$$

مثال ۲

براساس داده‌های موجود در جدول مربوط به مثال ۱ ضریب همبستگی پیرسون به صورت زیر قابل محاسبه است. این اطلاعات در جدول محاسبه شده‌اند.

$$[n\sum y^2_i-(\sum y_i)^2]^\tfrac{1}{2}$$ $$[n\sum x^2_i-(\sum x_i)^2]^\tfrac{1}{2}$$ $$n\sum x_i y_i-\sum x_i \sum y_i$$ $$\sum x_i y_i$$ $$\sum y_i$$ $$\sum x_i$$ $$n\sum x_iy_i$$
59.1 14.8 875.08 3818.9 562.0 56.6 3818.9
محاسبه ضریب همبستگی $$\dfrac{875.08}{878.3}=0.9963$$
ضریب همبستگی و مقدارهای آن
ضریب همبستگی پیرسون و مقایسه مقدارهای آن با رابطه خطی

ضریب همبستگی رتبه‌ای اسپیرمن

با توجه به اینکه ضریب همبستگی پیرسون براساس میانگین و واریانس محاسبه می‌شود، ممکن است در مقابل داده‌های دورافتاده، منحرف شده و میزان همبستگی را به درستی نشان ندهد. در چنین مواقعی از ضریب همبستگی رتبه‌ای اسپیرمن استفاده می‌شود. ضریب همبستگی رتبه‌ای اسپیرمن به مانند ضریب همبستگی پیرسون، نشان می‌دهد تمایل یک متغیر به پیروی کردن از مقدارهای متغیر دیگر چقدر است. این ضریب همبستگی توسط «چارلز اسپیرمن» (Charles Spearman) دانشمند روانشناس انگلیسی در سال 1904 معرفی شد. او با استفاده از این ضریب همبستگی توانست تئوری‌هایش در زمینه شناخت و هوش را توسعه دهد.

در این ضریب همبستگی به جای محاسبه روی مقدارها، از رتبه‌ها استفاده می‌شود. به همین دلیل به آن ضریب همبستگی رتبه‌ای می‌گویند. بنابراین اگر $$rx_1,rx_2,\ldots,rx_n$$ رتبه‌های مربوط به مقدارهای $$x_1,x_2,\ldots,x_n$$ و $$ry_1,ry_2,\ldots,ry_n$$ رتبه‌های مربوط به مقدارهای $$y_1,y_2,\ldots,y_n$$ باشد ضریب همبستگی رتبه‌ای اسپیرمن که به صورت $$r_s$$ نشان داده می‌شود طبق رابطه زیر قابل محاسبه است:

$$\large r_s(x,y)=\dfrac{cov(r_x,r_y)}{s_{rx}.s_{ry}}$$

مشخص است که در ضریب همبستگی رتبه‌ای اسپیرمن، اساس رتبه‌ها هستند، نه خود مقدارها. همچنین ضریب همبستگی اسپیرمن شدت رابطه خطی را اندازه‌گیری نمی‌کند. به این معنی که ممکن است ضریب همبستگی رتبه‌ای اسپیرمن برابر ۱ باشد در حالی که رابطه خطی بین دو متغیر وجود نداشته باشد.

مثال ۳

برای داده‌های زوجی $$(0,1), (10,100),(101,500),(102,2000)$$ مقدار ضریب همبستگی اسپیرمن برابر است با ۱ در حالیکه نمودار ترسیمی، رابطه خطی را نشان نمی‌دهد و ضریب همبستگی پیرسن برابر است با 0.754.

رابطه شدید در ضریب همبستگی اسپیرمن

ضریب همبستگی کندال

ضریب همبستگی کندال نیز مانند ضریب همبستگی اسپیرمن، به جای مقدار از ترتیب مقدارها برای اندازه‌گیری میزان وابستگی استفاده می‌کند. این شاخص توسط «مرسیه کندال» (Maurice Kendall) دانشمند انگلیسی علم آمار در سال 1938 معرفی شد. او بوسیله این شاخص، میزان همخوانی رتبه‌ها را اندازه‌گیری کرد.

کندال

فرض کنید زوج‌های $$(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)$$ مشاهدات متغیرهای X و Y را تشکیل می‌دهند. زوج $$(x_i,y_i)$$ و $$(x_j,y_j)$$ را «هماهنگ» (Concordant) می‌گویند اگر $$x_i<x_j$$‌ داشته باشیم $$y_i<y_j$$. به بیان دیگر اگر داده‌های این زوج‌ها را براساس مولفه اول یا دوم مرتب کنیم،‌ دارای رتبه‌های یکسانی خواهند بود. در حالت عکس این زوج‌ها را «ناهماهنگ» (Discordant) می‌نامند.

حال براساس تعریف هماهنگ و ناهماهنگ برای زوج‌ها، اگر تعداد زوج‌های هماهنگ را با $$|Con|$$ و تعداد زوج‌های ناهماهنگ را نیز با $$|Dis|$$ نشان دهیم، ضریب همبستگی کندال به صورت زیر محاسبه می‌شود:

$$\large \tau= \dfrac{|Con|-|Dis|}{n(n-1)/2}$$

خصوصیات ضریب همبستگی کندال

  • از آنجایی که مخرج این کسر تعداد انتخاب‌های زوج‌ها از بین n مشاهده است، همیشه از صورت بزرگتر است. پس ضریب همبستگی کندال از ۱ کوچکتر و از ۱- بزرگتر است.
  • اگر همه زوج‌ها با هم هماهنگ باشند مقدار ضریب همبستگی کندال برابر است با ۱.
  • اگر همه زوج‌ها ناهماهنگ باشند ضریب همبستگی کندال برابر است با ۱-.
  • اگر X و Y‌ مستقل باشند، انتظار داریم که ضریب همبستگی کندال نیز برابر با ۰ باشد.

شکل دیگری نیز برای محاسبه ضریب همبستگی کندال وجود دارد که از تابع علامت یا sgn استفاده می‌کند. منظور از $$sgn(x)$$ علامت x است. اگر علامت x مثبت باشد،‌ مقدار sgn برابر با ۱ و اگر منفی باشد sgn برابر با ۱- است. در حالتی که x صفر باشد، مقدار sgn صفر در نظر گرفته می‌شود. به این ترتیب رابطه محاسباتی برای ضریب همبستگی کندال به صورت زیر است:

$$\large \tau =\dfrac {2}{n(n-1)}\sum _{i<j}sgn(x_{i}-x_{j})sgn(y_{i}-y_{j})$$

مثال ۴

برای داده‌های مثال ۱ محاسبات مربوط به ضریب همبستگی اسپیرمن و کندال در جدول زیر آورده شده است.

ردیف مشاهده ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹
رتبه (مولفه اول) ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹
رتبه (مولفه دوم) ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹
ضریب همبستگی اسپیرمن 1 هماهنگی 36 ناهماهنگی 0 ضریب همبستگی کندال ۱

برای مثال، زوج اول یعنی $$(1,1)$$ نسبت به همه زوج‌های دیگر هماهنگ است پس میزان هماهنگی این زوج برابر با ۸ و برای زوج دوم درجه هماهنگی ۷ و … است. در نتیجه مجموع تعداد هماهنگی‌ها برابر ۳۶ می‌شود.

اگر مطلب بالا برای‌تان مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

فیلم‌ های آموزش ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها — به زبان ساده (+دانلود فیلم آموزش رایگان)

فیلم آموزشی تعریف کوواریانس

دانلود ویدیو

فیلم آموزشی خواص کوواریانس

دانلود ویدیو

فیلم آموزشی ماتریس کوواریانس

دانلود ویدیو

فیلم آموزشی ضریب همبستگی پیرسون

دانلود ویدیو

فیلم آموزشی ضریب همبستگی رتبه‌ای اسپیرمن

دانلود ویدیو

فیلم آموزشی ضریب همبستگی کندال

دانلود ویدیو

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 26 نفر

آیا این مطلب برای شما مفید بود؟

یک نظر ثبت شده در “ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها — به زبان ساده (+دانلود فیلم آموزش رایگان)

  1. خیلی ممنون از توضیحات خوبتون

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *