ضریب همبستگی غیرخطی چترجی (Chatterjee) در پایتون – راهنمای گام به گام

۱۳۳۷

۱۴۰۲/۰۳/۸

۴ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

در آموزش‌های پیشین مجله فرادرس، با پیاده‌سازی الگوریتم گرادیان کاهشی و روش نیوتون رافسون در پایتون آشنا شدیم. در این آموزش، مطالبی را درباره پیاده‌سازی ضریب همبستگی چترجی در پایتون بیان می‌کنیم.

فهرست مطالب این نوشته

آشنایی با ضریب همبستگی غیرخطی چترجی (Chatterjee)

ضریب همبستگی غیرخطی چترجی (Chatterjee) در پایتون

پیاده‌سازی ضریب همبستگی رتبه‌ای چترجی در پایتون

جمع‌بندی

آشنایی با ضریب همبستگی غیرخطی چترجی (Chatterjee)

ضریب همبستگی معیاری برای بررسی ارتباط آماری بین دو متغیر است. با استفاده از این عدد می‌توان دریافت که آیا ارتباط معناداری بین دو متغیر وجود دارد یا خیر. از همبستگی می‌توان برای آماده‌سازی داده، کاهش ابعاد، تحلیل گراف و... استفاده کرد.

فیلم آموزش تجزیه‌ و تحلیل داده‌ ها با پایتون در فرادرس

کلیک کنید

برای انواع مختلفی از متغیرها، معیارهای متفاوتی تعریف شده است که پرتکرارترین حالت مربوط به بررسی همبستگی بین دو متغیر پیوسته است.

ضریب همبستگی پیرسون (Pearson Correlation Coefficient) پرکاربردترین معیار برای بررسی همبستگی خطی بین متغیرها است که به‌صورت زیر محاسبه می‌شود:

$\large r{(X, Y)}=\frac{\operatorname{cov}{(X, Y)}}{\operatorname{var}{(X)} \cdot \operatorname{var}{(Y)}}=\frac{\sum\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum\left(x_{i}-\bar{x}\right)^{2} \sum\left(y_{i}-\bar{y}\right)^{2}}}$

رابطه فوق همواره عددی بین $-1$ و $+1$ خواهد داد. مشکل بزرگی که این معیار دارد، خطی بودن آن است و سایر ارتباطات بین متغیرها را نمی‌تواند تشخیص دهد. به همین دلیل، اغلب از Scatter Pair Plot برای بررسی ارتباطات غیرخطی بین متغیر‌ها استفاده می‌شود.

روش جدید دیگر برای بررسی همبستگی‌های غیرخطی، استفاده از ضریب همبستگی رتبه‌ای چترجی (Chatterjee Rank Correlation) است. این ضریب نیز همواره عددی بین $-1$ و $+1$ را به خود می‌گیرد، با این تفاوت که قابلیت کشف ارتباطات غیرخطی (درجه دوم، لگاریتمی، سینوسی و...) را نیز دارد.

فیلم آموزش همبستگی و رگرسیون خطی در SPSS در فرادرس

کلیک کنید

برای محاسبه ضریب همبستگی رتبه‌ای چترجی دو متغیر پیوسته با مقادیر غیرتکراری در $X$ ، به‌صورت زیر عمل می‌کنیم:

$\large \xi{(X, Y)}=1-\frac{3 \sum_{i=1}^{n-1}\left|r_{i+1}-r_{i}\right|}{n^{2}-1}$

در این رابطه، $r$ نشان دهنده Rank مربوط به $Y$ ها بعد از مرتب شدن با توجه به $X$ ها است.

نکته‌ دیگری که وجود دارد، این است که به‌ازای $n$ داده، در شدیدترین حالت همبستگی، مقدار ضریب برابر با عبارت زیر خواهد بود:

$\large \frac{ n-2}{n+1}$

که با زیاد شدن تعداد‌ها، قابل صرف‌نظر خواهد بود.

برای یادگیری برنامه‌نویسی با زبان پایتون، پیشنهاد می‌کنیم به مجموعه آموزش‌های مقدماتی تا پیشرفته پایتون فرادرس مراجعه کنید که لینک آن در ادامه آورده شده است.

ضریب همبستگی غیرخطی چترجی (Chatterjee) در پایتون

حال برای بررسی و پیاده‌سازی ضریب همبستگی چترجی در پایتون، وارد محیط برنامه‌نویسی شده و کتابخانه‌های مورد نیاز را فراخوانی می‌کنیم:

ابتدا Random State و Style را تنظیم می‌کنیم:

حال باید ضریب همبستگی پیرسون را پیاده‌سازی کنیم. برای این کار، ابتدا یک تابع تعریف می‌کنیم که در ورودی دو آرایه مربوط به متغیرها را دریافت می‌کند:

حال برای محاسبه کوواریانس خواهیم داشت:

ماتریس $C$ در این شرایط به‌شکل زیر خواهد بود:

$\large \left[\begin{array}{cc} \operatorname{var}{(X)} & \operatorname{cov}{(X, Y)} \\ \operatorname{cov}{(X, Y)} & \operatorname{var}{(Y)} \end{array}\right]$

بنابراین، می‌توان از آن به‌صورت زیر برای محاسبه ضریب همبستگی پیرسون استفاده کرد:

این تابع، در خروجی، ضریب مورد نظر را برمی‌گرداند.

فیلم آموزش کتابخانه SciPy برای محاسبات علمی در پایتون – بخش یکم در فرادرس

کلیک کنید

توجه داشته باشید که می‌توان از کتابخانه Scipy نیز برای محاسبه ضریب همبستگی پیرسون استفاده کرد:

حال برای بررسی عملکرد کد، یک مجموعه داده با رابطه زیر تولید می‌کنیم:

$\large y _ i = 2 x _ i + 1 + e_i , \;\;\;\;\;\; \sigma^2(e) =0.5, \;\; \overline{e}=0$

که برای رسم این دو متغیر در مقابل هم، می‌نویسیم:

که نمودار زیر حاصل می‌شود.

حال برای محاسبه و مشاهده ضریب همبستگی پیرسون می‌نویسیم:

که خواهیم داشت:

Pearson Correlation Coefficient: 0.9963573476843708

حال اگر مقدار واریانس نویز اضافه‌شده به متغیر $Y$ را از $0.5$ به $2$ تغییر دهیم، شکل زیر را خواهیم داشت.

ضریب همبستگی غیرخطی Chatterjee در پایتون

در این شرایط، ضریب همبستگی پیرسون نیز از $0.99$ به $0.94$ کاهش می‌یابد.

فیلم آموزش همبستگی و رگرسیون خطی در SPSS در فرادرس

کلیک کنید

حال رابطه استفاده‌شده در تولید داده‌ها را به‌صورت زیر تغییر می‌دهیم:

$\large y _ i = x _ i ^2+1+ e_i , \;\;\;\;\;\; \sigma^2(e) =0.5, \;\; \overline{e}=0$

در این حالت نمودار زیر حاصل خواهد شد.

در این نمودار با اینکه ارتباط بین $X$ و $Y$ کاملاً مشهود است، ضریب همبستگی پیرسون عدد $-0.03$ را به خود می‌گیرد. به دلیل این مشکل، نیاز به معیارهایی که بتواند روابط غیرخطی را تشخیص دهد، افزایش می‌یابد.

پیاده‌سازی ضریب همبستگی رتبه‌ای چترجی در پایتون

حال به سراغ ضریب همبستگی رتبه‌ای چترجی می‌رویم تا آن را نیز پیاده‌سازی کرده و نتایج را مشاهده کنیم.

فیلم آموزش رگرسیون و همبستگی در آمار استنباطی در فرادرس

کلیک کنید

ابتدا یک تابع تعریف کرده و متغیرهای ورودی را دریافت می‌کنیم:

حال باید اندیس‌های داده‌ها را با توجه به ترتیب $X$ محاسبه کنیم:

حال می‌توانیم ماتریس $Y$ را با استفاده از ماتریس $A$ مرتب کنیم:

حال می‌توانیم ماترس Rank را تولید کنیم، در این ماتریس، هر عضو از داده‌ها با تک تک اعضای دیگر مقایسه می‌شود و بزرگ‌تر یا کوچک‌تر بودن آن نشان داده می‌شود. برای این کار می‌توانیم بنویسیم:

به این ترتیب، ماتریس مربعی $R$ تولید می‌شود. در شکل نهایی رابطه، تنها نیاز به تعداد Trueها در هر ستون داریم، بنابراین باید در طول ستون‌ها عمل جمع (Summation) انجام دهیم:

حال تعداد داده‌ها را نیز محاسبه کرده و در فرمول آورده شده قرار می‌دهیم:

به این ترتیب، ضریب همبستگی رتبه‌ای چترجی محاسبه و در خروجی برگردانده می‌شود.

فیلم آموزش رگرسیون خطی 1 در فرادرس

کلیک کنید

حال مجموعه داده مربوط به رابطه سهمی را تولید کرده و ضریب همبستگی رتبه‌ای چترجی را محاسبه می‌کنیم:

که شکل زیر را خواهیم داشت.

Pearson Correlation Coefficient: -0.03724899705945379
Chatterjee Rank Correlation:     +0.82953181272509

به این ترتیب، مشاهده می‌کنیم که ضریب همبستگی رتبه‌ای چترجی وجود ارتباطی آماری بین دو متغیر را تأیید می‌کند.

فیلم آموزش آمار و احتمال مهندسی – جامع و مثال‌ها در فرادرس

کلیک کنید

می‌توان ارتباطات پیچیده‌تر مثل ترکیب دو تابع سینوسی را نظر گرفت:

که در این حالت نتایج مطابق شکل زیر خواهد بود.

Pearson Correlation Coefficient: -0.2120912310052988
Chatterjee Rank Correlation:     +0.786978697869787

به این ترتیب، عملکرد مناسب ضریب همبستگی رتبه‌ای چترجی مشهود است.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

جمع‌بندی

در این آموزش، با پیاده‌سازی ضریب همبستگی غیرخطی Chatterjee در پایتون به‌صورت گام به گام آشنا شدیم. برای بررسی‌های بیشتر می‌توان ضرایب مشابه را با ضریب همبستگی رتبه‌ای چترجی مقایسه کرد:

ضریب همبستگی رتبه‌ای اسپیرمن (Spearman Rank Correlation Coefficient)
ضریب همبستگی رتبه‌ای کندال (Kendall Rank Correlation Coefficient)

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۱۰ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

مجله فرادرس

سید علی کلامی هریس (+)

«سید علی کلامی هریس»، دانشجوی سال چهارم داروسازی دانشگاه علوم پزشکی تهران است. او در سال 1397 از دبیرستان «پروفسور حسابی» تبریز فارغ‌التحصیل شد و هم اکنون در کنار تحصیل در حوزه دارو‌سازی، به فعالیت در زمینه برنامه‌نویسی، یادگیری ماشین و تحلیل بازارهای مالی با استفاده از الگوریتم‌های هوشمند می‌پردازد.

مطالب مرتبط