آمار , داده کاوی 3986 بازدید

این نوشتار، قسمت چهارم از مطالب دنباله‌‌دار در مورد نقش آمار در حوزه علم داده است که به موضوع و مبحث ضریب همبستگی و کاربرد آن در علم داده می‌پردازد. ضریب همبستگی یک شاخص دو بعدی است به این معنی که براساس دو متغیر محاسبه می‌شود. مقدار ضریب همبستگی میزان ارتباط بین دو متغیر را نشان می‌دهد. طی این مطلب به اهمیت محاسبه ضریب همبستگی اشاره کرده و البته برای نمایش ارتباط بین متغیرها از نمودارهایی نیز کمک خواهیم گرفت.

برای آشنایی با انواع روش‌های محاسبه ضریب همبستگی، مطلب ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها — به زبان ساده را بخوانید. همچنین به منظور آشنایی با نحوه ترسیم نمودار نقطه‌ای که در این متن به آن اشاره خواهیم داشت به نوشتار نمودار نقطه ای (Scatter Plot) در R — راهنمای کاربردی مراجعه کنید. البته خواندن متن رگرسیون خطی — مفهوم و محاسبات به زبان ساده خالی از لطف نیست.

قسمت‌های مختلف این دنباله مقالات مطابق با فهرست زیر هستند.

ضریب همبستگی و کاربرد آن در علم داده

همانطور که اشاره شد، ضریب همبستگی شاخصی دو بعدی است. بنابراین برای محاسبه آن احتیاج به دو دسته داده (متغیر) داریم. همچنین برای نمایش ارتباط بین دو دسته داده می‌توان از «نمودار نقطه‌ای» یا «نمودار پراکندگی» (Scatter Plot) استفاده کرد. در این مطلب، با استفاده از ضریب همبستگی و البته رسم نمودار پراکندگی به بررسی وابستگی بین دو سری داده یا دو متغیر می‌پردازیم.

ابتدا براساس نمودار، ارتباط بین دو متغیر را نمایش داده و ارتباط بین شکل نمودار و ضریب همبستگی را مورد بررسی قرار می‌دهیم.

فرض کنید برای افرادی، میزان درآمد را به همراه سال‌های تجربه کاری ثبت کرده‌ایم. انتظار داریم که بین درآمد و تجربه کاری ارتباط و وابستگی وجود داشته باشد. به این معنی که با افزایش تجربه کاری، درآمد نیز افزایش یابد. براساس داده‌های جمع‌آوری شده، نمودار پراکندگی ترسیم شده است که در ادامه قابل مشاهده است.

scatter plot direct relation

برطبق این نمودار مشخص است که با افزایش یا کاهش تجربه کاری می‌توان میزان درآمد را حدس زد یا پیش بینی کرد. رابطه خطی بین این دو متغیر به خوبی در نمودار مشخص شده است. به این ترتیب می‌توان از معادله این خط برای پیش‌بینی درآمد برحسب تجربه کاری استفاده کرد. هر چند این پیش‌بینی دارای خطا است ولی می‌توان خط انتخابی را بوسیله روش‌های رگرسیونی به شکلی انتخاب کرد که نسبت به هر خط دیگر، کمترین خطای ممکن را داشته باشد.

در مقابل اگر بین تجربه کاری و درآمد هیچ رابطه‌ای وجود نداشته باشد، مشخص است که با افزایش تجربه کاری نمی‌توان میزان درآمد را پیش‌بینی کرد. چنین وضعیتی در نموداری که در ادامه دیده می‌شود، ترسیم شده است.

scatter plot no relation

شاید استفاده از این نمودارها به منظور درک ارتباط بین دو متغیر مناسب باشد ولی نمی‌توانیم با نگاه کردن به نمودارهای مشابه، به میزان ارتباط بین دو متغیر پی‌ببریم. برای اندازه‌گیری میزان ارتباط خطی بین دو متغیر از «کوواریانس» (Covariance) و «ضریب همبستگی» (Correlation) استفاده خواهیم کرد.

کوواریانس (Covariance)

یک روش برای اندازه‌گیری میزان ارتباط بین دو متغیر، محاسبه کوواریانس بین آن دو است. همانطور که از اسم این معیار مشخص است، از ترکیب دو کلمه Co+Variance ساخته شده است. نحوه محاسبه کوواریانس به مانند محاسبه واریانس است با این تفاوت که به جای مجموع مربعات اختلاف از میانگین در واریانس، از مجموع حاصلضرب‌های اختلاف از میانگین هر دو متغیر در کوواریانس استفاده می‌شود.

به بیان دیگر همانطور که واریانس نشان می‌دهد یک سری داده‌ چقدر از مرکزشان (میانگین) دور هستند، کوواریانس نشان می‌دهد که دو متغیر چقدر نسبت به یکدیگر تغییر می‌کنند. به این ترتیب می‌توان کوواریانس را اندازه پراکندگی بین دو متغیر در نظر گرفت.

مقدار کوواریانس، ممکن است مثبت با منفی باشد. مقدارهای مثبت نشان‌دهنده وجود ارتباط مستقیم یا در یک جهت بین دو متغیر است. به این معنی که با افزایش یکی از متغیرها، دیگری نیز افزایش خواهد یافت یا اگر یکی از متغیرها کاهش داشته باشد، دیگری نیز کاهش می‌یابد. ولی اگر میزان کوواریانس منفی بدست آید، نشانگر وجود رابطه ولی در جهت عکس بین دو متغیر است. به این ترتیب اگر یکی از متغیرها به صورت صعودی تغییر کند، دیگری حتما به صورت نزولی خواهد بود.

اگر مقدار کوواریانس به صفر نزدیک باشد، نمی‌توان رابطه‌ی خطی بین دو متغیر در نظر گرفت. به این معنی که با افزایش یا کاهش یکی از متغیر، رفتار متغیر دیگر قابل پیش‌بینی نیست.

محاسبه کوواریانس

حال که به درستی نحوه تفسیر کوواریانس را فرا گرفتید، بهتر است شیوه محاسبه آن را نیز بیاموزید. مقدار کوواریانس بین دو متغیر $$X$$ و $$Y$$ بوسیله رابطه زیر بدست می‌آید.

$$\large Cov(X,Y)=\dfrac{\sum_I(X_i-\overline{X})(Y_i-\overline{Y})}{n}$$

به نظر می‌رسد که می‌توان این رابطه را به صورت ضرب داخلی دو بردار از مشاهدات نیز در نظر گرفت. برای محاسبه کوواریانس به صورت برداری کافی است که مراحل زیر طی شود.

  1. اختلاف درایه‌های هر بردار را نسبت به میانگین همان بردار محاسبه کنید.
  2. ضرب داخلی این دو بردار را محاسبه کنید. این کار در حقیقت به شکلی محاسبه کسینوس زاویه بین این دو بردار است. اگر جهت دو بردار مشابه یکدیگر باشد، مقدار کوواریانس به سمت مقدارهای بزرگ مثبت میل خواهد کرد. زیرا کسینوس زاویه بین دو بردار تقریبا برابر با ۱ خواهد بود. در صورتی که جهت دو بردار عکس یکدیگر باشد، کسیونس زاویه این دو بردار به سمت 1- میل کرده، در نتیجه کوواریانس به سمت مقدارهای کوچک منفی خواهد رفت.
  3. نتیجه حاصل شده از مرحله ۲ را بر تعداد مشاهدات ($$n$$) تقسیم کنید. البته اگر مقادیر مربوط به یک نمونه از جامعه آماری باشند باید نتیجه حاصل از مرحله ۲ را بر $$n-1$$‌ تقسیم کنید. به این ترتیب کوواریانس نمونه‌ای بدست می‌آید.

نکته: از آنجایی که با داده‌های حاصل از نمونه‌گیری مواجه هستیم، باید برای محاسبه کوواریانس، میانگین جامعه را هم برآورد کنیم. در نتیجه درجه آزادی صورت کسر، یک واحد کاهش خواهد داشت و در مخرج به جای $$n$$ از$$n-1$$ استفاده خواهیم کرد.

محدودیت‌های کوواریانس

هر چند کوواریانس جهت ارتباط بین دو متغیر را به خوبی نشان می‌دهد ولی قادر نیست شدت ارتباط را محاسبه کند. در عمل واحد اندازه‌گیری داده‌ها می‌تواند در مقدار کوواریانس دخیل باشد. به این معنی که اگر واحد اندازه‌گیری داده‌های درآمد را از هر دلار به ۱۰۰۰ دلار تغییر واحد دهیم، میزان کوواریانس به شدت تغییر می‌کند. از طرفی اگر واحد سنجش تجربه کاری را از سال به ماه تغییر دهیم، میزان کوواریانس ممکن است به شدت تحت تاثیر قرار گیرد و ۱۲ برابر شود.

به این علت برای مقایسه ارتباط بین دو گروه از متغیرها در دو جامعه مختلف (با مقیاس‌های متفاوت) نمی‌توان از کوواریانس استفاده کرد،‌ مگر آنکه از داده‌های استاندارد شده برای محاسبه کوواریانس استفاده کنیم. در چنین حالتی محاسبه کوواریانس برای این داده‌ها، ما را به ضریب همبستگی (Correlation) می‌رساند.

ضریب همبستگی (Correlation)

یکی از متداول‌ترین معیارهای سنجش وابستگی بین متغیرها، ضریب همبستگی است که میزان و شدت ارتباط بین دو متغیر را نشان می‌دهد. همانطور که در قبل اشاره کردیم، ضریب همبستگی براساس داده‌های استاندارد شده محاسبه می‌شود. به بیان دیگر ضریب همبستگی، نرمال شده کوواریانس محسوب می‌شود.

محاسبه ضریب همبستگی

معمولا ضریب همبستگی را با علامت $$\rho$$ (بخوانید رُو) نشان می‌‌دهند. شیوه محاسبه ضریب همبستگی مطابق را رابطه زیر است.

$$\large \rho(X,Y)=\dfrac{Cov(X,Y)}{\sigma_X \sigma_Y)}$$

در اینجا منظور از $$\sigma_X$$ و $$\sigma_Y$$، انحراف استاندارد $$X$$ و $$Y$$ است. بوسیله نامساوی کوشی-شوارتز می‌توان نشان داد که ضریب همبستگی در فاصله ۱- تا ۱+ تغییر می‌کند. بنابراین ضریب همبستگی یک شاخص نرمال شده از کوواریانس است.

علامت ضریب همبستگی مطابقت کاملا با علامت کوواریانس دارد. اگر دو متغیر دارای ضریب همبستگی مثبت و نزدیک یا برابر با ۱ باشند، شدت رابطه خطی بینشان زیاد است و تغییراتشان، در یک جهت است. در صورتی که مقدار ضریب همبستگی دو متغیر، منفی و نزدیک به ۱- باشد، شدت رابطه خطی زیاد ولی جهت تغییرات عکس یکدیگر خواهد بود.

اگر مقدار ضریب همبستگی به صفر نزدیک باشد، نمی‌توان رابطه خطی بین دو متغیر در نظر گرفت. البته صفر بودن ضریب همبستگی دلیلی بر عدم رابطه بین دو متغیر نیست. برای مثال اگر $$X=y^5$$ باشد، میزان ضریب همبستگی بین دو متغیر ضعیف است در حالیکه مشخص است رابطه مشخص ریاضی ولی غیر خطی بینشان برقرار است.

ویژگی‌های ضریب همبستگی

ضریب همبستگی علاوه بر مشخص کردن جهت رابطه بین دو متغیر، شدت یا میزان آن را هم نشان می‌دهد. از طرف دیگر با تغییر واحد اندازه‌گیری داده‌ها، ضریب همبستگی تغییر نکرده و در اندازه‌گیری شدت رابطه بین دو متغیر، تفاوتی ایجاد نمی‌شود. البته باید توجه داشت که بزرگ بودن قدر مطلق ضریب همبستگی، دلیلی بر وجود رابطه علت و معلولی بین دو متغیر نیست. در واقع این ضریب، وجود رابطه را مشخص می‌کند ولی نمی‌توان یکی از متغیرها را معلول یا علت متغیر دیگر در نظر بگیرد. برای مشخص کردن متغیر علت یا معلول تنها راه استفاده از آزمایش‌های کنترل شده است تا بوسیله ثابت نگه داشتن یک متغیر، تغییرات متغیر دیگر را اندازه‌گیری کرد تا تاثیر عوامل دیگر حذف شده و رابطه علت و معلولی قابل کشف شود.

نکته: شیوه‌های دیگری نیز برای اندازه‌گیری همبستگی یا وابستگی بین دو متغیر وجود دارد که بخصوص برای داده‌هایی که به صورت کیفی اندازه‌گیری می‌شوند، به کار گرفته می‌شوند. برای آشنایی با این روش‌ها مطلب ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها را بخوانید.

در قسمت بعدی از سری مطالب به بررسی قانون یا «قضیه بیز» (Bayes’s Theorem) خواهیم پرداخت که بخصوص در علم داده‌ها، یکی از تکنیک‌های پر کاربرد محسوب می‌شود.

اگر به فراگیری مباحث مشابه مطلب بالا علاقه‌مند هستید، آموزش‌هایی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 15 نفر

آیا این مطلب برای شما مفید بود؟

2 نظر در “وابستگی، کوواریانس و ضریب همبستگی در علم داده — راهنمای کاربردی

  1. واقعا بی نظیر بود .خیلی ممنون از توضیح ساده و زیباتون

  2. عالی بو. ممنون

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *