نمودارهای پراکندگی – به زبان ساده

۲۲ تیر ۱۳۹۴ در دسته‌بندی اخبار و تازه ها نوشته مسعود عبدالرحیمی‎ زمان مورد نیاز برای مطالعه : 0 دقیقه

scatter-plots

یک نمودار پراکندگی (XY)، نقطه هایی روی خود دارد که ارتباط بین دو نوع از داده ها را نمایش می دهند.

در این مثال هر نقطه وزن یک شخص را در مقایسه با قد او نشان می دهد.

نمودار پراکندگی (XY)

(داده ها روی نمودار با “مختصات کارتزینی (x,y)” رسم شده اند.)

مثال:

بستنی فروشی محله به دنبال این است که بفهمد چه تعداد بستنی در هر روز در مقایسه با دمای ظهر آن روز می فروشد. نتایج آنها در 12 روز به شکل زیر است:

مثال نمودار پراکندگی

و اینجا همان داده ها در نمودار پراکندگی رسم شده اند

 نمودار پراکندگی-مثال

اکنون به راحتی می توان فهمید که هوای گرم تر فروش بیشتر را نتیجه می دهد، اما این نسبت کاملا صحیح نیست.

 

خط روند

ما همچنین می توانیم “خط روند” (Trendline) (Line of Best Fit) را روی نمودار پراکندگی رسم کنیم.

خط روند

سعی بر آن است که خط را طوری رسم کنیم که تا حد ممکن به تمامی نقاط نزدی کباشد، و نقاط بالای خط تقریبا برابر با نقاط زیر آن شود.

مثال: بالا آمدن سطح آب دریا

یک نمودار پراکندگی بالا آمدن سطح دریا:

نمودار پراکندگی بالا آمدن سطح دریا

و اینجا ما “خط روند” را برای آن رسم می کنیم:

خط روند نمودار بالا آمدن سطح دریا

 

درونیابی و برونیابی

درونیابی (Interpolation) به عملی گفته می شود که طی آن یک مقدار را داخل نقاط داده ها پیدا می کنیم.

در اینجا ما از درونیابی خطی برای تخمین میزان فروش در دمای 21 درجه سانتیگراد کمک می گیریم.

درونیابی

برونیابی (Extrapolation) به عملی گفته می شود که طی آن یک مقدار را خارج از نقاط داده ها پیدا می کنیم.

در اینجا ما از برونیابی خطی برای تخمین میزان فروش در دمای 29 درجه سانتیگراد (که از تمامی داده های ما بزرگتر است) کمک می گیریم.

برونیابی

مراقب باشید: برونیابی می تواند نتایج گمراه کننده ای دهد چرا که در “منطقه بررسی نشده” به دنبال آن داده هستیم.

همانند استفاده از نمودار (مانند بالا) می توانیم یک فرمول برای یاری بیشتر بنویسیم.

مثال:

ما می توانیم یک “معادله خط از دو نقطه” را به کمک نمودار بالا به دست آوریم

اکنون دو نقطه روی خط که نزدیک به مقدار واقعی باشد در نظر می گیریم: (180$ و °12) و (610$ و °25)

ابتدا شیب را پیدا می کنیم:

تغییرات x / تغییرات y = شیب m

                    = $610 − $180 / 25° − 12°

= $430 / 13°

  = 33 (گردشده)

اکنون مقدار شیب و همچنین مختصات نقطه (180$ و °12) را در فرمول “شیب – خط” قرار می دهیم:

y − y1 = m(x − x1)

y − 180 = 33(x − 12)

y = 33(x −12) +180

y = 33x − 396 + 180

y = 33x − 216

اکنون از این معادله می توان برای درونیابی میزان فروش در دمای 21 درجه سانتیگراد استفاده کرد:

y = 33 × 21 − 216 = $477

و برای برونیابی میزان فروش در دمای 29 درجه سانتیگراد:

y = 33 × 29 − 216 = $741

مقادیر بدست آمده به مقادیر روی نمودار نزدیک هستند. اما این به این معنی نیست که آنها دقت بیشتری (یا کمتری) دارند. این ها فقط اعداد تخمینی هستند.

نکته: از برونیابی در نقاط دور دست استفاده نکنید! چه مقدار فروش را در دمای °0 در نظر دارید؟

y = 33 × 0 − 216 = −$216

هممممم… منفی 216$؟ به نظر بسیار دور رفته ایم!…

نکته: ما از درونیابی و برونیابی خطی (روی خط) استفاده کردیم، اما انواع دیگری نیز وجود دارند، برای مثال می توانیم از چند جمله ای ها برای ساختن خطوط منحنی استفاده کنیم.

 

همبستگی

هنگامی که دو دسته از داده ها شدیداً به هم مرتبط و وابسته هستند، می گوییم که آنها همبستگی بالایی دارند.

* کلمه ی همبستگی از ترکیب هم (به معنی باهم) و وابستگی تشکیل شده است *

  • همبستگی مثبت است اگر مقادیر نسبت به هم افزایش یابند.
  • و همبستگی منفی است اگر یک دسته از داده ها با افزایش دسته دیگر کاهش یایند.

مانند نمودارهای زیر:

همبستگی

 

همبستگی منفی

همبستگی می تواند منفی باشد، به این معنی که رابطه ای بین این دو دسته داده ها وجود دارد اما با افزایش یک دسته، دسته دیگر کاهش می یابد.

مثال: میزان زاد و ولد نسبت به درآمد

میزان زاد و ولد ظاهرا در کشور های پر درآمد کمتر است:

جدول سرانه کشورها

در زیر، نمودار پراکندگی برای تقریبا 100 کشور آمده است.

همبستگی منفی

این نمودار، همبستگی منفی دارد (شیب خط به سمت پایین است)

نکته: در اینجا تلاش کردیم که یک خط راست را روی نمودار رسم کنیم، اما شاید یک منحنی بهتر باشد… نظر شما چیست؟

 

 

حال که مفهوم نمودار های پراکندگی را دیدید، ممکن است که مطالب آموزشهای زیر از فرادرس برای شما مفید باشد:

 

منبع

 

نظرات