ضریب پراکندگی چیست؟ – به زبان ساده + فرمول محاسبه

۶۹ بازدید
آخرین به‌روزرسانی: ۲۲ مهر ۱۴۰۳
زمان مطالعه: ۲۴ دقیقه
ضریب پراکندگی چیست؟ – به زبان ساده + فرمول محاسبه

اندازه‌گیری پراکندگی به ما کمک می‌کند تا بتوانیم در دو یا چند مجموعه داده، میزان گستردگی و تنوع داده‌ها را کمی‌سازی کنیم. این اندازه‌گیری با محاسبه چند پارامتر آماری مهم، مانند ضریب دامنه، ضریب انحراف میانگین، ضریب تغییرات و ضریب انحراف چارک انجام می‌شود. به همین علت، به هر کدام از این کمیت‌ها «ضریب پراکندگی» (Coefficient of Dispersion) گفته می‌شود و برای هر یک، فرمول ضریب پراکندگی مشخصی تعریف شده است.

فهرست مطالب این نوشته
997696

اندازه‌گیری پراکندگی با توجه به نوع داده‌ها ممکن است مطلق یا نسبی باشد. در اندازه‌گیری مطلق پراکندگی، کمیت‌هایی مانند دامنه، انحراف میانگین، انحراف معیار و انحراف چارک بررسی می‌شوند، در حالی که در اندازه‌گیری نسبی پراکندگی ضرایب هر کدام از این کمیت‌ها باید تحلیل شوند. بنابراین فرمول ضریب پراکندگی با فرمول پارامترهایی مانند دامنه، انحراف معیار، انحراف میانگین و انحراف چارک متفاوت است. در این نوشته از مجله فرادرس ابتدا به بررسی تفاوت اندازه‌گیری مطلق و نسبی پراکندگی خواهیم پرداخت. سپس، همراه با حل مثال توضیح می‌دهیم انواع ضریب پراکندگی چیست و نحوه محاسبه هر کدام به چه صورت است.

ضریب پراکندگی چیست و چه انواعی دارد؟

اگر دو یا چند مجموعه داده داشته باشیم و بخواهیم نحوه گسترش داده‌ها، فواصل آن‌ها نسبت به هم یا فواصل آن‌ها نسبت به مقدار مرکزی داده‌ها را بررسی کنیم، بهترین راه محاسبه چند پارامتر آماری مهم به نام ضریب دامنه، ضریب انحراف میانگین، ضریب تغییرات و ضریب انحراف چارک است:

ضریب پراکندگیفرمول ضریب پراکندگی
ضریب دامنه (CR)CR=LSL+SCR=\frac{L-S}{L+S}
ضریب انحراف میانگین (CMD)CMD=i=1nxiμμnCMD=\frac{\sum_{i=1}^n |x_i-\mu|}{\mu n}
ضریب تغییرات (CV)CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%
ضریب انحراف چارک (CQD)CQD=Q3Q1Q3+Q1CQD=\frac{Q_3-Q_1}{Q_3+Q_1}

هر کدام از این کمیت‌ها یک ضریب پراکندگی نام دارد. در جدول بالا، انواع فرمول ضریب پراکندگی آورده شده است. کاربرد اصلی ضرایب پراکندگی زمانی است که دو یا چند مجموعه داده با واحدهای متفاوت داریم، در نتیجه مقادیر میانگین کاملا متفاوتی برای هر سری از داده‌ها ایجاد شده‌‌اند.

محاسبه هر کدام از انواع ضریب پراکندگی، از دیدگاه متفاوتی به بررسی داده‌های ما کمک می‌کند. برای مثال، دامنه نشان می‌دهد اختلاف بین بزرگترین و کوچکترین مقدار ما در یک مجموعه داده چیست. اما واریانس میانگینی از مربع انحرافات تمام مشاهدات را محاسبه می‌کند. بنابراین برای اینکه اندازه‌گیری پراکندگی به‌درستی انجام شود، لازم است تمام این‌ کمیت‌ها محاسبه و تحلیل شوند. به‌ویژه اگر داده‌های پرت یا outliers داشته باشیم، اهمیت بررسی پراکندگی بهتر مشخص می‌شود.

تصویری از چند منحنی در زمینه کرم رنگ - ضریب پراکندگی
اندازه‌گیری پراکندگی در مورد نحوه پخش شدن و توزیع داده‌ها به ما اطلاعات لازم را ارائه می‌دهد. برای نمایش تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

نکته مهم بعدی این است که برای محاسبه انواع ضریب پراکندگی برای مثال ضریب تغییرات، ابتدا باید بدانیم واریانس چگونه محاسبه می‌شود. به همین دلیل ابتدا فرمول محاسبه دامنه، انحراف میانگین، واریانس و انحراف چارک را بیان می‌کنیم و در بخش‌های بعد به معرفی انواع فرمول ضریب پراکندگی خواهیم پرداخت.

مفهوم اندازه‌گیری پراکندگی در آمار

در بخش قبل با کلیت انواع ضریب پراکندگی آشنا شدیم. پراکندگی در آمار مفهومی است که چگونگی پخش شدن یا نحوه گستردگی داده‌ها حول مقدار میانگین را توصیف می‌کند و به ما کمک می‌کند تا تشخیص دهیم چقدر داده‌ها بهم نزدیک یا از هم دور هستند. به این ترتیب، میزان «سازگاری» (Consistency) یا «تنوع» (Variability) در یک مجموعه داده‌ مشخص خواهد شد.

تصویری از دو نوع توزیع با گستردگی متفاوت

مثال ۱

برای مثال در تصویر بالا دو توزیع را مشاهده می‌کنید که در آن‌ها محور افقی نشان‌دهنده مقادیر داده و محور عمودی بیان‌گر فراوانی هر داده است. هر دو توزیع، یک توزیع نرمال محسوب می‌شوند و برای هر دو، سه مقدار میانگین، میانه و مد یکسان است. اما واضح است که دو توزیع کاملا از لحاظ گستردگی و نحوه پخش داده‌ها یا پراکندگی با هم متفاوت‌اند.

بنابراین اگر پراکندگی را برای این دو توزیع اندازه بگیریم، خواهیم دید توزیعی که در راستای قائم گسترده شده است، پراکندگی کمتری نشان می‌دهد، در حالی که توزیع پهن‌تر، پراکندگی بیشتری نشان خواهد داد. پس هر چقدر پراکندگی کمتر باشد، داده‌ها به مقادیر مرکزی نزدیک‌تر هستند.

مثال ۲

در مثال دیگری، سه مجموعه داده زیر را که نشان‌دهنده نمرات کسب شده در یک آزمون هستند، در نظر بگیرید:

A=5,5,5,5,5,5,5,5,5,5A=5,5,5,5,5,5,5,5,5,5

B=0,0,0,0,0,10,10,10,10,10B=0,0,0,0,0,10,10,10,10,10

C=4,4,4,5,5,5,5,6,6,6C=4,4,4,5,5,5,5,6,6,6

با وجود اینکه هر سه مجموعه دارای مقادیر میانگین و میانه مشابهی برابر با 55 هستند، اما کاملا با هم فرق دارند. در مجموعه اول، تمام اعداد یکسان هستند، در حالی که در مجموعه دوم نیمی از اعداد به یک شکل و نیم دیگری از اعداد به شکل دیگر هستند.

در مجموعه سوم با اینکه سازگاری و تشابه مجموعه اول وجود ندارد، اما گستردگی مجموعه دوم هم دیده نمی‌شود. بنابراین با بررسی این مثال، می‌توانیم به این نتیجه برسیم که ما علاوه‌ بر دانستن میانگین و میانه، به اطلاعات دیگری برای بررسی نحوه انتشار یا توزیع داده‌های خود نیاز داریم. اندازه‌گیری پراکندگی این امکان را به ما می‌دهد که اطلاعات کاملی در مورد داده‌های خود به‌دست آوریم. اگر بتوانیم پراکندگی را اندازه‌گیری کنیم، نتایج به‌دست آمده به ما نشان می‌دهد که نحوه توزیع داده‌ها به چه صورت است. اندازه‌گیری پراکندگی به دو شیوه انجام می‌شود:

  • اندازه‌گیری نسبی پراکندگی
  • اندازه‌گیری مطلق پراکندگی

در هر کدام از این دو روش اندازه‌گیری، مطابق جدول زیر پارامتر‌ها یا کمیت‌های آماری خاصی محاسبه می‌شوند:

اندازه‌گیری پراکندگی
اندازه‌گیری نسبیاندازه‌گیری مطلق
ضریب دامنهضریب انحراف میانگینضریب تغییراتضریب انحراف چارکدامنهانحراف میانگینواریانسانحراف چارک

در ادامه به معرفی و نحوه محاسبه هر کدام از این پارامترها خواهیم پرداخت. خواهیم دید در محاسبات هر کدام از این موارد، لازم است به نکات خاصی دقت کنید از جمله تفاوت بررسی در نمونه و جامعه آماری یا اینکه داده‌ها به‌صورت گروه‌بندی شده هستند یا خیر. در این زمینه، مطالعه مطلب «مفاهیم آماری – شاخص‌های توصیفی» از مجله فرادرس به شما کمک می‌کند تا دید بهتری نسبت به برخی از مهم‌ترین مفاهیم آماری و شاخص‌های توصیفی که برای توصیف جامعه یا نمونه‌ی آماری بکار می‌روند، به‌دست آورید.

یادگیری مباحث آمار و احتمال دبیرستان با فرادرس

پیش از اینکه به توضیح انواع اندازه‌گیری‌های پراکندگی بپردازیم، در این قسمت می‌خواهیم چند نمونه فیلم آموزشی از مجموعه فرادرس را به دانش‌آموزان معرفی کنیم تا با مشاهده آن‌ها اطلاعات خوبی در زمینه مباحث آمار و احتمال کسب کنند. در کتاب‌های درسی رشته‌های علوم ریاضی و علوم تجربی، مباحث آمار و احتمال از فصل نهم کتاب ریاضی پایه هفتم آغاز می‌شود و تا پایه دوازدهم ادامه دارد. بنابراین مشاهده فیلم‌های آموزشی زیر می‌تواند در تسلط کامل شما به مباحث آمار و احتمال مفید باشد:

مجموعه آموزش های دروس متوسطه فرادرس
برای مشاهده مجموعه فیلم آموزش دروس اول و دوم متوسطه از دروس دانشگاهی تا کاربردی فرادرس، روی تصویر کلیک کنید.
  1. فیلم آموزش ریاضی پایه هفتم فرادرس
  2. فیلم آموزش ریاضی پایه هشتم فرادرس
  3. فیلم آموزش ریاضی پایه دهم فرادرس
  4. فیلم آموزش ریاضی پایه یازدهم علوم تجربی فرادرس
  5. فیلم آموزش آمار و احتمال پایه یازدهم فرادرس
  6. فیلم آموزش ریاضی پایه دوازدهم علوم تجربی فرادرس

به ‌ویژه در کتاب درسی ریاضی دهم رشته علوم انسانی، موضوعاتی مانند معیارهای پراکندگی، مفهوم انحراف از معیار و نحوه به دست آوردن آن، واریانس و مفهوم دامنه میان‌چارکی توضیح داده شده است. مشاهده فیلم آموزش مربوط به این دوره‌ها نیز در کنار این مطلب، به یادگیری عمیق‌ شما کمک خواهد کرد:

  1. فیلم آموزش رایگان نمایش داده ها ریاضی پایه دهم علوم انسانی فرادرس
  2. فیلم آموزش ریاضی و آمار ۱ پایه دهم علوم انسانی فرادرس
  3. فیلم آموزش ریاضی و آمار ۱ پایه دهم به همراه حل سوالات کنکور فرادرس

اندازه‌گیری مطلق پراکندگی

تا اینجا آموختیم پراکندگی چیست و با انواع ضریب پراکندگی نیز به‌صورت کلی آشنا شدیم. اگر اندازه‌گیری‌های پراکندگی را در مورد داد‌ه‌هایی اجرا کنیم که همگی دارای واحد یکسانی هستند، در این صورت می‌گوییم اندازه‌گیری مطلق داشته‌ایم. برای مثال واحدهایی مانند متر، دلار یا کیلوگرم، بسته به نوع داده‌هایی که در اختیار داریم. نکته مهم این است که چون واحد تمام داده‌ها یکسان است یا چون تمام داده‌ها دارای واحد هستند، پس اندازه‌گیری ما واحد دارد.

تصویری از سه توزیع با گستردگی مختلف

همان‌طور که اشاره شد، کمیت‌های آماری که در اندازه‌گیری مطلق پراکندگی می‌توانند محاسبه شوند، عبارت‌اند از:

  • دامنه یا Range
  • انحراف میانگین یا Mean Deviation
  • واریانس یا Variance
  • انحراف معیار یا Standard Deviation
  • دامنه میان‌چارکی یا Interquartile Range
  • انحراف چارک یا Quartile Deviation
  • خمیدگی یا چولگی یا Skewness

در ادامه هر کدام از این پارامترها را به همراه روش محاسبه توضیح خواهیم داد.

دامنه چیست و چگونه محاسبه می‌شود؟

در اولین قدم لازم است مفهوم دامنه را بدانیم. دامنه یا R ساده‌ترین کمیت در بررسی پراکندگی محسوب می‌شود و معادل است با اختلاف بین بیشترین و کمترین مقدار داده‌ در یک مجموعه داده. اما پیش از آنکه به بررسی مفهوم دامنه بپردازیم، می‌خواهیم فیلم آموزش مفاهیم آماری در داده کاوی و پیاده سازی آن در پایتون Python فرادرس را به شما معرفی کنیم که در آن پس از توضیح مفاهیم معرفی شده در این نوشته، نحوه کاربرد آن‌ها در پایتون نیز توضیح داده شده است. برای مشاهده این دوره می‌توانید به لینکی که در ادامه برای شما قرار داده شده است، مراجعه کنید:

بنابراین محاسبه این کمیت با فرمول زیر انجام می‌شود:

R=LSR=L-S

که در آن L بزرگترین و S کمترین مقدار در میان داده‌ها است.

تصویری از یک خط آبی افقی در زمینه کرم و مقادیر ابتدا و انتهای خط
تعریف دامنه در آمار

برای مثال داده‌های شکل زیر را در نظر بگیرید. در این مجموعه داده، عدد ۹۵ به‌عنوان بیشترین و عدد ۶۴ به‌عنوان کمترین مقدار مشخص است. پس دامنه برای این مجموعه داده برابر می‌شود با 9564=3195-64=31.

تصویری از چند عدد

دقت کنید در این بخش فرمول دامنه را برای یک مجموعه داده گروه‌بندی نشده معرفی کردیم. در بخش بعد روش محاسبه این کمیت را برای یک مجموعه داده گروه‌بندی شده توضیح می‌دهیم.

محاسبه دامنه برای داده‌های گروه‌بندی شده

برای اینکه با تفاوت داد‌ه‌های گروه‌بندی شده و داده‌های گروه‌بندی نشده در بخش قبل بهتر آشنا شوید، به مثال زیر توجه کنید. فرض کنید نمرات کسب شده توسط یک کلاس طبق جدول زیر جمع‌آوری شده‌اند و می‌خواهیم دامنه را برای این مجموعه داده گروه‌بندی نشده پیدا کنیم:

بازه نمراتفراوانی
0100-1055
102010-2088
203020-301515
304030-4099

طبق آنچه توضیح داده شد، ابتدا باید بیشترین و کمترین مقدار داده را پیدا کنیم که برای این نوع داده، به شکل زیر تعیین می‌شود:

  • بیشترین مقدار یا L: کرانه بالا یا بیشترین مقدار در بالاترین طبقه
  • کمترین مقدار یا S: کرانه پایین یا کمترین مقدار در پایین‌ترین طبقه

بنابراین با توجه به جدول بالا و اینکه بالاترین طبقه معادل است با 304030-40 و پایین‌ترین طبقه یعنی 0100-10، بنابراین L=40L=40 و S=0S=0 خواهند شد و در نتیجه دامنه برابر است با:

R=LS=400=40R=L-S=40-0=40

دقت کنید در محاسبه دامنه باید چند نکته را مدنظر داشته‌ باشیم:

  1. بالا بودن دامنه می‌تواند علامت این باشد که تنوع در مجموعه داده ما بالا است.
  2. اگر فقط دامنه را محاسبه کنیم، تحلیل چندان دقیقی نخواهیم داشت.
  3. برای توزیع‌‌های فراوانی با انتهای باز امکان محاسبه دامنه وجود ندارد.

در مورد نکته شماره دو، علت این است که در این بررسی فقط بیشترین و کمترین مقادیر داد‌ه‌ها را در نظر گرفته‌ایم، در حالی که این دو عدد قطعا نمی‌توانند نحوه انتشار یا پخش‌شدگی داد‌ه‌ها را نشان دهند. همچنین در سومین نکته، بهتر است بدانیم توزیع‌های فراوانی با انتهای باز به توزیع‌هایی گفته می‌شود که در آن‌ها کرانه پایین‌ پایین‌ترین طبقه یا کرانه بالای بالاترین طبقه تعریف نشده است.

مثال

دامنه را برای توزیع فراوانی زیر محاسبه کنید:

بازه نمراتفراوانی
102010-2088
203020-302525
304030-4099

پاسخ

با توجه به اینکه در این سوال داده‌ها در قالب سه بازه مختلف با طول یکسان تعریف شده‌اند، پس با داده‌های گروه‌بندی شده مواجه هستیم و لازم است برای تعیین بیشترین و کمترین مقادیر، روش گفته شده در بخش قبل را بکار ببریم:

  • بیشترین مقدار یا L = بیشترین مقدار در بالاترین طبقه یعنی 304030-40 = 4040
  • کمترین مقدار یا S = کمترین مقدار در پایین‌ترین طبقه یعنی 102010-20 = 1010

R=LS=4010=30\Rightarrow R=L-S=40-10=30

انحراف میانگین چیست و چگونه محاسبه می‌شود؟

پیش‌نیاز درک ضریب پراکندگی انحراف میانگین این است که ابتدا به انحراف میانگین و فرمول آن مسلط باشیم. انحراف میانگین که با MD نمایش داده می‌شود، برابر است با میانگین حسابی حاصل تفریق مقادیر داده و مقدار میانگین. انحراف میانگین در حقیقت به ما نشان می‌دهد فاصله یک داده فرضی از نقطه مرکزی داده‌ها چقدر است. دقت کنید منظور ما از نقطه مرکزی داده‌ها لزوما میانگین داده‌ها نیست، بلکه نقطه مرکزی داده‌ها می‌تواند «میانگین» (Mean)، «میانه» (Median) یا «مد» (Mode) باشد.

ستون‌هایی با رنگ بنفش در کنار هم که در وسط آن‌ها یک ستون سبز قرار دارد.
مفهوم میانه

پیش از اینکه به توضیح بیشتر در مورد انحراف میانگین بپردازیم، بهتر است ابتدا روش محاسبه میانگین را به ساده‌ترین شکل ممکن بیان کنیم. اگر مجموعه داده‌ ما گروه‌بندی نشده باشد، نقطه مرکزی داده‌ها منطبق بر میانگین است. در داده‌های گروه‌بندی نشده، تعدادی داده به‌صورت x1,x2,...,xnx_1,x_2,...,x_n داریم که میانگین آن‌ها با μ نشان داده می‌شود و برابر است با:

μ=x1+x2+...+xnn\mu=\frac{x_1+x_2+...+x_n}{n}

در رابطه بالا n تعداد داده‌ها است. با داشتن میانگین، انحراف میانگین توسط فرمول زیر به‌دست خواهد آمد:

MD=i=1nxiμnMD=\frac{\sum_{i=1}^n |x_i-\mu|}{n}

که در آن ∑ به معنای مجموع و قدر مطلق به این معنا است که پس از محاسبه xiμx_i-\mu، چنانچه عدد منفی حاصل شد، علامت آن را در نظر نمی‌گیریم. پس فرمول انحراف میانگین در این حالت مشخص شد. برای مثال فرض کنید مجموعه داده‌ای به شکل زیر داریم:

5,10,25-5, 10, 25

برای اینکه انحراف میانگین این سه عدد را پیدا کنیم، ابتدا میانگین را محاسبه می‌کنیم:

μ=x1+x2+...+xnn=5+10+253=10\mu=\frac{x_1+x_2+...+x_n}{n}=\frac{-5+10+25}{3}=10

سپس جدولی به شکل زیر رسم کرده و مقادیر خواسته شده را به‌دست می‌آوریم:

xix_ixiμx_i-\muxiμ |x_i-\mu|
5-5510=15-5-10=-1515=+15 |-15|=+15
10101010=010-10=000
25252510=1525-10=15+15=+15 |+15|=+15
15+0+15=3015+0+15=30

در آخرین مرحله کافی است عدد به‌دست آمده در انتهای ستون سوم را بر تعداد داده‌ها تقسیم کنیم:

MD=303=10MD=\frac{30}{3}=10

همچنین می‌توانیم با نوشتن مستقیم فرمول MD و عددگذاری، حاصل را به صورت زیر حساب کنیم:

MD=i=1nxiμn=510+1010+25103MD=\frac{\sum_{i=1}^n |x_i-\mu|}{n}=\frac{ |-5-10|+|10-10|+|25-10|}{3}

MD=15+0+153=303=10MD=\frac{ |-15|+|0|+|15|}{3}=\frac{30}{3}=10

به اثر علامت قدر مطلق در محاسبات بالا دقت کنید. اگر قدر مطلق را اعمال نکنیم، حاصل صفر به‌دست می‌آید که اشتباه است.

محاسبه انحراف میانگین برای داده‌های گروه‌بندی شده

اگر داده‌های ما گروه‌بندی شده باشند، در این صورت همان‌طور که گفتیم، نقطه مرکزی ممکن است میانگین نباشد. فرمول محاسبه انحراف میانگین در این شرایط برابر است با:

MD=i=1nxixˉnMD=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{n}

در این فرمول xˉ\bar{x} نقطه مرکزی داده‌ها یعنی میانه است. محاسبه انحراف میانگین برای داده‌های گروه‌بندی شده و غیرگروهی با فرمول‌‌هایی که در این دو بخش گفتیم امکان‌پذیر است.

همچنین ممکن است داده‌های ما شامل مقادیر عددی گسسته و دارای فراوانی مشخصی باشند. برای مثال جدول داده‌های زیر را در نظر بگیرید که در یک ستون آن مقادیر عددی مقدار حقوق دریافتی کارکنان یک مجموعه و در ستون دیگر، فراوانی هر مقدار بیان شده است. منظور از فراوانی، تعداد تکرارهای یک مقدار مشخص در یک مجموعه داده‌ است. برای مثال زمانی که می‌گوییم فراوانی عدد ۲۵۰۰ برابر است با هفت، یعنی حقوق دریافتی هفت نفر برابر با ۲۵۰۰ است.

میزان حقوق دریافتیفراوانی
2500250077
3000300099
4000400055
4500450066
5000500033

فرمولی که برای محاسبه انحراف میانگین در این شرایط می‌توانیم استفاده کنیم، به شکل زیر است:

                MD=i=1nfixixˉi=1nfiMD=\frac{\sum_{i=1}^n f_i|x_i-\bar{x}|}{\sum_{i=1}^nf_i}

که در آن fif_i برابر است با فراوانی هر داده. همچنین اگر مجموعه داده‌هایی به شکل زیر داشتیم که در آن به‌جای مقادیر عددی گسسته، با یک بازه عددی مواجه شدیم (برای مثال گروه سنی ۱۰ تا ۲۰ سال)، در این صورت داده‌های ما از نوع پیوسته محسوب می‌شوند:

گروه سنیفراوانی
102010-201515
203020-301010
304030-401313
405040-501212

فرمول محاسبه انحراف میانگین در این حالت به‌‌صورت زیر است:

  MD=i=1nxixˉi=1nfiMD=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{\sum_{i=1}^nf_i}

مثال ۱

انحراف میانگین یک مجموعه داده به شکل زیر را پیدا کنید:

4,5,6,7,84,5,6,7,8

پاسخ

برای حل این مثال، چند گام زیر را به‌ترتیب اجرا می‌کنیم:

  1. محاسبه میانگین داده‌ها
  2. محاسبه اختلاف یا فاصله هر داده از میانگین
  3. محاسبه میانگین اعداد به‌دست آمده از مرحله قبل

چون داده‌ها شامل یک گروه هستند، پس اولین قدم محاسبه مقدار میانگین این داده‌ها با فرمول زیر است:

μ=x1+x2+...+xnn\mu=\frac{x_1+x_2+...+x_n}{n}

μ=4+5+6+7+85=6\Rightarrow \mu=\frac{4+5+6+7+8}{5}=6

در مرحله بعد، کافی است اختلاف هر مقدار داده را از میانگین محاسبه شده پیدا کنیم. این اختلاف «فاصله یا انحراف» (Deviation) هم نامیده می‌شود. برای اینکه از اشتباه جلوگیری کنید، بهتر است محاسبات خود را با رسم جدولی مشابه جدول زیر انجام دهید:

xix_ixiμx_i-\mu
4446=24-6=-2
5556=15-6=-1
6666=06-6=0
7776=17-6=1
8886=28-6=2

در آخرین مرحله، انحراف میانگین را با فرمول بیان شده در بخش قبل حساب می‌کنیم:

MD=i=1nxiμnMD=\frac{\sum_{i=1}^n |x_i-\mu|}{n}

MD=2+1+0+1+25=1.2\Rightarrow MD=\frac{2+1+0+1+2}{5}=1.2

تصویری رنگی از دانش‌آموزان در کلاس آمار

مثال ۲

انحراف میانگین را برای داده‌های نمایش داده شده در جدول زیر محاسبه کنید:

بازهفراوانی
5155-1588
152515-251212
253525-3566
354535-4544

پاسخ

اولین قدم محاسبه مقدار مرکزی این داده‌ها است که در هر بازه می‌توان به‌راحتی آن را مشخص کرد. برای مثال در بازه ۵ تا ۱۵، عدد مرکزی برابر است با ۱۰، اما در بازه ۱۵ تا ۲۵ عدد مرکزی ۲۰ خواهد شد و به همین ترتیب. در ستون چهارم جدول زیر، مقادیر دو ستون قبلی در هم ضرب شده‌اند.

بازهفراوانی (fif_i)نقطه مرکزی (xix_i)fixif_ix_i
5155-158810108080
152515-2512122020240240
253525-35663030180180
354535-45444040160160
  i=14fi=30\sum_{i=1}^4f_i=30i=14fixi=660\sum_{i=1}^4f_ix_i=660

بنابراین حالا می‌توانیم میانه را با کمک گرفتن از فرمول زیر محاسبه کنیم:

xˉ=i=14fixii=14fi=66030=22\bar{x}=\frac{\sum_{i=1}^4f_ix_i}{\sum_{i=1}^4f_i}=\frac{660}{30}=22

در مرحله بعد باید انحراف هر مقدار از عدد به‌دست آمده در مرحله قبل را به‌دست آوریم. بهتر است مجددا جدولی به شکل جدول زیر در نظر بگیریم:

بازهفراوانی (fif_i)نقطه مرکزی (xix_i)xixˉ|x_i-\bar{x}|
5155-158810101212
152515-251212202022
253525-3566303088
354535-454440401818
  i=14fi=30\sum_{i=1}^4f_i=30i=14xixˉ=40\sum_{i=1}^4|x_i-\bar{x}|=40

حالا کافی است مقادیر به‌دست آمده را در فرمول زیر قرار دهیم:

  MD=i=1nxixˉi=1nfiMD=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{\sum_{i=1}^nf_i}

  MD=4030=1.33\Rightarrow MD=\frac{40}{30}=1.33

تمرین

انحراف میانگین چند داده به شکل 2,4,6,8,102, 4, 6, 8, 10 برابر است با:

00

4.24.2

2.42.4

1212

پاسخ تشریحی

گزینه سوم صحیح است. برای محاسبه MD، ابتدا باید ببینیم داده‌های ما گروه‌بندی شده‌اند یا خیر. طبق صورت سوال، گروه‌بندی نداریم. پس میانگین را با فرمول زیر محاسبه می‌کنیم:

μ=x1+x2+...+xnn=2+4+6+8+105=6\mu=\frac{x_1+x_2+...+x_n}{n}=\frac{2+4+6+8+10}{5}=6

xix_ixiμx_i-\muxiμ |x_i-\mu|
2226=42-6=-44=+4 |-4|=+4
4446=24-6=-22=+2 |-2|=+2
6666=06-6=000
8886=28-6=2+2=+2 |+2|=+2
1010106=410-6=4+4=+4 |+4|=+4
  4+2+0+2+4=124+2+0+2+4=12

سپس جدولی به شکل بالا رسم می‌کنیم و مقادیر ردیف اول را به‌دست می‌آوریم. در آخرین مرحله کافی است عدد به‌دست آمده در انتهای ستون سوم را بر تعداد داده‌ها تقسیم کنیم:

MD=125=2.4MD=\frac{12}{5}=2.4

واریانس و انحراف معیار چه هستند و چگونه محاسبه می‌شوند؟

در سومین بخش از اندازه‌گیری‌های مطلق پراکندگی، به معرفی و روش محاسبه واریانس و انحراف معیار می‌پردازیم. یادگیری این مبحث به ما کمک می‌کند تا بتوانیم از فرمول ضریب پراکندگی مهمی به نام فرمول ضریب تغییرات به‌راحتی در حل مسائل آماری خود استفاده کنیم. واریانس یا σ2\sigma^2 به‌صورت میانگین حسابی مجذور انحرافات داده‌ها از مقدار میانگین تعریف می‌شود، در حالی که انحراف معیار یا σ\sigma معادل است با ریشه دوم واریانس.

پس این دو کمیت معمولا به دنبال هم محاسبه می‌شوند و با داشتن واریانس، پیدا کردن انحراف معیار آسان است. در واقع واریانس برابر است با مجذور انحراف معیار. این کمیت‌ها از اساسی‌ترین پارامترهای آماری محسوب می‌شوند که در ادامه با بررسی مثال نحوه محاسبه آن‌ها را آموزش می‌دهیم.

تصویری از یک منحنی گوسی با مساحت تقسیم شده

نکته مهم در محاسبه واریانس این است که آیا برای داده‌های یک نمونه محاسبه می‌شود یا جامعه آماری. اگر داده‌های جمعیت را بررسی می‌کنیم، فرمول واریانس به شکل زیر است:

σ2=i=1n(xiμ)2n\sigma^2=\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}

که در آن μ میانگین جمعیت است و n تعداد مشاهدات. با داشتن واریانس، انحراف معیار داده‌ها در یک جامعه آماری به‌صورت زیر محاسبه می‌شود:

σ=σ2=i=1n(xiμ)2n\sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}}

چنانچه داده‌های ما مربوط به یک نمونه باشند، فرمول واریانس برابر است با:

σ2=i=1n(xixˉ)2n1\sigma^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}

در رابطه بالا xˉ\bar{x} میانگین نمونه است. ‌واریانس برای نمونه را با s2s^2 هم نشان می‌دهند. بنابراین فرمول انحراف معیار در این حالت می‌شود:

σ=σ2=i=1n(xixˉ)2n1\sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}}

تقریبا هر دو فرمول مشابه هم هستند، تفاوت اساسی در مخرج است که در مورد جمعیت n و در مورد نمونه n-1 در نظر گرفته می‌شود. اصلاح n به n-1 برای نمونه، تصحیح بسل نام دارد و باعث شده است نتایج درست‌تری حاصل شود.

تصویری از دو گروه از مردم
تفاوت نمونه و جامعه آماری (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

محاسبه واریانس جهت اطلاع از گستردگی یک مجموعه داده خیلی مهم است. برای مثال اگر تمام داده‌های ما یکسان باشند، در این صورت واریانس صفر است. هر واریانس مخالف صفری، همواره یک عدد مثبت است. واریانس پایین به معنای این است که داده‌های نقطه‌ای ما هم به مقدار میانگین و هم به یکدیگر نزدیکتر هستند. در حالی که واریانس بالا نشان‌دهنده این است که داده‌های نقطه‌ای نسبت به میانگین و یکدیگر توزیع گسترده‌تری دارند و از هم دورتر هستند.

برای مثال فرض کنید می‌خواهیم انحراف معیار را در مورد جامعه آماری زیر پیدا کنیم:

1,3,6,7,121, 3, 6, 7, 12

محاسبه با پیدا کردن میانگین، واریانس و در نهایت انحراف معیار کامل می‌شود. پس ابتدا فرمول میانگین را به شکل زیر می‌نویسیم:

μ=x1+x2+...+xnn\mu=\frac{x_1+x_2+...+x_n}{n}

μ=1+3+6+7+125=5.8\Rightarrow \mu=\frac{1+ 3+ 6+ 7+12}{5}=5.8

حالا به کمک جدول زیر قدم به قدم واریانس را حساب می‌کنیم. می‌دانیم فرمول واریانس برای یک جامعه آماری به شکل زیر است:

σ2=i=1n(xiμ)2n\sigma^2=\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}

xix_ixiμx_i-\mu(xiμ)2(x_i-\mu)^2
1115.8=4.81-5.8=-4.8(4.8)2=23.04(-4.8)^2=23.04
3335.8=2.83-5.8=-2.8(2.8)2=7.84(-2.8)^2=7.84
6665.8=0.26-5.8=0.2(0.2)2=0.04(-0.2)^2=0.04
7775.8=1.27-5.8=1.2(1.2)2=1.44(1.2)^2=1.44
1212125.8=6.212-5.8=6.2(6.2)2=38.44(6.2)^2=38.44
i=1n(xiμ)2=70.8\sum_{i=1}^n (x_i-\mu)^2=70.8

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس به‌دست آید:

σ2=70.85=14.16\Rightarrow \sigma^2=\frac{70.8}{5}=14.16

بنابراین انحراف معیار طبق فرمول زیر می‌شود:

σ=σ2=14.16=3.76\Rightarrow \sigma=\sqrt{\sigma^2}=\sqrt{14.16}=3.76

مثال

واریانس نمونه را برای یک مجموعه داده به شکل 2,6,12,152, 6, 12, 15 پیدا کنید:

پاسخ

دقت کنید در صورت سوال ذکر شده است واریانس نمونه، پس فرمول مناسب برای حل این سوال به شکل زیر است:

σ2=i=1n(xixˉ)2n1\sigma^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}

ابتدا باید xˉ\bar{x} را پیدا کنیم. سپس با توجه به فرمول بالا و در نظر گرفتن n-1 در مخرج، واریانس پیدا می‌شود:

xˉ=x1+x2+...+xnn\bar{x}=\frac{x_1+x_2+...+x_n}{n}

xˉ=2+6+12+154=8.75\Rightarrow \bar{x}=\frac{2+6+12+15}{4}=8.75

حالا به کمک جدول زیر گام به گام واریانس را به‌دست می‌آوریم:

xix_ixiμx_i-\mu(xiμ)2(x_i-\mu)^2
2228.75=6.752-8.75=-6.75(6.75)2=45.56(-6.75)^2=45.56
6668.75=2.756-8.75=-2.75(2.75)2=7.56(-2.75)^2=7.56
1212128.75=3.2512-8.75=3.25(3.25)2=10.56(3.25)^2=10.56
1515158.75=6.2515-8.75=6.25(6.25)2=39.06(6.25)^2=39.06
i=1n(xiμ)2=102.74\sum_{i=1}^n (x_i-\mu)^2=102.74

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به n-1 تقسیم کنیم تا واریانس به‌دست آید:

σ2=102.743=34.24\Rightarrow \sigma^2=\frac{102.74}{3}=34.24

تمرین

اگر یک تاس را بیندازیم، واریانس مشاهدات ممکن چقدر است؟

3.5‌3.5

0.35‌0.35

29.1‌29.1

2.91‌2.91

پاسخ تشریحی

گزینه آخر صحیح است. با پرتاب تاس تعداد خروجی‌های ممکن ۶ حالت خواهد بود. بنابراین فضای نمونه یا n برابر است با ۶ و مجموعه داده‌های ما عبارت‌اند از:

1,2,3,4,5,6‌1, 2, 3, 4, 5, 6

محاسبه واریانس با فرمول زیر امکان‌پذیر است. دقت کنید در اینجا کل جامعه آماری را در نظر گرفته‌ایم:

σ2=i=1n(xiμ)2n\sigma^2=\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}

اولین مرحله نوشتن فرمول میانگین به شکل زیر است:

μ=x1+x2+...+xnn\mu=\frac{x_1+x_2+...+x_n}{n}

μ=1+2+3+4+5+66=3.5\Rightarrow \mu=\frac{1+ 2+3+4+5+6}{6}=3.5

حالا با استفاده از جدول زیر واریانس را حساب می‌کنیم:

xix_ixiμx_i-\mu(xiμ)2(x_i-\mu)^2
1113.5=2.51-3.5=-2.5(2.5)2=6.25(-2.5)^2=6.25
2223.5=1.52-3.5=-1.5(1.5)2=2.25(-1.5)^2=2.25
3333.5=0.53-3.5=-0.5(0.5)2=0.25(-0.5)^2=0.25
4443.5=0.54-3.5=0.5(0.5)2=0.25(0.5)^2=0.25
5553.5=1.55-3.5=1.5(1.5)2=2.25(1.5)^2=2.25
6663.5=2.56-3.5=2.5(2.5)2=6.25(2.5)^2=6.25
  i=1n(xiμ)2=17.5\sum_{i=1}^n (x_i-\mu)^2=17.5

در نهایت با تقسیم کردن آخرین سلول از ستون سوم جدول بالا به n، واریانس به شکل زیر محاسبه می‌شود:

σ2=17.56=2.91\Rightarrow \sigma^2=\frac{17.5}{6}=2.91

دامنه میان‌چارکی و انحراف چارک چه هستند و چگونه محاسبه می‌شوند؟

تا اینجا یاد گرفتیم که به میزان تفاوت مقادیر یک توزیع نسبت به مقادیر متوسط، پراکندگی گفته می‌شود و اندازه‌گیری پراکندگی ممکن است مطلق باشد یا با محاسبه انواع ضریب پراکندگی انجام شود. همچنین با بخشی از کمیت‌های مهم در ارزیابی پراکندگی آشنا شدیم. در ادامه با یکی دیگر از کمیت‌های آماری مهم به نام دامنه میان‌چارکی آشنا می‌شویم که برابر است با اختلاف مقادیر چارک بالا یا چارک سوم (Q3) و چارک پایین یا چارک اول (Q1) و با فرمول زیر محاسبه می‌شود:

Q3Q1Q_3-Q_1

برای اینکه بهتر درک کنید مفهوم چارک چیست، شکل زیر را در نظر بگیرید:

بخش‌های مختلف یک توزیع
برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

چارک‌ها به منظور تقسیم یک مجموعه داده به چهار بخش مساوی استفاده می‌شوند. اگر بخواهیم در یک مجموعه داده چارک اول و سوم را به راحتی پیدا کنیم، می‌توانیم از روابط زیر استفاده کنیم:

  • چارک بالا یا Q3: اندازه آیتم 3(n+14)3(\frac{n+1}{4})ام
  • چارک پایین یا Q1: اندازه آیتم n+14\frac{n+1}{4}ام

انحراف چارک که با نماد QD نشان داده می‌شود، به‌صورت نصف اختلاف مقادیر چارک بالا و پایین در یک مجموعه داده تعریف می‌شود. گفتیم اختلاف مقادیر دو چارک بالا و پایین با دامنه میان‌چارکی برابر است. پس می‌توانیم بگوییم انحراف چارک با نصف دامنه میان‌چارکی برابر است:

QD=Q3Q12QD=\frac{Q_3-Q_1}{2}

بنابراین با فرمول انحراف چارک نیز آشنا شدیم. برای مثال فرض کنید داده‌هایی به شکل زیر در اختیار دارید و می‌خواهید انحراف چارک را پیدا کنید:

150,100,268,280,195,140,200150, 100, 268, 280, 195, 140, 200

بهتر است ابتدا دامنه میان‌چارکی را پیدا کنیم. اما پیش از آن، اولین گام در مبحث چارک این است که داده‌های خود را به ترتیب از کمترین تا بیشترین مقدار مرتب کنیم:

100,140,150,195,200,268,280100, 140, 150, 195, 200, 268, 280

حالا می‌توانیم چارک اول و سوم را پیدا کنیم. طبق فرمولی که در بالا گفتیم، چارک پایین برابر است با اندازه آیتم n+14\frac{n+1}{4}ام که می‌شود:

7+14=2\frac{7+1}{4}=2

دقت کنید n برابر است با تعداد داده‌ها که در اینجا معادل است با عدد هفت. پس باید ببینیم مقدار آیتم دوم در داده‌های مرتب شده ما چیست:

Q1=140Q_1=140

همچنین برای چارک بالا خواهیم داشت:

3(7+14)=63(\frac{7+1}{4})=6

ششمین آیتم در داده‌های مرتب شده برابر است با عدد ۲۶۸. پس داریم:

Q3=268Q_3=268

حالا با داشتن چارک اول و سوم می‌توانیم دامنه‌ میان‌چارکی و به دنبال آن، انحراف چارک را محاسبه کنیم:

Q3Q1=268140=128Q_3-Q_1=268-140=128

QD=Q3Q12QD=\frac{Q_3-Q_1}{2}

QD=1282=64\Rightarrow QD=\frac{128}{2}=64

محاسبه انحراف چارک برای داده‌های گروه‌بندی شده

در این بخش با یک مثال نشان می‌دهیم که اگر داده‌های گروه‌بندی شده داشتیم، چگونه می‌توانیم انحراف چارک را پیدا کنیم. فرض کنید جدول زیر نمرات کسب شده توسط دانش‌آموزان یک کلاس را به شما می‌دهد:

نمراتفراوانی
60602525
62622121
68682828
70701818
75752424
80802020
88882424
90901717
97972222

در این مثال شرایط کمی با مثال قبلی متفاوت است. در واقع با مجموعه داده‌هایی سروکار داریم که دارای فراوانی هستند، یعنی دو سری داده داریم. در چنین شرایطی باید فراوانی تجمعی یا CF را محاسبه کنیم. به این منظور، لازم است ابتدا داده‌های خود را مرتب کنیم که در این مثال داده‌ها به‌صورت پیش فرض مرتب شده هستند.

سپس اولین فراوانی تجمعی برابر خواهد شد با فراوانی مطلق اولین یا کوچکترین مقدار. دومین فراوانی تجمعی برابر است با مجموع اولین فراوانی تجمعی و دومین فراوانی مطلق. سومین فراوانی تجمعی برابر است با مجموع دومین فراوانی تجمعی و سومین فراوانی مطلق و به همین ترتیب. در جدول زیر این روند را نشان داده‌ایم:

نمراتفراوانی مطلقفراوانی تجمعی
606025252525
6262212125+21=4625+21=46
6868282846+28=7446+28=74
7070181874+18=9274+18=92
7575242492+24=11692+24=116
80802020116+20=136116+20=136
88882424136+24=160136+24=160
90901717160+17=177160+17=177
97972222177+22=199177+22=199

حالا با در نظر گرفتن آخرین عدد از ستون سوم، یعنی ۱۹۹ به‌عنوان n، می‌توانیم چارک‌های بالا و پایین را طبق روندی که توضیح داد‌ه بودیم، به‌دست آوریم. چارک پایین برابر است با اندازه آیتم n+14\frac{n+1}{4}ام که می‌شود:

199+14=50\frac{199+1}{4}=50

سپس باید ببینیم مقدار آیتم پنجاهم در جدول بالا برابر با کدام مقدار است. به ستون سوم نگاه می‌کنیم. عدد ۵۰ در این ستون از ۴۶ بیشتر و از ۷۴ کمتر است. پس باید نمره‌ای که معادل با ردیف سوم است، یعنی عدد ۶۸ را به‌عنوان چارک پایین در نظر بگیریم:

Q1=68Q_1=68

همچنین برای چارک بالا خواهیم داشت:

3(199+14)=1503(\frac{199+1}{4})=150

صد و پنجاهمین آیتم در داده‌‌های ستون سوم بین ۱۳۶ و ۱۶۰ قرار دارد. پس نمره معادل با این چارک ۸۸ خواهد بود:

Q3=88Q_3=88

حالا با داشتن چارک اول و سوم می‌توانیم دامنه‌ میان‌چارکی و به دنبال آن، انحراف چارک را محاسبه کنیم:

Q3Q1=8868=20Q_3-Q_1=88-68=20

QD=Q3Q12QD=\frac{Q_3-Q_1}{2}

QD=202=10\Rightarrow QD=\frac{20}{2}=10

اندازه‌گیری نسبی پراکندگی

پس از اینکه با روش محاسبه کمیت‌های مهم در اندازه‌گیری پراکندگی آشنا شدیم، حالا می‌توانیم انواع مختلف فرمول ضریب پراکندگی را معرفی کنیم. در اندازه‌گیری نسبی پراکندگی، داده‌هایی داریم که ممکن است دارای واحد‌های مختلفی باشند یا اصلا واحد نداشته باشند. پس حاصل اندازه‌گیری نسبی پراکندگی، اعدادی بدون واحد است که ضریب پراکندگی نام دارند. معمولا زمانی که دو یا چند مجموعه داده با مقادیر میانگین کاملا متفاوت داریم، لازم است اندازه‌گیری نسبی انجام دهیم، به این صورت که انواع ضریب پراکندگی شامل موارد زیر را محاسبه می‌کنیم:

  • ضریب دامنه یا Coefficient of Range
  • ضریب انحراف میانگین یا Coefficient of Mean Deviation
  • ضریب تغییرات یا Coefficient of Variation
  • ضریب انحراف چارک یا Coefficient of Quartile Deviation

در ادامه هر ضریب پراکندگی را تعریف کرده و با حل مثال، روش محاسبه آن‌ها را توضیح خواهیم داد. پیشنهاد می‌کنیم موارد بیان شده در این بخش را با موارد مشابه بخش قبل حتما مقایسه کنید تا دید دقیق‌تری نسبت به انواع اندازه‌گیری‌های پراکندگی، ضریب پراکندگی و فرمول ضریب پراکندکی به‌دست آورید.

ضریب دامنه چیست و چگونه محاسبه می‌شود؟

به‌عنوان ساده‌ترین ضریب پراکندگی، ابتدا ضریب دامنه را توضیح می‌دهیم. گفتیم دامنه برابر است با اختلاف میان بیشترین و کمترین مقادیر در یک مجموعه داده. اگر نسبت دامنه را به مجموع بیشترین و کمترین مقادیر داده محاسبه کنیم، ضریب دامنه یا CR را پیدا کرده‌ایم. بنابراین فرمول ضریب پراکندگی در این بخش به شکل زیر است:

CR=LSL+SCR=\frac{L-S}{L+S}

که در آن L برابر است با بیشترین مقدار داده و S کمترین مقدار داده محسوب می‌شود.

مثال

برای دو گروه داده زیر، ضریب پراکندگی دامنه را محاسبه کنید:

63,89,98,125,79,108,117,6863, 89, 98, 125, 79, 108, 117, 68

43.5,13.6,18.9,38.4,61.4,29.843.5, 13.6, 18.9, 38.4, 61.4, 29.8

پاسخ

در اولین گروه، بیشترین مقدار یا L برابر است با ۱۲۵ و کمترین مقدار یا S می‌شود ۶۳. بنابراین ضریب دامنه یا QR با کاربرد فرمول ضریب پراکندگی مناسب برابر خواهد شد با:

CR=LSL+SCR=\frac{L-S}{L+S}

CR=12563125+63=0.33\Rightarrow CR=\frac{125-63}{125+63}=0.33

در مورد داده‌های گروه دوم، هم به همین شکل عمل می‌کنیم:

L=61.4L=61.4

S=13.6S=13.6

CR=LSL+SCR=\frac{L-S}{L+S}

CR=61.413.661.4+13.63=0.64\Rightarrow CR=\frac{61.4-13.6}{61.4+13.63}=0.64

تمرین

دامنه و ضریب دامنه برای مجموعه داده 8,12,5,6,8,2,158, 12, 5, 6, 8, 2, 15 به‌ترتیب برابر هستند با:

0.760.76 و 1313

1313 و 0.760.76

1313 و 6.56.5

هیچ‌کدام

پاسخ تشریحی

گزینه دوم درست است. بیشترین مقدار یا L در این مجموعه داده برابر است با ۱۵ و کمترین مقدار یا S برابر است با ۲. در نتیجه R و CR به‌صورت زیر به‌دست می‌آیند:

R=LS=152=13R=L-S=15-2=13

CR=LSL+SCR=\frac{L-S}{L+S}

CR=1315+2=0.76\Rightarrow CR=\frac{13}{15+2}=0.76

ضریب انحراف میانگین چیست و چگونه محاسبه می‌شود؟

دومین ضریب پراکندگی که می‌خواهیم توضیح دهیم، ضریب انحراف میانگین یا CMD است. برای تعریف این کمیت هم نیاز داریم از تعریف ارائه شده در بخش‌های قبل برای انحراف میانگین استفاده کنیم. پس از محاسبه انحراف میانگین، کافی است مقدار به‌دست آمده را به مقدار داده‌ای که در مرکزی‌ترین نقطه از نقاط داد‌ه‌های ما قرار می‌گیرد، تقسیم کنیم تا ضریب انحراف میانگین را داشته باشیم. پس فرمول ضریب پراکندگی مناسب برای این کمیت به شکل زیر است:

CMD=i=1nxiμμnCMD=\frac{\sum_{i=1}^n |x_i-\mu|}{\mu n}

در رابطه بالا μ\mu برابر است با میانگین داده‌ها. در صورتی که مقدار مرکزی معادل میانه است، فرمول به شکل زیر اصلاح خواهد شد:

CMD=i=1nxixˉxˉnCMD=\frac{\sum_{i=1}^n |x_i-\bar{x}|}{\bar{x}n}

 که در آن xˉ\bar{x} میانه است.

ضریب تغییرات چیست و چگونه محاسبه می‌شود؟

در بخش‌های قبل یاد گرفتیم انحراف معیار و واریانس چه هستند و چگونه محاسبه می‌شوند. انحراف معیار به نوعی اندازه‌گیری مطلقی از پراکندگی محسوب می‌شود که نمی‌توان از آن جهت مقایسه دو مجموعه داده با واحدهای مختلف استفاده کرد. به همین دلیل برای اینکه بتوانیم چنین مقایسه‌ای داشته باشیم، نیاز است از کمیت متفاوتی استفاده کنیم.

مهم‌ترین ضریب پراکندگی، ضریب تغییرات یا CV است که جهت مقایسه دو مجموعه داده از نظر ثبات، میزان سازگاری و همگنی بکار می‌رود. مرسوم است ضریب تغییرات را در قالب درصد بیان کنیم. ضریب تغییرات نوعی اندازه‌گیری نسبی است که توسط «کارل پیرسون» (Karl Pearson) معرفی شد. به همین دلیل، این ضریب را ضریب تغییرات پیرسون هم می‌نامند. فرمول این ضریب پراکندگی به شکل زیر است:

CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%

که در آن σ\sigma انحراف معیار و μ\mu میانگین است. تمام توزیع‌ها یا سری‌های داده‌ای که ضریب تغییرات بالایی دارند، معمولا دارای همگنی، سازگاری، ثبات و یکنواختی کمتری هستند. برای اینکه با نحوه محاسبه این ضریب بهتر آشنا شوید، مثال زیر را در نظر بگیرید.

چند توزیع رنگارنگ

فرض کنید دانش‌آموزان دو کلاس امتحان مشابهی داشته‌اند و میانگین نمرات هر دو کلاس برابر با ۷۵ شده است. اگر این کمیت تنها مشخصه مقایسه آماری دو کلاس باشد، احتمالا نتیجه‌گیری شما این خواهد شد که دو کلاس مشابه هم هستند. به‌ویژه اینکه حتی ضریب دامنه دو مجموعه داده ما نیز برابر با ۱۵ است. اما واقعیت این است که داده‌های این بررسی به شکل زیر هستند:

70,70,70,70,85,8570, 70, 70, 70, 85, 85

70,72,73,75,75,8570, 72, 73, 75, 75, 85

اگر یک بررسی اجمالی روی دو گروه داده داشته باشیم، متوجه خواهیم شد که در گروه دوم مقادیر داده‌ها به میانگین یعنی عدد ۷۵ نزدیکتر هستند، در حالی که در گروه اول مقادیر داده‌ها از میانگین دورتر است. پس احتمالا ضریب تغییرات برای گروه اول نسبت به گروه دوم بیشتر است. بیاید با استفاده از فرمول این پیش‌بینی را نشان دهیم. فرمول ضریب پراکندگی در این بخش معادل فرمول ضریب تغییرات و به شکل زیر است:

CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%

پس باید انحراف معیار را محاسبه کنیم. فرمول واریانس را می‌نویسیم و به کمک جداول زیر، قدم به قدم واریانس را برای هر گروه پیدا می‌کنیم. انحراف معیار هم با گرفتن جذر واریانس تعیین می‌شود:

σ2=i=1n(xiμ)2n\sigma^2=\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}

محاسبات گروه اول:

xix_ixiμx_i-\mu(xiμ)2(x_i-\mu)^2
70707075=570-75=-5(5)2=25(-5)^2=25
70707075=570-75=-5(5)2=25(-5)^2=25
70707075=570-75=-5(5)2=25(-5)^2=25
70707075=570-75=-5(5)2=25(-5)^2=25
85858575=1085-75=10(10)2=100(10)^2=100
85858575=1085-75=10(10)2=100(10)^2=100
i=1n(xiμ)2=4(25)+2(100)=300\sum_{i=1}^n (x_i-\mu)^2=4(25)+2(100)=300

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس برای گروه اول به‌دست آید:

σ2=3006=50\Rightarrow \sigma^2=\frac{300}{6}=50

بنابراین انحراف معیار برای اولین گروه داده برابر است با:

σ=σ2=50=7.07\Rightarrow \sigma=\sqrt{\sigma^2}=\sqrt{50}=7.07

حالا می‌توانیم ضریب تغییرات گروه اول را محاسبه کنیم:

CV=σμ×100%=7.0775×100%=9.42CV=\frac{\sigma}{\mu}\times100 \%=\frac{7.07}{75}\times100 \%=9.42

محاسبات گروه دوم:

xix_ixiμx_i-\mu(xiμ)2(x_i-\mu)^2
70707075=570-75=-5(5)2=25(-5)^2=25
72727275=272-75=-2(2)2=4(-2)^2=4
73737375=373-75=-3(3)2=9(-3)^2=9
75757575=075-75=0(0)2=0(0)^2=0
75757575=075-75=0(0)2=0(0)^2=0
85858575=1085-75=10(10)2=100(10)^2=100
i=1n(xiμ)2=25+4+9+100=138\sum_{i=1}^n (x_i-\mu)^2=25+4+9+100=138

حالا باید آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس برای گروه دوم به‌دست آید:

σ2=1386=23\Rightarrow \sigma^2=\frac{138}{6}=23

بنابراین انحراف معیار برای دومین گروه می‌شود:

σ=σ2=23=4.79\Rightarrow \sigma=\sqrt{\sigma^2}=\sqrt{23}=4.79

و ضریب تغییرات گروه دوم نیز برابر است با:

CV=σμ×100%=4.7975×100%=6.38CV=\frac{\sigma}{\mu}\times100 \%=\frac{4.79}{75}\times100 \%=6.38

پس ثابت کردیم که طبق محاسبات هم ضریب تغییرات گروه اول از ضریب تغییرات گروه دوم بیشتر می‌شود و این نتیجه با پیش‌بینی اولیه ما مطابقت دارد. همچنین به اهمیت محاسبه ضریب تغییرات برای بررسی دقیق‌تر دو مجموعه داده پی بردیم و دیدیم که ممکن است حتی با داشتن میانگین و ضریب دامنه مساوی، واریانس و در نتیجه پراکندگی دو مجموعه داده ما کاملا متفاوت باشد.

مثال

میانگین دمای ضبط شده برای یک بازه زمانی پنج روزه در زمستان سال گذشته به‌صورت زیر گزارش شده است:

18,22,19,25,1218, 22, 19, 25, 12

اگر میانگین این داده‌ها برابر با ۱۹٫۲ باشد، ضریب تغییرات را محاسبه کنید:

پاسخ

در این سوال مقدار میانگین داده‌ها داده شده است. پس تقریبا محاسبه آسان‌تری برای ضریب تغییرات با فرمول زیر در پیش داریم:

CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%

ابتدا باید انحراف معیار را پیدا کنیم که از واریانسی با فرمول زیر حاصل می‌شود:

σ2=i=1n(xixˉ)2n1\sigma^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}

xix_ixixˉx_i-\bar{x}(xixˉ)2(x_i-\bar{x})^2
18181819.2=1.218-19.2=-1.2(1.2)2=1.44(-1.2)^2=1.44
22222219.2=2.822-19.2=2.8(2.8)2=7.84(2.8)^2=7.84
19191919.2=0.219-19.2=-0.2(0.2)2=0.04(-0.2)^2=0.04
25252519.2=5.825-19.2=5.8(5.8)2=33.64(5.8)^2=33.64
12121219.2=7.212-19.2=-7.2(7.2)2=51.84(-7.2)^2=51.84
i=1n(xixˉ)2=94.8\sum_{i=1}^n (x_i-\bar{x})^2=94.8

دقت کنید چون پنج روز از کل روزهای سال انتخاب شده است، پس باید فرمول واریانس نمونه را استفاده کنیم که در آن مخرج یک واحد کمتر از تعداد کل داده‌ها است. پس در نهایت واریانس برابر می‌شود با:

σ2=94.84=23.7\Rightarrow \sigma^2=\frac{94.8}{4}=23.7

بنابراین انحراف معیار می‌شود:

σ=σ2=23.7=4.9\Rightarrow \sigma=\sqrt{\sigma^2}=\sqrt{23.7}=4.9

و ضریب تغییرات نیز برابر است با:

CV=σxˉ×100%=4.919.2×100%=25.52CV=\frac{\sigma}{\bar{x}}\times100 \%=\frac{4.9}{19.2}\times100 \%=25.52

تمرین

اگر مقادیر ضریب تغییرات و انحراف معیار دو سری داده X و Y به‌ترتیب برابر با ٪۵۵٫۴۳ و ٪۴۸٫۸۶ و ۲۵٫۵ و ۲۴٫۴۳ باشند، میانگین این دو سری داده به‌ترتیب برابر با کدام گزینه است؟

5050 و 4646

4646 و 5050

6464 و 5050

5050 و 6464

پاسخ تشریحی

گزینه دوم صحیح است. می‌دانیم فرمول محاسبه ضریب تغییرات به‌صورت زیر است:

CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%

بنابراین اگر میانگین را در این فرمول بخواهیم، داریم:

μ=σCV×100%\Rightarrow \mu=\frac{\sigma}{CV}\times100 \%

ابتدا برای سری داده X میانگین را به‌دست می‌آوریم:

μ=25.555.43×100%=46\Rightarrow \mu=\frac{25.5}{55.43}\times100 \%=46

سپس برای سری داده Y میانگین را به‌دست می‌آوریم:

μ=24.4348.86×100%=50\Rightarrow \mu=\frac{24.43}{48.86}\times100 \%=50

ضریب انحراف چارک چیست و چگونه محاسبه می‌شود؟

در بخش‌های قبل یاد گرفتیم انحراف چارک اندازه مطلقی از پراکندگی برای داده‌هایی با واحد مشابه را به ما می‌دهد. اما برای مقایسه تنوع دو یا تعداد بیشتری توزیع داده که در قالب واحدهای مختلفی بیان می‌شوند، نیاز داریم یک اندازه‌گیری نسبی روی پراکندگی داشته باشیم. به این منظور باید یک ضریب پراکندگی جدید به نام ضریب انحراف چارک یا CQD را محاسبه کنیم. برای محاسبه این ضریب کافی است ابتدا انحراف چارک را محاسبه کنیم و سپس آن را به مجموع مقادیر چارک اول و سوم تقسیم کنیم:

CQD=Q3Q1Q3+Q1CQD=\frac{Q_3-Q_1}{Q_3+Q_1}

که در آن چارک بالا یا Q3 برابر است با اندازه آیتم 3(n+14)3(\frac{n+1}{4})ام، در حالی که چارک پایین یا Q1 با اندازه آیتم n+14\frac{n+1}{4}ام معادل است. پس فرمول ضریب پراکندگی برای انحراف چارک را هم یاد گرفتیم.

تصویری زا چند توزیع نرمال رنگارنگ

مثال

اگر داده‌هایی به‌صورت زیر داشته باشیم، ضریب انحراف چارک چقدر است؟

دادهفراوانی
101099
22221515
24242929
31312424
363633
43432727

پاسخ

در این سوال داده‌های گروه‌بندی شده داریم. پس لازم است در اولین قدم پس از مرتب کردن داده‌ها، فراوانی تجمعی را به‌دست آوریم:

دادهفراوانیفراوانی تجمعی
10109999
222215159+15=249+15=24
2424292924+29=5324+29=53
3131242453+24=7753+24=77
36363377+3=8077+3=80
4343272780+27=10780+27=107

بنابراین با در نظر گرفتن n برابر با ۱۰۷ ادامه می‌دهیم. اولین قدم محاسبه چارک اول است که برابر می‌شود با اندازه آیتم 3(n+14)3(\frac{n+1}{4})ام:

3(107+14)=273(\frac{107+1}{4})=27

آیتم بیست و هفتم در داده‌ها بین ۲۴ و ۵۳ در ستون سوم قرار دارد و داده معادل آن می‌شود ۲۴. پس چارک پایین برابر است با:

Q1=24Q_1=24

حالا می‌رویم سراغ چارک بالا که برابر است با اندازه آیتم 3(n+14)3(\frac{n+1}{4})ام:

3(107+14)=813(\frac{107+1}{4})=81

آیتم هشتاد و یکم در ستون سوم جدول بین ۸۰ و ۱۰۷ قرار دارد. پس داده معادل با آن ۴۳ است:

Q3=43Q_3=43

با داشتن چارک‌های بالا و پایین و با نوشتن فرمول ضریب انحراف چارک، به‌راحتی کمیت موردنظر در سوال محاسبه می‌شود:

CQD=Q3Q1Q3+Q1CQD=\frac{Q_3-Q_1}{Q_3+Q_1}

CQD=432443+24=1967=0.28\Rightarrow CQD=\frac{43-24}{43+24}=\frac{19}{67}=0.28

اندازه‌گیری پراکندگی و تمایل مرکزی

پس از اینکه انواع ضریب پراکندگی و فرمول محاسبه هر کدام را کاملا آموختیم، در این بخش می‌خواهیم اندازه‌گیری پراکندگی را با بررسی تمایل مرکزی مقایسه کنیم و ببینیم فواید و کاربرد هر کدام به چه صورت است. اندازه‌گیری پراکندگی و تمایل مرکزی هر دو جزء روش‌هایی هستند که برای توصیف داده‌ها بکار می‌روند. همچنین رابطه این دو اندازه‌گیری به این صورت است که هر چه پراکندگی داده‌های ما در یک توزیع کمتر باشد، تمایل مرکزی بیشتر است.

اما باید به تفاوت این دو نیز کاملا آگاه باشیم. تفاوت‌های این دو اندازه‌گیری عبارت‌اند از:

  • تمایل مرکزی برای اعدادی بکار می‌رود که یک توصیف کمی از خواص مجموعه داده ما ارائه می‌دهند، در حالی که اندازه پراکندگی به منظور کمی‌سازی تنوع پراکندگی داده‌ها بکار می‌رود.
  • اندازه‌گیری تمایل مرکزی با محاسبه کمیت‌هایی مانند میانگین، میانه و مد انجام می‌شود.
  • اندازه‌گیری پراکندگی شامل پارامترهای بیشتری مثل دامنه، واریانس، انحراف معیار، انحراف میانگین و انحراف چارک است که برای محاسبه برخی از این پارامترها، نیاز داریم ابتدا میانگین، میانه یا مد را به‌دست آوریم.

مسیر یادگیری کابردهای آمار و احتمال با فرادرس

با توجه به اینکه برای درک بهتر شاخه‌های جدید علم مانند «علم داده» (Data Science) نیاز به دانش قوی در زمینه مقدمات آمار و پراکندگی دارید، بنابراین در این بخش قصد داریم چند فیلم آموزشی مهم در رابطه با مباحث آمار و احتمال که با حوزه علم داده مرتبط است، به شما معرفی کنیم:

مجموعه فیلم های آموزش آمار فرادرس
برای مشاهده مجموعه فیلم‌های آموزش آمار و احتمال از دروس دانشگاهی تا کاربردی فرادرس، روی تصویر کلیک کنید.
  1. فیلم آموزش آمار و احتمال مهندسی جامع و با مثال های مختلف فرادرس
  2. فیلم آموزش آمار ریاضی ۲ – آزمون فرض فرادرس
  3. فیلم آموزش مبانی احتمال مرور و حل تست کنکور ارشد فرادرس
  4. فیلم آموزش رایگان انواع داده در کامپیوتر فرادرس
  5. فیلم آموزش مفاهیم آماری در داده کاوی و پیاده سازی آن در پایتون Python فرادرس
  6. فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python بخش یکم فرادرس

همچنین در لیست زیر برخی از کاربردی‌ترین دوره‌های فرادرس را که شامل مفاهیم آماری در زمینه یادگیری ماشین، نحوه کار با نرم‌افزارهای آماری مانند اکسل یا SPSS می‌شوند را مشاهده می‌کنید:

  1. مجموعه آموزش اس پی اس اس SPSS – مقدماتی تا پیشرفته فرادرس
  2. فیلم آموزش آنالیز واریانس با اس پی اس اس SPSS فرادرس
  3. فیلم آموزش آمار مرور و حل سوالات آزمون های استخدامی فرادرس
  4. فیلم آموزش رایگان درخت تصمیم در یادگیری ماشین فرادرس
  5. فیلم آموزش محاسبات آماری در اکسل Excel فرادرس

جمع‌بندی

در این مطلب از مجله فرادرس آموختیم انواع مختلف فرمول ضریب پراکندگی چگونه تعریف می‌شوند. همچنین یاد گرفتیم درک مفهوم پراکندگی به ما نشان می‌دهد نحوه توزیع داده‌ها در یک مجموعه داده چگونه است و برای اینکه بتوانیم آن را اندازه‌گیری کنیم، نیاز است کمیت‌های مختلفی محاسبه شوند. در جدول زیر، خلاصه‌ای از تمام فرمول‌های مورد نیاز در بررسی، اندازه‌گیری و تحلیل پراکندگی را جمع‌آوری کرده‌ایم:

ضریب پراکندگیاندازه‌گیری نسبی پراکندگیاندازه‌گیری مطلق پراکندگی
ضریب دامنه (QR)QR=LSL+SQR=\frac{L-S}{L+S}R=LSR=L-S
ضریب انحراف میانگین (CMD)CMD=i=1nxiμμnCMD=\frac{\sum_{i=1}^n |x_i-\mu|}{\mu n}MD=i=1nxiμnMD=\frac{\sum_{i=1}^n |x_i-\mu|}{n}
ضریب تغییرات (CV)CV=σμ×100%CV=\frac{\sigma}{\mu}\times100 \%σ2=i=1n(xiμ)2n\sigma^2=\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}
ضریب انحراف چارک (CQD)CQD=Q3Q1Q3+Q1CQD=\frac{Q_3-Q_1}{Q_3+Q_1}QD=Q3Q12QD=\frac{Q_3-Q_1}{2}
بر اساس رای ۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
GeeksforGeeksKnowledgehutGeeksforGeeksGeeksforGeeksGeeksforGeeksGeeksforGeeksGeeksforGeeksOpen.maricopaCuemathCuemathMediumLecturio
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *