شاخص های آمار توصیفی در علم داده — راهنمای کاربردی

۵۷۲۲ بازدید
آخرین به‌روزرسانی: ۰۷ خرداد ۱۴۰۲
زمان مطالعه: ۵ دقیقه
شاخص های آمار توصیفی در علم داده — راهنمای کاربردی

به عنوان یک حوزه میان رشته‌ای، «علم داده» (Data Science) بیشترین وابستگی را به مفاهیم و تکنیک‌های آماری دارد. در یک سلسله مطالب دنباله‌ای با مفاهیم پرکاربرد آمار در علم داده آشنا خواهیم شد و به این ترتیب شناختی نسبی از تکنیک‌های علم داده پیدا خواهیم کرد که به نوعی با آمار سر و کار دارند. دانشمند و آمارشناس بزرگ انگلیسی «کارل پیرسون» (Karl Pearson) که به عنوان پدر آمار مدرن شاخته می‌شود، در جمله معروف خود، “Statistics is the grammar of Science”، آمار را دستور زبان همه علوم می‌داند.

مشخص است که علم داده نیز از این قاعده مستثنی نیست. برای نمایش کاربردهای علم آمار در حوزه یادگیری ماشین، ۵ مقاله با عنوان‌های زیر تهیه شده است.

در این نوشتار به عنوان قسمت اول، به بررسی انواع داده (Data Type) می‌پردازیم.

اگر برای مطالعه این نوشتار نیازمند پیش‌زمینه‌هایی هستید، بهتر است مطلب جامعه آماری — انواع داده و مقیاس‌های آن‌ها و مقایسه معیارهای تمرکز (میانگین، میانه، نما) و واریانس و اندازه‌های پراکندگی — به زبان ساده را مطالعه کنید.

آمار و انواع داده (Data Types)

به عنوان یک طبقه‌بندی اولیه در علم داده، مقادیر و داده‌ها را به سه گروه تقسیم می‌کنند: داد‌ه‌های عددی، داده‌های طبقه‌ای و داده‌های ترتیبی.

در ادامه هر یک از این گروه‌ها را معرفی کرده و اگر هر گروه نیز دارای زیر بخشی باشد، به آن نیز اشاره خواهیم کرد.

  • داده‌های عددی (Numerical): مقادیری که توسط روش‌های اندازه‌گیری یا شمارش حاصل می‌شوند، از گروه داده‌های عددی محسوب می‌شوند. معمولا این نوع داده را به دو زیر دسته با عنوان، داده‌های گسسته و پیوسته طبقه‌بندی می‌کنند.
    • گسسته (Discrete): این مقدارهای عددی زیر مجموعه‌ای از اعداد طبیعی هستند. (برای مثال تعداد افراد، تعداد فرزندان و ...)
    • پیوسته (Continuous): اگر مقدارهای حاصل از داده‌های عددی، زیر مجموعه‌ای از اعداد حقیقی (دارای اعشار) باشد، نوع داده را پیوسته در نظر می‌گیرند. (برای مثال وزن، مسافت و ...)
  • داده‌های طبقه‌ای (Categorical): معمولا داده‌های مربوط به صفت‌ها یا ویژگی‌های کیفی، از نوع طبقه‌ای هستند. این گونه داده‌ها برای گروه‌بندی اعضای جامعه آماری مناسب هستند. اگر برای نمایش یا مشخص کردن هر طبقه یا گروه از اعداد استفاده کنیم، عمل کدگذاری عددی صورت گرفته و باید توجه داشت که این اعداد نباید مبنای محاسبات ریاضی قرار بگیرند. (برای مثال محل تولد، جنسیت، نوع خودرو و ...)
  • داده‌های ترتیبی (Ordinal): اگر مقدارهای ویژگی‌های کیفی دارای ترتیب باشند، داده‌ها را ترتیبی می‌گویند. برای مثال صفت‌هایی که دارای رتبه یا اولویت‌هایی هستند می‌توانند گروه داده‌های ترتیبی باشند. به کمک چنین ویژگی‌هایی می‌توان اعضای جامعه آماری را مرتب کرد. (برای مثال رتبه هتل‌ها، میزان تحصیلات و ...)

data types

آمار و معیارهای مرکزی (Measures of Central Tendency)

فرض کنید مسافت شهر تهران از ۵ شهر دیگر در یک مجموعه داده به صورت زیر ثبت شده است. می‌خواهیم معیارهای تمرکز را برای این مجموعه داده معرفی و محاسبه کنیم.

1{ 6, 3, 100, 3, 13 }

میانگین (Mean)

معمولا میانگین را با نماد $$\mu$$‌ نشان می‌دهند. شیوه محاسبه آن همان معدل‌گیری است. به این معنی که همه مقادیر با یکدیگر جمع شده و حاصل بر تعداد تقسیم می‌شود. به این ترتیب، میانگین برای داده‌های بالا به صورت زیر محاسبه خواهد شد.

1 6 + 3 + 100 + 3 + 13 = 1252     μ = 125 ÷ 5 = 25

میانه (Median)

میانه، نقطه وسط داده‌ها است. برای محاسبه میانه ابتدا باید همه مقادیر را به ترتیب (از کوچک به بزرگ) قرار داده، سپس مقدار وسط را مشخص کرد. بر این اساس میانه برای داده‌های بالا به صورت زیر بدست می‌آید.

1 3, 3, 6, 13, 1006

نکته: اگر تعداد داده‌ها زوج باشد، میانگین دو مقدار وسطی را به عنوان میانه در نظر می‌گیریم.

میانه نسبت به میانگین کمتر تحت تاثیر «داده‌های پرت» (Outlier) قرار می‌گیرد. بنابراین براساس توزیع داده‌ها، باید برای انتخاب معیار تمرکز از میانگین یا میانه استفاده کرد.

نما (Mode)

مقداری که بیشترین فراوانی را دارد، نما در نظر می‌گیرند. پس برای تعیین نما باید به کمک جدول فراوانی (Frequency Table) مقداری که دارای بیشتری فراوانی است به عنوان نما معرفی کرد.

محاسبه میانگین، میانه و نما برای داده‌های عددی میسر است در حالیکه برای داده‌های طبقه‌ای فقط از نما به عنوان معیار تمرکز استفاده می‌شود. همچنین اگر داده‌ها از نوع ترتیبی باشند، میانه و نما را می‌توان به عنوان شاخص‌های تمرکز مورد محاسبه قرار داد.

آمار و معیارهای پراکندگی (Measures of Variability)

برای شناخت رفتار داده‌ها، علاوه برای مشخص کردن محل تمرکز آن‌ها باید میزان پراکندگی نیز تعیین شود. برای سنجش پراکندگی داده‌ها از شاخص‌های مختلفی که در ادامه معرفی می‌شوند، استفاده خواهیم کرد.

دامنه تغییرات (Range)

فاصله بین بیشترین و کمترین مقدار، دامنه تغییرات را تشکیل می‌دهد. این مقدار حداکثر میزان پراکندگی در داده‌ها را تعیین می‌کند. برای داده‌های مورد نظر ما، دامنه تغییرات به صورت زیر محاسبه می‌شود.

1 1003 = 97

با توجه به شیوه محاسبه دامنه تغییرات، حساسیت آن به «داده‌های پرت» غیرقابل انکار است.

واریانس (Variance)

اگر مرکز داده‌ها را میانگین در نظر بگیریم، واریانس متوسط پراکندگی یا فاصله اعداد نسبت به میانگین را محاسبه می‌کند. به این ترتیب اگر فاصله از میانگین را بوسیله مربع اختلاف مقدارها از میانگین در نظر بگیریم، واریانس میانگین این فواصل خواهد بود.

قبلا میانگین را برای داده‌های فرضی، محاسبه کردیم که برابر با ۲۵ بود. حال طی مراحل زیر واریانس را بدست خواهیم آورد.

گام اول- محاسبه میانگین

1 6 + 3 + 100 + 3 + 13 = 1252     μ = 125 ÷ 5 = 25

گام دوم- محاسبه اختلاف از میانگین

فاصله هر یک از مقدارها را از میانگین داده‌ها محاسبه می‌کنیم.

16 - 25 = -19
23 - 25 = -22
3100 - 25 = 75
43 - 25 = -22
513 - 25 = -12

گام سوم- محاسبه مربعات این فاصله‌ها

1(-19)^2 = 361
2(-22)^2 = 484
3(75)^2 = 5,625
4(-22)^2 = 484
5(-12)^2 = 144

گام چهارم- محاسبه میانگین مربعات فاصله‌ها

براساس مقدارهای بدست آمده از گام سوم، میانگین را بدست می‌آوریم.

1361 + 484 + 5,625 + 484 + 144 = 7,09827,098 ÷ 5 = 1,419.6

به این ترتیب مقدار واریانس برابر با 1419.6 است که مقدار بزرگی به نظر می‌رسد.

سوالی که این جا مطرح می‌شود این است که چرا برای محاسبه واریانس از مربعات فاصله‌ها استفاده شده است؟ از آنجایی که میانگین مرکز ثقل داده‌ها محسوب می‌شود، متوسط فاصله اعداد از میانگینشان برابر با صفر است.

$$\large \sum_{i=1}^n(x_i-\mu)=0$$

زیرا مقدار بعضی از این فاصله‌ها منفی و بعضی دیگر مثبت هستند. در نتیجه مجموع‌ آن‌ها صفر خواهد بود. برای اینکه مقدارهای منفی از بین بروند و فقط میزان فاصله (و نه جهت فاصله) در نظر گرفته شود، این فواصل در محاسبه واریانس به صورت مربع درآمده‌اند. به همین علت نیز واریانس تحت تاثیر شدید داده‌های پرت قرار دارد.

نکته: باید توجه داشت که اگر تعداد اعداد را $$N$$ در نظر بگیریم، هنگام محاسبه واریانس برای جامعه آماری مجموع مربعات فاصله‌ها از میانگین بر تعداد اعضای جامعه ($$N$$) تقسیم می‌کنیم ولی برای محاسبه واریانس یک نمونه از جامعه، مجموع مربعات بر $$N-1$$‌ تقسیم خواهد شد.

به این ترتیب اگر مجموعه داده مورد نظر ما مربوط به یک نمونه باشد، باید واریانس را به صورت زیر محاسبه کنیم.

17,098 ÷ 4 = 1774.5

انحراف استاندارد (Standard Deviation)

اگر جذر واریانس را محاسبه کنیم، انحراف استاندارد حاصل می‌شود. معمولا انحراف استاندارد یا انحراف معیار را با علامت $$\sigma$$ نشان می‌دهند. پس می‌توان رابطه بین واریانس و انحراف استاندارد را به صورت زیر نشان داد.

$$\large \sigma=\sqrt{\sigma^2}$$

برای داده‌های ما نیز انحراف استاندارد مطابق محاسبه زیر بدست می‌آید.

1 σ = SQRT(1,419.6) = 37.68

بر اساس انحراف استاندارد و میانگین می‌توان تشخیص داد که چه داده‌ای پرت محسوب می‌شود. برای مثال داده‌های فرض مطرح شده در این نوشتار، مقدار ۱۰۰ داده پرت (دور افتاده) به نظر می‌رسد زیرا از میانگین بیش از حدود ۳ انحراف استاندارد دور است.

1μ = 25
2σ = 37.68
3100 / 37.68 = 2.65

اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزش‌هایی که در ادامه آمده‌اند نیز برایتان کاربردی خواهند بود.

^^

بر اساس رای ۳۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
۳ دیدگاه برای «شاخص های آمار توصیفی در علم داده — راهنمای کاربردی»

تو توضیحات واریانس قسمت نکته، غلط املایی وجود داره و دوبار واریانس رو به کار بردین

با سلام؛
نکته صحیح است، واریانس را می‌توان برای تمام جمعیت یک جامعه آماری به‌دست آورد یا قسمتی از جامعه آماری را انتخاب و واریانس را برای نمونه‌های انتخاب شده محاسبه کرد. بنابراین، به هنگام محاسبه واریانس برای تمام جمعیت باید مجموع مربعات فاصله‌ها از میانگین بر تعداد اعضای جامعه ($$N$$) تقسیم شود. در مقابل، برای محاسبه واریانس برای گروخی اط جامعه آماری باید مجموع مربعات فاصله‌ها از میانگین را بر $$N-1$$ تقسیم کنیم.
با تشکر از همراهی شما با مجله فرادرس

با سلام و تشکر بابت آموزش
آیا در انتها برای تشخیص داده پرت لازم نیست ابتدا 100 از 25 که میانگین است کم شود سپس با تقسیم بر انحراف معیار استاندارد یعنی 37 مقدار دور بودن آن از سایر داده ها سنجیده شود؟ لطفا توضیح بفرمایید.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *