داده گمشده یا ناموجود (Missing Data) در R – روش های پاکسازی داده ها
مسئله «مقادیر گمشده» (Missing Values) در «علم داده» (Data Science) و بخصوص «دادهکاوی» (Data Mining)، زمانی رخ میدهد که یک یا چند مشاهده دارای مقدارهایی ثبت نشده یا ناموجود در ستونهای «چارچوب اطلاعاتی» (Data Frame) هستند. در چنین حالت میگوییم آن مشاهده دارای «مقدار گمشده» (Missing Value) یا «مقدار ناموجود» است. در این حالت این مجموعه داده را دارای «داده گمشده» (Missing Data) یا دادههای گمشده میگوییم. به منظور تحلیلهای آماری روی مجموعههای اطلاعاتی با داده گمشده، باید مشخص کنیم که نقش چنین مشاهداتی در محاسبات مربوط به تحلیل آماری چگونه است. در این نوشتار با استفاده از کتابخانه از زبان برنامه نویسی R، بعضی از روشهای مدیریت دادههای گمشده را بررسی خواهیم کرد.
مدیریت داده گمشده یا ناموجود
روشهای مختلفی برای برخورد با چارچوب های اطلاعاتی و مشاهداتی که دارای داده گمشده هستند، وجود دارد. این مقدارها در محیط نرمافزاری R به صورت NA ثبت یا نشان داده میشوند.
دو رویکرد برای مدیریت داده گمشده میتوان در نظر گرفت.
- خروج مشاهدات یا متغیرها با مقدارهای گمشده از محاسبات و تحلیلهای آماری
- جایگزنی دادههای گمشده با مقدار جایگزین (مثلا میانگین یا میانه مقدارهای متغیر)
تصویر زیر اموری که باید قبل از انجام «تحلیل داده» (Data Analysis) صورت بگیرد را نشان میدهد. این مراحل به عنوان گامهای اولیه در دادهکاوی شناخته میشوند. همانطور که مشخص است، ستون اول عملیات مربوط به «تبدیلات داده» (Data Manipulation) و ستون دوم، مرحله «پاکسازی داده» (Cleaning Data) و ستون سوم نیز مربوط به مرحله «نمایش داده» (Data Visualization) است که دو مرحله اول میتواند بوسیله توابع کتابخانه انجام پذیرد. در ادامه با چند تابع از این کتابخانه آشنا میشویم که براساس آنها میتوانیم مقدارهای NA را شناسایی کرده و نقش آنها را در تحلیلهای آماری تعیین کنیم.
تابع و تابع
یکی از توابع موثر در R که برای کار روی داده گمشده مناسب است، تابع از کتابخانه است. کار با این تابع بسیار ساده بوده و پارامترهای محدودی دارد. بنابراین ابتدا با این توابع آشنا میشویم. به کمک تابع میتوانید یک متغیر جدید براساس محاسبات تعیین شده، ایجاد کنید. شکل دستوری این تابع و پارامترهای آن در ادامه دیده میشود.
1mutate(df, name_variable_1 = condition, ...)
2arguments:
3-df: Data frame used to create a new variable
4-name_variable_1: Name and the formula to create the new variable
5-...: No limit constraint. Possibility to create more than one variable inside mutate()
- df: پارامتر اول همان مجموعه داده یا df است که باید عملیات مورد نظر روی آن اجرا شود.
- name_variable_1: پارامتر دوم نیز نام متغیر و فرمولی است که متغیر جدید باید براساس آن ساخته شود.
نکته: در ادامه پارامتر دوم میتوانید از پارامترهای دیگری هم استفاده کنید تا امکان محاسبه متغیرهای جدید هم فراهم آید.
به منظور جایگزینی مقدارهای NA باید از تابع دیگری به نام استفاده کرد. این تابع نیز دارای شکل دستوری و پارامترهای سادهای است که در ادامه به بررسی آنها میپردازیم.
1replace_na(data, replace, ...)
2arguments:
3
4data:A data frame or vector.
5replace:If data is a data frame, a named list giving the value to replace NA with for each column. If data is a vector, a single value used for replacement.
6...
7Additional arguments for methods. Currently unused.
مشخص است که پارامتر اول همان مجموعه داده یا برداری است که باید مقدار NA در آن جایگزین شود و پارامتر دوم نیز مقدار جایگزین شده را مشخص میکند. به این ترتیب اگر بخواهیم متغیرهایی که دارای مقدار NA هستند را با مقدار جدید (مثلا ۰) جایگزین کنیم باید از شکلی دستوری زیر کمک بگیریم. در اینجا فرض کردهایم که مجموعه داده، ترکیبی از متغیرهای x و y و z است که دارای مقدارهای عددی، متنی و همچنین NA هستند. برای ترکیب آنها و تشکیل یک مجموعه داده از تابع استفاده شده است.
1library(dplyr)
2library(tidyr)
3df <- tibble(x = c(1, 2, NA), y = c("a", NA, "b"), z = list(1:5, NULL, 10:20))
4df
5df_nona=df %>% mutate(x = replace_na(x, 0))
6df_nona
همانطور که مشخص است از دو کتابخانه برای تابع و برای تابع استفاده کردهایم. به این ترتیب با ترکیب این دو تابع امکان جایگزینی مقدار NA با هر مقدار دیگری وجود دارد. همچنین خروجی حاصل از این کد، یک چارچوب داده به نام df_nona است که هیچ مقدار NA ندارد.
نکته: ممکن است زمانی بخواهید در یک متغیر مقدار خاصی را به مقدار NA تبدیل کنید. در این حالت از تابع میتوانید کمک بگیرید که در کتابخانه قرار دارد.
خارج کردن داده گمشده از مجموعه داده
اگر میخواهید داده گمشده از مجموعه اطلاعاتی خارج شود و در تحلیلهای آماری نقشی نداشته باشد، کافی است از تابع استفاده کنید. کد زیر برای انجام این امور نوشته شده است. در این کد از یک فایل اطلاعاتی برای انجام مراحل کار استفاده خواهیم کرد. در ادامه نیز برای اجرای دستورات و توابع دیگر از همین فایل کمک میگیریم.
1PATH <- "https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/titanic_csv.csv"
2df_titanic <- read.csv(PATH, sep = ",")
3# Return the column names containing missing observations
4list_na <- colnames(df_titanic)[ apply(df_titanic, 2, anyNA) ]
5list_na
هنگام اجرای این کد باید به اینترنت متصل باشید تا مجموعه داده متنی titanic_csv که با قالب متنی csv ثبت شده، روی دستگاه شما بارگذاری شود. این مجموعه داده در متغیری با نام df_titanic ذخیره میشود. در انتها نیز لیست ستونهایی که دارای مقدار گمشده هستند به عنوان خروجی ظاهر میشود.
1## [1] "age" "fare"
مشخص است که دستور ، اسامی ستونهای این مجموعه داده را ظاهر کرده است. برای حذف مقدارهای گمشده دادهها از کدهای زیر کمک میگیریم.
1library(dplyr)
2# Exclude the missing observations
3df_titanic_drop <-df_titanic %>%
4na.omit()
5dim(df_titanic_drop)
همانطور که میبینید تابع باعث حذف مقدارهای گمشده شده است و ابعاد مجموعه داده کاهش یافته است. این ابعاد به کمک تابع محاسبه شده و نتیجه 1045 سطر و ۱۳ ستون را نشان میدهد.
1## [1] 1045 13
در تصویر زیر مقایسهای بین مشاهدات اولیه و مشاهدات پس از حذف مقدارهای گمشده صورت گرفته است. به منظور مقایسه بهتر تصاویر مربوط به خروجی حالت قبل از حذف و بعد از آن در کنار هم دیده میشوند. اگر میبینید که مشاهده ۶۰ام به مشاهده ۴۲ام در حالت بعد از حذف تبدیل شده است، علت کنار گذاشته شدن مشاهدات با مقدارهای NA در مجموعه داده اولیه است. به این ترتیب تعداد مشاهدات کاهش یافته و شماره ردیفها تغییر میکند.
جایگزین مقدار برای داده گمشده
در بعضی از تحلیلهای آماری به دلیل کمبود مشاهدات، گاهی داده گمشده را با میانگین (Mean) یا میانه (Median) جایگزین میکنند تا تعداد نمونه، کاهش نیابد.
در قسمت قبلی، اسامی متغیرهایی که دارای داده گمشده بودند استخراج شد. حال از این لیست برای جایگزینی مقدار داده گمشده استفاده میکنیم. این کار را در سه مرحله انجام میدهیم.
- از لیست متغیرهای دارای مقدار گمشده، برای انتخاب متغیرهای مورد نیاز استفاده میکنیم. این لیست در مثال ما با نام مشخص شده است.
- از تابع برای محاسبه میانگین یا شاخصهای دیگر برای ستونهایی با مقدار NA استفاده میکنیم. در این حالت از پارامتر در تابع کمک میگیریم.
- مقدار محاسبه شده در مرحله ۲ را جایگزین مقدارهای گمشده برای هر متغیر میکنیم.
کد زیر با جایگزین کردن میانگین به جای مقدارهای گمشده، عمل پاکسازی داده را انجام میدهد. مشخص است که با اجرای تابع متغیر جدیدی برای هر دو متغیر انتخابی، با نامهای replace_mean_age و replace_mean_fare ایجاد شده.
1# Create mean
2average_missing <- apply(df_titanic[,colnames(df_titanic) %in% list_na],
3 2,
4 mean,
5 na.rm = TRUE)
6average_missing
7# Create a new variable with the mean and median
8df_titanic_replace <- df_titanic %>%
9 mutate(replace_mean_age = ifelse(is.na(age), average_missing[1], age),
10 replace_mean_fare = ifelse(is.na(fare), average_missing[2], fare))
در قسمت اول کد، در تابع چهار پارامتر مقدار دهی شده است.
df: این پارامتر با [ مقدار دهی شده است که بیان میکند باید از مجموعه داده، ستونهایی که نامشان در لیست list_na قرار دارد استفاده شود. به این ترتیب فقط ستونهای age و fare به کار گرفته میشوند.
مقدار 2: محاسبه تابع میانگین برای ستونها مجموعه داده (متغیرهای انتخابی age و fare)
mean: تابع محاسباتی توسط که در اینجا میانگین انتخاب شده است.
na.rm: این پارامتر تعیین میکند که آیا داده گمشده هنگام محاسبه میانگین نادیده گرفته شود؟ TRUE به معنی حذف و FALSE به معنی حفظ داده گمشده در محاسبات است. مشخص است که در محاسبه میانگین فقط تعداد داده گمشده دخیل خواهد بود. به این ترتیب مشخص است که که کد زیر داده گمشده برای متغیر سن (age) را با 29.88113 جایگزین میکند
replace_mean_age = ifelse(is.na(age, average_missing[1], age)
همچنین برای متغیر هزینه سفر (fare) نیز کدی که در زیر نمایش داده شده، مقدار 33.29548 را به جای داده گمشده قرار خواهد داد.
replace_mean_fare = ifelse(is.na(fare), average_missing[2],fare)
همانطور که میتوان محاسبه کرد، 263 داده گمشده با مقدار میانگین جایگزین شده است.
1sum(is.na(df_titanic_replace$age))
2
3## [1] 263
اگر میخواهید که به جای میانگین از میانه متغیرها به عنوان مقدار جدید برای داده گمشده استفاده کنید، کافی است کد زیر را اجرا کنید.
1median_missing <- apply(df_titanic[,colnames(df_titanic) %in% list_na],
2 2,
3 median,
4 na.rm = TRUE)
5df_titanic_replace <- df_titanic %>%
6 mutate(replace_median_age = ifelse(is.na(age), median_missing[1], age),
7 replace_median_fare = ifelse(is.na(fare), median_missing[2], fare))
8head(df_titanic_replace)
در این حالت خروجی به صورت زیر در خواهد آمد.
ممکن است که در مجموعه داده، متغیرهای زیادی دارای مقدارهای گمشده باشند و اجرای کدهای بالا برای تک تک آنها با مشکل مواجه شود. به منظور سرعت بخشیدن به عملیات جایگزینی و محاسبات شاخصهای آماری، کد زیر تهیه شده است. همانطور که دیده میشود برای انجام این کار از تابع استفاده شده است که متاسفانه یک چارچوب داده ایجاد نمیکند. به همین علت با تابع نتایج حاصل از آن را تبدیل به «چارچوب داده» (Data Frame) کردهایم.
1# Quick code to replace missing values with the mean
2df_titanic_impute_mean < -data.frame(
3 sapply(
4 df_titanic,
5 function(x) ifelse(is.na(x),
6 mean(x, na.rm = TRUE),
7 x)))
خلاصه
در این نوشتار، رویکرد ما برای داده گمشده به دو صورت بیان شد: «حذف» (Deletion) یا «جایگزینی» (Imputation) با مقدار دلخواه. جدولهای زیر به بررسی توابع و عملکرد آنها به این منظور پرداخته است.
حذف | ||
کتابخانه | شرح | کد |
base | نمایش مشاهدات گمشده | colnames(df)[apply(df, 2, anyNA)] |
dplyr | حذف دادههای گمشده از چارچوب داده (df) | na.omit(df) |
جایگزینی | |||
تابع | شرح | مزایا | معایب |
بررسی ستونها با مقدار گمشده و محاسبه شاخصهای آماری | وضوح محاسبات انجام شده و خروجی به صورت چارچوب داده | زمان زیاد برای اجرا روی چند ستون یا متغیر | |
بررسی ستونها با مقدار گمشده و محاسبه شاخص دلخواه | سرعت انجام محاسبات و اجرای همزمان برای چندین ستون | بدون ایجاد چارچوب داده |
اگر این مطلب برایتان مفید بوده است، آموزشهای که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزش های SPSS
- مجموعه آموزشهای نرمافزارهای آماری
- مجموعه آموزش های داده کاوی یا Data Mining در متلب
- آموزش یادگیری ماشین
- آموزش برنامهنویسی R و نرمافزار R Studio
- آموزش تکمیلی برنامهنویسی R و نرمافزار RStudio
- آموزش بررسی توابع خانواده apply در R
- آموزش نمونه گیری در نرم افزار R
- آموزش داده کاوی و زبان برنامه نویسی R
^^