在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
数据缺失有多种原因,而大部分统计方法都假定处理的是完整矩阵、向量和数据框。 缺失数据的分类: 完全随机缺失:若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失(MCAR)。 随机缺失:若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR)。 非随机缺失:若缺失数据不属于MCAR或MAR,则数据为非随机缺失(NMAR) 。
处理缺失数据的方法有很多,但哪种最适合你,需要在实践中检验。 下面一副图形展示处理缺失数据的方法:
1、识别缺失数据 2、检测导致数据缺失的原因
3、删除包含缺失值的实例或用合理的数值代替(插补)缺失值。
1、识别缺失数据:
R语言中,NA代表缺失值,NaN代表不可能值,Inf和-Inf代表正无穷和负无穷。
在这里,推荐使用is.na,is.nan,is.finite,is.infinite4个函数去处理。
x<-c(2,NA,0/0,5/0)
展示出数据中缺失的行(数据集sleep来自包VIM)
sleep[!complete.cases(sleep),]
针对复杂的数据集,怎么更好的探索数据缺失情况呢? mice包中的md.pattern()函数可以生成一个以矩阵或数据框形式展示缺失值模式的表格。
第一行给出了没有缺失值的数目(共多少行)。
第一列表示各缺失值的模式。 最后一行给出了每个变量的缺失值数目。 最后一列给出了变量的数目(这些变量存在缺失值)。 在这个数据集中,总共有38个数据缺失。 图形化展示缺失数据:
aggr(sleep,prop=F,numbers=T)
marginmatrix(sleep) 上述变量太多,我们可以选出部分变量展示:
x <- sleep[, 1:5] 为了更清晰,可以进行成对展示:
marginplot(sleep[c("Gest","Dream")])
左边的红色箱线图展示的是在Gest值缺失的情况下Dream的分布,而蓝色箱线图展示的Gest值不缺失的情况下Dream的分布。同样的,Gest箱线图在底部。
2、缺失值数据的处理 行删除法:数据集中含有缺失值的行都会被删除,一般假定缺失数据是完全随机产生的,并且缺失值只是很少一部分,对结果不会造成大的影响。
即:要有足够的样本量,并且删除缺失值后不会有大的偏差!
行删除的函数有na.omit()和complete.case()
newdata<-na.omit(sleep)
均值/中位数等填充:这种方法简单粗暴,如果填充值对结果影响不怎么大,这种方法倒是可以接受,并且有可能会产生令人满意的结果。
方法1:
newdata<-sleep
方法2: Hmisc包更加简单,可以插补均值、中位数等,你也可以插补指定值。
library(Hmisc) mice包插补缺失数据:链式方程多元插值,首先利用mice函数建模再用complete函数生成完整数据。 下图展示mice包的操作过程:
with():可依次对每个完整数据集应用统计建模 pool():将with()生成的单独结果整合到一起
library(mice) 插补方法是pmm:预测均值匹配,可以用methods(mice)查看其他方法 maxit指迭代次数,seed指设定种子数(和set.seed同义)
summary(data)
查看整体插补的数据:
data$imp 查看具体变量的插补数据:
data$imp$Dream 最后,最重要的是生成一个完整的数据集 completedata<-complete(data)
判断还有没有缺失值,如果没有,结果返回FLASE
anyNA(completedata) 针对以上插补结果,我们可以查看原始数据和插补后的数据的分布情况
library(lattice)
densityplot(data)
stripplot(data, pch = 21)
上图中,0代表原始数据,1-5代表5次插补的数据,洋红色的点代表插补值。 下面我们分析对数据拟合一个线性模型:
完整数据:
library(mice) fim指的是各个变量缺失信息的比例,lambda指的是每个变量对缺失数据的贡献大小
缺失数据(在运行中,自动会行删除): kNN插值法:knnImputation函数使用k近邻方法来填充缺失值。对于需要插值的记录,基于欧氏距离计算k个和它最近的观测。接着将这k个近邻的数据利用距离逆加权算出填充值,最后用该值替代缺失值。
library(DMwR)
目前,处理缺失值还有其他方法: |
请发表评论