• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言模拟完全随机缺失数据

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

R模拟完全随机缺失

为了验证自己填补算法的好坏,一般采用完整数据集进行人为缺失,缺失机制为完全随机缺失(MCAR),可设置不同缺失率。

先下载simFrame包  install.packages("simFrame"),simFrame包可以直接对数据进行缺失处理。

具体操作如下:

 

1. 导入simFrame包

> library(simFrame)

2. 读取你的完整数据集(csv文件)

> data<-read.csv("D://statlog.csv",sep=",")# sep为逗号分隔符

> dataFrame<-as.data.frame(data)

或者批量处理数据:

path <- "C:\\Users\\Administrator\\Desktop\\test"

fileNames <- dir(path)#批量读入文件一般使用dir(...),通过dir(...)可是获取该路径下所有的文件名

filePath <- sapply(fileNames, function(x){paste(path,x,sep='\\')})

data <- lapply(filePath, function(x){read.csv(x, header=T)})  

批量处理数据后生成的是列表的形式。

 

3. 设置缺失率并将数据集缺失处理。

> nac<-NAControl(NArate=0.1)#在此缺失率为10%。可以自行调整

> x<-setNA(dataFrame,nac)

 

4. 将有缺失的数据集输出保存为csv文件

> write.table(x,file="D:\\44.csv",sep=",",quote=TRUE)

过程如下图:

处理后的 数据:


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
写给想学习R语言的人一些建议发布时间:2022-07-18
下一篇:
用R语言的ROC评价决策树和神经网络哪个更优发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap