• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言基础——缺失数据

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

R语言基础——缺失数据

缺失数据的分类

统计学家通常将缺失数据分为三类。它们都用概率术语进行描述,但思想都非常直观。我们将用sleep研究中对做梦时长的测量(有12个动物有缺失值)来依次阐述三种类型。
(1)完全随机缺失 若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失(MCAR)。若12个动物的做梦时长值缺失不是由于系统原因,那么可认为数据是MCAR。注意,如果美国有缺失值的变量都是MCAR,那么可以将数据完整的实例看做是对更大数据集的一个简单随机抽样。
(2)随机缺失 若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR)。例如,体重较小的动物更可能有做梦时长的缺失值(可能因为较小的动物较难观察),“缺失”与动物的做梦时长无关,那么该数据就可认为是MAR。此时,一旦你控制了体重变量,做梦时长数据的缺失与出现将是随机的。
(3)非随机缺失 若缺失数据不属于MCAR或MAR,则数据为非随机缺失(NMAR)。例如,做梦时长越短的动物也更可能有做梦数据的缺失(可能由于难以测量时长较短的事件),那么数据可认为是NMAR。

为何会出现缺失数据

1.机器断电,设备故障导致某个测量值发生了丢失。
2.测量根本没有发生,例如在做调查问卷时,有些问题没有答案,或者有些问题是无效的回答等。

缺失值NA

在R中,NA代表缺失值,NA是不可用,not available的简称,用来存储缺失信息。

这里缺失值NA表示没有,但注意没有并不一定就是0,NA是不知道是多少,也能是0,也可能是任何值,缺失值和值为零是完全不同的。

生成没有缺失值的数集

将na.omit应用于一个数据框,则是将包含缺失值的每一行都删除掉

处理缺失包

其他缺失数据

1.缺失数据NAN,代表不可能的值。
2.Inf表示无穷,分为正无穷Inf和负无穷Inf,代表无穷大或者无穷小。

不同缺失值之间的差别

1.NA是存在的值,但是不知道是多少。
2.NAN是不存在的。
3.Inf存在,是无穷大或者无穷小,但是表示不可能的值。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap