[读书笔记] R语言实战（四）基本数据管理

1. 创建新的变量

mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8))
#方法一
mydata$sumx<-mydata$x1+mydata$x2
mydata$meanx<-(mydata$x1+mydata$x2)/2
#方法二
attach(mydata)
mydata$sumx <- x1+x2
mydata$meanx <- (x1+x2)/2
detach(mydata)
#第三种方式
mydata<-transform(mydata,sumx=x1+x2,meanx=(x1+x2)/2)

2. 变量的重编码

连续->类别

错误->正确值

分数->级别划分

3. 变量的重命名

reshape()包中的rename()函数

rename(dataframe, c(oldname=\'newname\',oldname = \'newname\')

4. 缺失值

缺失值：NA(Not Availabe不可用表示)

不可能出现的值：NAN（Not a number, 非数值）

is.na() 检查是否是缺失值

na.rm= TRUE 在计算之前移除缺失值

na.omit()删除所有不完整的规则

5. 日期值：日期值以字符串形式输入到R，然后转化为以数值形式存储的日期变量

as.Date(x, "input_format")

#日期默认输入格式为yyyy-mm--dd
mydates <- as.Date(c(\'2007-06-22\',\'2004-02-13\'))
#新的输入格式
strDates <-c(\'01/05/1965\',\'08/16/1975\')
dates <- as.Date(strDates,"%m/%d/%Y")
#日期转化为字符型变量
strDates <- as.character(dates)

6. 数据类型转化

7. 数据排序

order() 对数据进行排序, 默认顺序是升序，在排序变量前面添加一个减号就可以得到降序的排序结果

8. 数据集的合并

1). 列合并：向数据框中添加变量 merge(dataframeA, dataframeB, by = \'ID\')

2). 行合并：向数据框中添加观测 rbind()

3). subset()函数

newdata <- subset(dateframe, conditions, select = c(col1,col2))

4) 抽样函数 sample()

客服电话

电子邮件

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053