《R语言实战》读书笔记--第五章高级数据管理

本章内容：

数学和统计函数

字符处理函数

循环和条件执行

自编函数

数据整合与重塑

5.1一个数据处理难题

5.2数值和字符处理函数

分为数值函数和字符串函数，下面是数学函数截图：

ceiling、floor、trunc、signif函数第一次听说，是一些数位函数的处理函数。注意log是以e为底的。当上面的函数用在向量、矩阵、数据框时，单独用于每一个独立的值。

5.2.2统计函数

举个例子：mean函数

mean(x, trim = 0, na.rm = FALSE, ...)
#trim参数表示将多少比例的最大和最小数去掉

下面是一些统计函数截图：

下面补充一下统计知识：

sd函数，值得注意sd函数除的是维数 n-1.

mad函数：中位数绝对偏差

mad(x, center = median(x), constant = 1.4826, na.rm = FALSE,
    low = FALSE, high = FALSE)
#The actual value calculated is constant * cMedian(abs(x - center)) with the default value of center being median(x), and cMedian being the usual, the ‘low’ or ‘high’ median, see the arguments description for low and high above.

The default constant = 1.4826 (approximately 1/ Φ^(-1)(3/4) = 1/qnorm(3/4)) ensures consistency, i.e.,

E[mad(X_1,…,X_n)] = σ

for X_i distributed as N(μ, σ^2) and large n.

quantile函数，求分位数的函数。

range函数：值域函数，返回一个对象的最大最小值。

diff函数：

diff(x, lag = 1, differences = 1, ...)
#这个函数返回后面的值减去前面的值的结果，x是一个数值向量或者矩阵，lag是间隔几个
#求差，differences表明做几层的差，比如，如果为2，则做一次差以后的返回值再进行一次
#作差

scale函数：

scale(x, center = TRUE, scale = TRUE)
#这个函数是将一个数值矩阵的每一列进行中心化（center）或者标准化（scale）

#center和scale参数也可以是一个与列数相同向量，分别为自己规定的center和scale

中心化是将数据减去均值，标准化是将数据中心化以后再除标准差。书上的标准化说的是错的，scale函数不是默认0均值，1标准差，而是具体数值的mean和sd。

5.2.3概率函数

首先是概率函数中的几个含义：

d:density(密度)
p:distribution function(分布函数)
q:quantile function(分位数函数)
r:生成随机数(随机偏差)

常见的概率分布函数:

再来一次,d表示密度,p是分布函数,q是分位数函数r是随机生成.

pretty函数:
pretty(x, n = 5, min.n = n %/% 3,  shrink.sml = 0.75,
       high.u.bias = 1.5, u5.bias = .5 + 1.5*high.u.bias,
       eps.correct = 0, ...)
#稍后解释

1.设置随机数种子

每次生成随机数的时候,函数会使用不同的种子,因此产生不同的结果.使用种子设置是为了产生可重复的随机数.

函数set.seed:

2.生成多元正态数据

利用MASS包中的mvrnorm函数可以生成多元正态数据,

mvrnorm(n = 1, mu, Sigma, tol = 1e-6, empirical = FALSE, EISPACK = FALSE)
#n是维数,mu是均值向量,Sigma是协方差矩阵,empirical 若是TRUE,
#则是指定的mu和Sigma

Sigma <- matrix(c(10,3,3,2),2,2)
var(mvrnorm(n = 1000, rep(0, 2), Sigma))
var(mvrnorm(n = 1000, rep(0, 2), Sigma, empirical = TRUE))

结果:

          [,1]     [,2]
[1,] 10.783732 3.280442
[2,]  3.280442 2.063448

和

     [,1] [,2]
[1,]   10    3
[2,]    3    2

5.2.4字符串处理函数

见截图：

nchar函数返回向量中每一个字符串的长度，参数中有关于处理NA的参数，keepNA = TRUE，则返回的结果中保留NA，否则返回2（NA的长度）.

substr：注意在更改的时候，每个个体值字符的长度是不变的，不管你的赋值是多少个；赋的少了，只改赋的那部分，长了，只是修改跟自己原来长度一样的部分。

grep函数：

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
     fixed = FALSE, useBytes = FALSE, invert = FALSE)

grepl(pattern, x, ignore.case = FALSE, perl = FALSE,
      fixed = FALSE, useBytes = FALSE)

sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
    fixed = FALSE, useBytes = FALSE)

gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
     fixed = FALSE, useBytes = FALSE)

regexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
        fixed = FALSE, useBytes = FALSE)

gregexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
         fixed = FALSE, useBytes = FALSE)

regexec(pattern, text, ignore.case = FALSE,
        fixed = FALSE, useBytes = FALSE)
#这是一组函数，看一下参数说明：
#1、pattern：字符或者正则表达式
#2、x，text：被匹配的字符向量
#3、igno.case：默认的FALSE表示大小写敏感，TRUE为不敏感
#4、perl：若为TRUE，表示应用Perl的正则表达式规则
#5、value：默认为F表示返回下标或者逻辑值，若为T，返回字符串
#6、fixed：若为TRUE，则不用正则表达式，直接字符串匹配
#7、useBytes：默认F按照字符查找，若为T，按照字节查找，注意中文查找这个参数有用
#8、invert：F则为正常查找，若为T则查找pattern的补集
#9、replacement：sub和gsub函数中，表示替换的字符

grep返回的是下标，grepl返回的是逻辑值。

sub和gsub必须有replacem参数，其次：

sub("A",x = c(\'a\',\'AA\'),replacement = \'asd\')和gsub("A",x = c(\'a\',\'AA\'),replacement = \'asd\')的区别在于，sub只是替换第一个匹配的字符，gsub是替换所有的匹配字符。

结果为：

[1] "a"    "asdA"和

[1] "a"      "asdasd"

下面是剩余三个函数的例子：

转自：http://blog.sina.com.cn/s/blog_69ffa1f90101sie9.html

regexpr、gregexpr、regexec这三个函数返回的结果包含了匹配的具体位置和字符串长度信息，可以用于字符串的提取操作。

text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.")

regexpr("Adam", text)

## [1] 9 5 14 ## attr(,"match.length") ## [1] 4 4 4 ## attr(,"useBytes") ## [1] TRUE

gregexpr("Adam", text)

## [[1]] 
## [1] 9
 ## attr(,"match.length")
 ## [1] 4 ## attr(,"useBytes") 
## [1] TRUE ## ## [[2]] ## [1] 5
 ## attr(,"match.length") 
## [1] 4 
## attr(,"useBytes")
 ## [1] TRUE 
## ## [[3]] 
## [1] 14
 ## attr(,"match.length")
 ## [1] 4 
## attr(,"useBytes") 
## [1] TRUE

regexec("Adam", text)

## [[1]]
 ## [1] 9 
## attr(,"match.length") 
## [1] 4 
## ## [[2]] 
## [1] 5 
## attr(,"match.length")
 ## [1] 4
 ## ## [[3]]
 ## [1] 14 
## attr(,"match.length") 
## [1] 4

strsplit函数：

strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
#在split处分割x，返回一个列表，split不会包含在任何一个列表元素中
#若为空，则按照单个字符进行分割

unlist函数可以去列表化，形成向量。

sapply函数：

sapply(strsplit(c(\'abcdef\'),split=\'b\'),"[")

上面的语句返回的是一个2行1列的矩阵！sapply函数是将一个函数应用到一个向量或者expression上相关的有apply等。

sapply(x, f, simplify = FALSE, USE.NAMES = FALSE)
#x是一个向量或者一个expression，f是函数
#simplify是说是否将返回的列表转换为比较简单的
#向量、矩阵、高维数组，USE.NAMES是说如果
#x是字符，那么返回的结果的名字就用x中的值

‘[’是一个运算符，《R语言编程艺术》中讲到过回去翻。

paste函数：

paste (..., sep = " ", collapse = NULL)
#sep 用来设置用什么来连接;
#若合并的字符串向量大于1,则collapse用来设置
#用什么将向量中所有字符连接起来,且只接收一个字符

paste(\'x\',1:2,sep = \'\')和paste(\'x\',1:2,sep = \'\',collapse = c(\'ABC\'))

结果为:[1] "x1" "x2"和[1] "x1ABCx2"

下面是几个字符串转变函数：

chartr(old, new, x)
tolower(x)
toupper(x)
casefold(x, upper = FALSE)
#chartr 是将x中old转换为new
#tolower  转换为小写
#toupper 转换为大写
#casefold Splus兼容包

5.2.5其他实用函数

书上的函数有length、seq、rep、cut、pretty、cat函数，cut在第四章写过，下面写pretty和cat。

pretty：

pretty(x, n = 5, min.n = n %/% 3,  shrink.sml = 0.75,
       high.u.bias = 1.5, u5.bias = .5 + 1.5*high.u.bias,
       eps.correct = 0, ...)
#pretty用来创建美观的分割点
#这个函数不是规定n等于几，就会分几个间隔，有他
#自己的设定方式

cat：

cat(... , file = "", sep = " ", fill = FALSE, labels = NULL,
    append = FALSE)
#是一个输出函数，远比print表现少很多
#cat将很多参数连接起来输出，每两个连接起来的参数之间自动加上空格
#file是说可以存储到一个文件中，后面的append是设置是覆盖还是添加
#sep是一个字符向量，跟在连接元素的后面
#fill控制是否打印空行，如果为FALSE，则碰到\'\n\'才会打印，若为TRUE，则
#根据默认宽度换行；labels 当fill为TRUE时才有意义，是打印出的行的名称

5.2.6将函数应用于矩阵和数据框

就在说apply函数，写一下：

apply(X, MARGIN, FUN, ...)
#X是一个数组、矩阵或者数据框
#MARGIN 1或者2 表示行或者列
#FUN是作用于每一行或列的函数
#如果FUN是R中的函数，函数名称后面接着加参数就行
#如果是自己编的就自己编好了，这个函数用的很多

lapply 和 sapply 是应用在list上的函数。

一组函数：

lapply(X, FUN, ...)  #返回一个列表

sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE) #与lapply基本相同

vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE) #与sapply相同，但是可以预设返回值类型

replicate(n, expr, simplify = "array") #sapply的封装，多次应用，随机数

simplify2array(x, higher = TRUE)

#X是一个向量、单值或者列表或者expression对象
#FUN是作用在X每个元素上的函数
#simplity 逻辑值 表示是否把结果转换为向量矩阵等
#USE.NAMES 是否将结果的名字设置为原X的值
#FUN.VALUE 设置函数FUN返回值类型
#n 重复的次数
#expr 重复执行的命令
#x 一个列表，通常是 lapply 的返回值
#higher 是否返回为高维数组，否的话是矩阵

下面的总结来自： http://blog.sina.com.cn/s/blog_403aa80a010174dj.html

apply
Apply Functions Over Array Margins
对阵列行或者列使用函数
apply(X, MARGIN, FUN, ...)
lapply
Apply a Function over a List or Vector
对列表或者向量使用函数
lapply(X, FUN, ...)
sapply
Apply a Function over a List or Vector
对列表或者向量使用函数
sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)
vapply
Apply a Function over a List or Vector
对列表或者向量使用函数
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
tapply
Apply a Function Over a Ragged Array
对不规则阵列使用函数
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
eapply
Apply a Function Over Values in an Environment
对环境中的值使用函数
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
mapply
Apply a Function to Multiple List or Vector Arguments
对多个列表或者向量参数使用函数
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE)
rapply
Recursively Apply a Function to a List
运用函数递归产生列表
rapply(object, f, classes = "ANY", deflt = NULL,how = c("unlist", "replace", "list"), ...)
 
apply {base}
通过对数组或者矩阵的一个维度使用函数生成值得列表或者数组、向量。
apply(X, MARGIN, FUN, ...)
X 阵列，包括矩阵
MARGIN  1表示矩阵行，2表示矩阵列，也可以是c(1,2)
例：
>xxx<-matrix(1:20,ncol=4)
>apply(xxx,1,mean)
[1]  8.5  9.5 10.5 11.5 12.5
>apply(xxx,2,mean)
[1]  3  8 13 18
>xxx
     [,1] [,2] [,3] [,4]
[1,]    1    6   11   16
[2,]    2    7   12   17
[3,]    3    8   13   18
[4,]    4    9   14   19
[5,]    5   10   15   20
 
lapply {base}
通过对x的每一个元素运用函数，生成一个与元素个数相同的值列表
lapply(X, FUN, ...)
X表示一个向量或者表达式对象，其余对象将被通过as.list强制转换为list
例：
> x <- list(a = 1:10, beta = exp(-3:3), logic = c(TRUE,FALSE,FALSE,TRUE))
> x
$a
 [1]  1  2  3  4  5  6  7  8  9 10
$beta
[1]  0.04978707  0.13533528  0.36787944  1.00000000  2.71828183  7.38905610
[7] 20.08553692
$logic
[1]  TRUE FALSE FALSE  TRUE
> lapply(x,mean)
$a
[1] 5.5
$beta
[1] 4.535125
$logic
[1] 0.5
 
sapply {base}
这是一个用户友好版本，是lapply函数的包装版。该函数返回值为向量、矩阵，如果simplify=”array”，且合适的情况下，将会通过simplify2array()函数转换为阵列。sapply(x, f, simplify=FALSE, USE.NAMES=FALSE)返回的值与lapply(x,f)是一致的。
sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)
X表示一个向量或者表达式对象，其余对象将被通过as.list强制转换为list
simplify 逻辑值或者字符串，如果可以，结果应该被简化为向量、矩阵或者高维数组。必须是命名的，不能是简写。默认值是TRUE，若合适将会返回一个向量或者矩阵。如果simplify=”array”，结果将返回一个阵列。
USE.NAMES  逻辑值，如果为TRUE，且x没有被命名，则对x进行命名。
例：
> sapply(k, paste,USE.NAMES=FALSE,1:5,sep="...")
     [,1]    [,2]    [,3]  
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
> sapply(k, paste,USE.NAMES=TRUE,1:5,sep="...")
     a       b       c     
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
> sapply(k, paste,USE.NAMES=TRUE,1:5,sep="...",simplyfy=TRUE)
     a              b              c            
[1,] "a...1...TRUE" "b...1...TRUE" "c...1...TRUE"
[2,] "a...2...TRUE" "b...2...TRUE" "c...2...TRUE"
[3,] "a...3...TRUE" "b...3...TRUE" "c...3...TRUE"
[4,] "a...4...TRUE" "b...4...TRUE" "c...4...TRUE"
[5,] "a...5...TRUE" "b...5...TRUE" "c...5...TRUE"
> sapply(k, paste,simplify=TRUE,USE.NAMES=TRUE,1:5,sep="...")
     a       b       c     
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
> sapply(k, paste,simplify=FALSE,USE.NAMES=TRUE,1:5,sep="...")
$a
[1] "a...1" "a...2" "a...3" "a...4" "a...5"
$b
[1] "b...1" "b...2" "b...3" "b...4" "b...5"
$c
[1] "c...1" "c...2" "c...3" "c...4" "c...5"
 
vapply {base}
vapply类似于sapply函数，但是它的返回值有预定义类型，所以它使用起来会更加安全，有的时候会更快
在vapply函数中总是会进行简化，vapply会检测FUN的所有值是否与FUN.VALUE兼容，以使他们具有相同的长度和类型。类型顺序：逻辑<</span>整型<</span>实数<</span>复数
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
X表示一个向量或者表达式对象，其余对象将被通过as.list强制转换为list
simplify 逻辑值或者字符串，如果可以，结果应该被简化为向量、矩阵或者高维数组。必须是命名的，不能是简写。默认值是TRUE，若合适将会返回一个向量或者矩阵。如果simplify=”array”，结果将返回一个阵列。
USE.NAMES  逻辑值，如果为TRUE，且x没有被命名，则对x进行命名。
FUN.VALUE   一个通用型向量，FUN函数返回值得模板
例：
> x<-data.frame(a=rnorm(4,4,4),b=rnorm(4,5,3),c=rnorm(4,5,3))
> vapply(x,mean,c(c=0))
         a          b          c
 1.8329043  6.0442858 -0.1437202
> k<-function(x)
+ {
+ list(mean(x),sd(x))
+ }
> vapply(x,k,c(c=0))
错误于vapply(x, k, c(c = 0)) : 值的长度必需为1，
 但FUN(X[[1]])结果的长度却是2
> vapply(x,k,c(c=0,b=0))
错误于vapply(x, k, c(c = 0, b = 0)) : 值的种类必需是\'double\'，
 但FUN(X[[1]])结果的种类却是\'list\'
> vapply(x,k,c(list(c=0,b=0)))
  a        b        c        
c 1.832904 6.044286 -0.1437202
b 1.257834 1.940433 3.649194 
 
tapply {base}
对不规则阵列使用向量，即对一组非空值按照一组确定因子进行相应计算
tapply(X, INDEX, FUN, ..., simplify = TRUE)
x  一个原子向量，典型的是一个向量
INDEX  因子列表，和x长度一样，元素将被通过as.factor强制转换为因子
simplify  若为FALSE，tapply将以列表形式返回阵列。若为TRUE，FUN则直接返回数值
例：
> height <- c(174, 165, 180, 171, 160)
> sex<-c("F","F","M","F","M")
> tapply(height, sex, mean)
  F     M
170   170
 
eapply {base}
eapply函数通过对environment中命名值进行FUN计算后返回一个列表值，用户可以请求所有使用过的命名对象。
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
env  将被使用的环境
all.names  逻辑值，指示是否对所有值使用该函数
USE.NAMES  逻辑值，指示返回的列表结果是否包含命名
例：
> require(stats)
>
> env <- new.env(hash = FALSE) # so the order is fixed
> env$a <- 1:10
> env$beta <- exp(-3:3)
> env$logic <- c(TRUE, FALSE, FALSE, TRUE)
> # what have we there?
> utils::ls.str(env)
a :  int [1:10] 1 2 3 4 5 6 7 8 9 10
beta :  num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ...
logic :  logi [1:4] TRUE FALSE FALSE TRUE
>
> # compute the mean for each list element
>        eapply(env, mean)
$logic
[1] 0.5
 
$beta
[1] 4.535125
 
$a
[1] 5.5
 
> unlist(eapply(env, mean, USE.NAMES = FALSE))
[1] 0.500000 4.535125 5.500000
>
> # median and quartiles for each element (making use of "..." passing):
> eapply(env, quantile, probs = 1

客服电话

电子邮件

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053