R语言学习笔记(概念、公式及R函数)

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

1、随机实验：
可在相同
2、随机事件

均值u:这个很好理解 R函数:mean
中位数:对序列排序后,排在中间的数,需要特别注意的是如果序列为偶数,中位数是中间两个数平均值. R函数:median
百分位数:也是顺序统计量,设百分数为p,n是样本个数,则p位数指:np为小数,ceiling(np)+1,np为整数,则p位数:(x[np]+x[np+1])/2. R函数:quantile()
方差s^2,标准差s:注意是除以n-1,而不是n.与方差期望的计算不一样.
变异系数CV:s/u*100(%),s标准差,u均值.
样本校正平方和(CSS):样本与均值差的平方的求和,sum((X-u)^2).
样本未校正平方和(USS):样本值平方的求和.sum((X^2))
极差R:max(X)-min(X)
四分位差(半极差):R3-R1.
样本标准误:s/sqrt(n).
偏度系数g1:n^2/((n-1)(n-2)) * u3^3/ s^3,u3:三阶中心矩.
峰度系数g2:u4/u2^2-3

QQ图:如果QQ图近似直线,则说明样本来自正态分布总体;

正太性W检验方法:shapiro.test(x);p-value>0.05表示接受原假设,符合正态分布.
经验分布的Kolmogorov-Smirnov检验:ks.test()

3、参数检验
t.test():对正态总体作均值检验和区间估计；单样本和双样本皆可；
var.test（）：对总体方差比提供检验和区间估计；
var.test（）：二项分布总体检验和估计
chisq.test()：Pearson 拟合优度χ2检验检验是否具有某种分布
ks.test():Kolmogorov-Smirnov检验，检验是否具有某种分布
Fisher：费契尔精确独立检验；
mcnemar.test（）：检验两个相关分布的频率变化的显著性；
binom.test()：二项分布检验，检验某个样本是否来自某个总体，也可以检验两个总体是否存在差异；
cor.test()：相关性检验，包括Spearman秩相关检验.
wilcox.test()：秩检验，比如检验均值与某个值得比较。

4、分类判别

1)距离判别
马氏距离：sqrt(t(X-Y)(X-Y)),判别式：t(x-u) * ∑-1(u1-u2).
2)、贝叶斯判别
3)、费歇尔判别
5、聚类分析

距离:

2) 数据标准化

3)相关系数

4)系统聚类R语言计算

确定类个数：rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL,
border = 2, cluster = NULL)

5) 动态聚类法

kmeans(x, centers, iter.max = 10, nstart = 1,
algorithm = c("Hartigan-Wong", "Lloyd",
"Forgy", "MacQueen"))