R语言描述性统计

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

R语言描述性统计

在做数据分析时，一般先会对数据进行描述性统计分析，以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。

集中趋势统计量: 均值（Mean)、中位数(Median)、众数(Mode)、百分位数

离散趋势统计量：标准差（sd)、方差（var)、极差（range)、变异系数(CV)、标准误、样本校正平方和（CSS）、样本未校正平方和（USS）

分布情况统计量：偏度、峰度

统计量	函数
均值	mean(x, …)；mean(x, trim = 0, na.rm = FALSE, …)
中位数	median(x, …)；median(x, trim = 0, na.rm = FALSE, …)
频数	table(x, …)
众数	which.max(table(x))
五数/描述统计	summary（x, …）；fivenum(x, …)
方差	var(x, na.rm = FALSE)
标准差	sd(x, na.rm = FALSE)
偏度	需要先加载moments包或fBasic包，再用函数skewness()
峰度	需要先加载moments包或fBasic包，再用函数kurtosis()
极差	range(…, na.rm = FALSE)

注：

trim可设为(0,0.5)之间的值，表示删除x的最大和最小百分几的数，然后对剩下数进行计算，得到的平均值为截尾均值；na.rm表示计算前是否删除NA值
summary()与fivenum()计算得出的第一四分位和第三四分位可能会略有不同，原因如下：
fivenum()是从所有数中找出小于中位数的数，将这些数的中位数设为第一四分位；同理，从所有数中找出大于中位数的数，将这些数的中位数设为第三四分位。因此 fivenum()得到的第一四分位和第三四分位分别被称为四分位低值、四分位高值。
偏度衡量数据的对称性。

若为负，则数据均值左侧的离散度比右侧强，左偏；若为正，则数据均值左侧的离散度比右侧弱，右偏。
峰度研究数据分布陡峭或平滑的统计量，通过对峰度系数的测量，我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。峰值越大，分布越陡峭。

正态分布的峰度系数为3，而均匀分布的峰度为1.8（但是SPSS等软件为了方便比较，先将峰度减去3处理，再将正态分布峰度值定为0)。
当峰度系数>0，从形态上看，它相比于正态分布要更陡峭或尾部更厚；而峰度系数<0,从形态山看，则它相比于正态分布更平缓或尾部更薄。在实际环境当中，如果一个分部是厚尾的，这个分布往往比正态分布的尾部具有更大的“质量”，即含又更多的极端值。

拉帕拉斯(D)，双曲正割(S)，逻辑斯底(L)分布的峰度系数均大于0，且他们的峰更陡峭，同时尾部也更厚。而像升余弦©分布，半圆形(W)分布，以及均匀分布U则是峰度系数<0
极差（Range): 描述样本分散性的数字特征.当数据越分散,其极差越大,R函数语法： range(…, na.rm = FALSE)，计算公式为：
变异系数(CV): 又称离散系数，是刻划数据相对分散性的一种度量，它是一个无量钢的量，用百分数表示，R无对应函数，计算公式为：
样本校正平方和（CSS）：无R函数，计算公式：
样本未校正平方和（USS): 无R函数，计算公式：
四分位差（quartile deviation）：也称为内距或四分间距（inter-quartile range），它是上四分位数（QL）与下四分位数（QU）之差，通常用Qd表示。计算公式为：
标准误：均值标准误差就是样本均值的标准差，是描述样本均值和总体均值平均偏差程度的统计量，计算公式为：