R语言描述性统计
在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。
集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数
离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)
分布情况统计量:偏度、峰度
统计量 |
函数 |
均值 |
mean(x, …);mean(x, trim = 0, na.rm = FALSE, …) |
中位数 |
median(x, …);median(x, trim = 0, na.rm = FALSE, …) |
频数 |
table(x, …) |
众数 |
which.max(table(x)) |
五数/描述统计 |
summary(x, …);fivenum(x, …) |
方差 |
var(x, na.rm = FALSE) |
标准差 |
sd(x, na.rm = FALSE) |
偏度 |
需要先加载moments包或fBasic包,再用函数skewness() |
峰度 |
需要先加载moments包或fBasic包,再用函数kurtosis() |
极差 |
range(…, na.rm = FALSE) |
注:
- trim可设为(0,0.5)之间的值,表示删除x的最大和最小百分几的数,然后对剩下数进行计算,得到的平均值为截尾均值;na.rm表示计算前是否删除NA值
- summary()与fivenum()计算得出的第一四分位和第三四分位可能会略有不同,原因如下:
fivenum()是从所有数中找出小于中位数的数,将这些数的中位数设为第一四分位;同理,从所有数中找出大于中位数的数,将这些数的中位数设为第三四分位。因此 fivenum()得到的第一四分位和第三四分位分别被称为四分位低值、四分位高值。
- 偏度衡量数据的对称性。
若为负,则数据均值左侧的离散度比右侧强,左偏;若为正,则数据均值左侧的离散度比右侧弱,右偏。
- 峰度 研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。峰值越大,分布越陡峭。
正态分布的峰度系数为3,而均匀分布的峰度为1.8(但是SPSS等软件为了方便比较,先将峰度减去3处理,再将正态分布峰度值定为0)。
当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。
拉帕拉斯(D),双曲正割(S),逻辑斯底(L)分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦©分布,半圆形(W)分布,以及均匀分布U则是峰度系数<0
- 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大,R函数语法: range(…, na.rm = FALSE),计算公式为:
- 变异系数(CV): 又称离散系数,是刻划数据相对分散性的一种度量,它是一个无量钢的量,用百分数表示,R无对应函数,计算公式为:
- 样本校正平方和(CSS):无R函数,计算公式:
- 样本未校正平方和(USS): 无R函数,计算公式:
- 四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。计算公式为:
- 标准误:均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,计算公式为:
|
请发表评论