R语言之数据可视化 - 了解数据特征
1. R语言 数据基础
- 观测(pbservation)、变量(variable)、数据矩阵(data matrix)
- 变量的类型
1. 数值(quantitative):可以进行加减乘除求平均等运算
- 连续:可在给定区间取任意数值(无限)
- 离散:在给定数值集合内取值(有限)
2. 分类(qualitative):取值空间有限;不能进行运算
- 无序:不可比较
- 有序:顺序有意义
- 变量间的关系(对应不同的可视化方法和统计分析方法)
1. 两个数值变量
2. 两个分类变量
3. 一个数值变量、一个分类变量
2. R语言 数值变量的特征和可视化
2.1 数据集中趋势的测量(measures of center)
- 均值(mean)、中位数(median)、众数(mode)
中位数:排序后位于正中间的一个数或位于正中间的两个数的均值
众数:出现次数最多的数
2.2 数据分散趋势的测量(measures of spread)
- 值域(range)、方差(variance)、标准差(standard variance)、四分位距(interquartile range)
方差 =
(每一个数据减去平均数)做平方2,再进行加和∑,最后除以(数据个数-1)
标准差 = 方差开方
> x <- c(1,9,2,8,3,9,4,5,7,6) > mean(x) [1] 5.4 > median(x) [1] 5.5 > var(x) [1] 8.266667 > sd(x) [1] 2.875181 > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.40 7.75 9.00 >
2.3 稳健统计量(robust statistics)
- 是稳健统计量:中位数、四分位差(受极端值影响小)
- 非稳健统计量:均值、标准差、值域(受极端值影响大)
2.4 一个变量的可视化:
- 柱状图(histogram)、点图(dot plot)(分布)
左偏分布、正态分布(单峰分布)、右偏分布、点图
- 箱图(box plot)(中位数、分位点、极端值)
Q1: 25%分位点值 Q3: 75%分位点值
2.5 两个变量的关系:
- 散点图(scatter plot):方向、形状、强度、极端值
3. R语言 分类变量的特征和可视化
3.1 一个分类变量的可视化
- 频率表(frequency table)、条形图(bar plot)
3.2 两个分类变量的关系
- 关联表(contingency table)、相对频率表(relative frequencies)
- 分段条形图、相对频率分段条形图
- 马赛克图(mosaic plot)
3.3 一个分类变量、一个数值变量的关系
- 并排箱图(side-by-side box plot)
4. 小结