1. 前言
前段时间,做些性能测试,需要画出一些测试结果图。简单学习了一下R语言,发现其很强大,因此在亚馬逊上买了3本关于R语言基础和用于数据挖掘方面的书籍。R在数理统计和数据挖掘提供了很多的类库,在进行这方面的分析都比较简单。
无论在CentOS上或在Ubuntu上,安装R语言比较简单。在网上都有相关的资料,熟悉Linux系统都能很快地安装成功。
下面我将列出我学习的数据集及其相关例子。
2. 画图表
下面的数据集是分析每个请求的Latency,共有1024*1024个样本。第一列是样本序号,第二列是所耗时间(单位为nanosecond),它们用逗号分开:
0,420607
1,213869
2,214064
3,208029
... ...
1378,35022
1379,132206522
1380,50514
... ...
1048573,6418
1048574,6331
1048575,6104
绘简单的二维图表,R语言如下:
A <- read.table("sequentialWrite.txt", sep=",", col.names=c("seq", "nanos"), nrows=10000) A$micros <- A$nanos/1000 A$nanos <- NULL plot(A, type='l', xlab='Sequence', ylab='Latency', main='Latency per Request (Unit: Microsecond)')
如下图:
从图表上可以看出,绝大多数样本的Latency很小,有极少数样本值很大,导致即使采样1000条,也很难从图表上估测出这些样本值。为了使图表更加好看,应该只在图表上显示出规定的Latency值区间。R语言中的gap.plot函数可以解决这个问题。
3. 数理统计
续...
4. 数据挖掘
续...
请发表评论