• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言 boxplo函数用法及箱线图介绍

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

箱线图(boxplot)介绍

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有对称性,分布的离散程度等信息;特别适用于对几个样本的比较。

注:四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

       

        第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

        第二四分位数 (Q2),又称“ 中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

        第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

        第三四分位数与第一四分位数的差距又称 四分位距(InterQuartile Range,IQR)。

 

 

A boxplot is a way of summarizing a set of data measured on an interval scale. It is often used in exploratory data analysis. It is a type of graph which is used to show the shape of the distribution, its central value, and variability. The picture produced consists of the most extreme values in the data set (maximum and minimum values), the lower and upper quartiles, and the median.

可以通过箱线图的绘制过程来了解箱线图的意义:

  1. 绘制数轴
  2. 计算上四分位数(Q3),中位数,下四分位数(Q1)。
  3. 计算上四分位数和下四分位数之间的差值(Q3-Q1),即四分位数差(IQR,interquartile range)。
  4. 绘制箱线图的矩形,上限为上四分位数,下限为下四分位数。在矩形内部中位数的位置画一条横线(中位线)。
  5. 在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称为外限。处于内限以外位置的点所表示的数据都是异常值(outliers),其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。(注意:统计软件绘制的箱线图一般都没有标出内限和外限。)
  6. 在非异常值的数据中,最靠近上边缘和下边缘(即内限)的两个数值处,画横线,作为箱线图的触须。
  7. 从矩形的两端向外各画一条线段直到不是异常值的最远点(即上一步的触须),表示该批数据正常值的分布区间。
  8. 温和的异常值(即处于1.5倍-3倍四分位数差之间的异常值)用空心点表示;极端的异常值(即超出四分位数差3倍距离的异常值)用实心点(也可以用星号*)表示。

 

R中绘制箱线图的函数boxplot用法介绍

(1)基本用法

boxplot(x, ...)

(2)公式形式的用法

boxplot(formula, data = NULL, ..., subset, na.action = NULL, drop = FALSE, sep = ".", lex.order = FALSE)

(3)默认用法

boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE, notch = FALSE, outline = TRUE, names, plot = TRUE, border = par("fg"), col = NULL, log = "", pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), horizontal = FALSE, add = FALSE, at = NULL)

主要参数的含义:

x: 向量,列表或数据框。

formula: 公式,形如y~grp,其中y为向量,grp是数据的分组,通常为因子。

data: 数据框或列表,用于提供公式中的数据。

range: 数值,默认为1.5,表示触须的范围,即range × (Q3 - Q1)

width: 箱体的相对宽度,当有多个箱体时,有效。

varwidth: 逻辑值,控制箱体的宽度, 只有图中有多个箱体时才发挥作用,默认为FALSE, 所有箱体的宽度相同,当其值为TRUE时,代表每个箱体的样本量作为其相对宽度

notch: 逻辑值,如果该参数设置为TRUE,则在箱体两侧会出现凹口。默认为FALSE。

outline: 逻辑值,如果该参数设置为FALSE,则箱线图中不会绘制离群值。默认为TRUE。

names:绘制在每个箱线图下方的分组标签。

plot : 逻辑值,是否绘制箱线图,如设置为FALSE,则不绘制箱线图,而给出绘制箱线图的相关信息,如5个点的信息等。

border:箱线图的边框颜色。

col:箱线图的填充色。

horizontal:逻辑值,指定箱线图是否水平绘制,默认为FALSE。

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言-merge和rbind发布时间:2022-07-18
下一篇:
R语言解读自回归模型发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap