## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
R中常用的比较方法主要有下面几种:
方法 |
R函数 |
描述 |
T-test |
t.test() |
比较两组(参数) |
Wilcoxon test |
wilcox.test() |
比较两组(非参数) |
ANOVA |
aov()或anova() |
比较多组(参数) |
Kruskal-Wallis |
kruskal.test() |
比较多组(非参数) |
各种比较方法后续有时间一一讲解。
添加p-value
主要利用ggpubr包中的两个函数:
-
compare_means()
:可以进行一组或多组间的比较
-
stat_compare_mean()
:自动添加p-value
、显著性标记到ggplot图中
compare_means()函数
该函数主要用用法如下:
compare_means(formula, data, method = "wilcox.test", paired = FALSE,
group.by = NULL, ref.group = NULL, ...)
注释:
-
formula
:形如x~group
,其中x是数值型变量,group
是因子,可以是一个或者多个
-
data
:数据集
-
method
:比较的方法,默认为"wilcox.test"
, 其他可选方法为:"t.test"
、"anova"
、"kruskal.test"
-
paired
:是否要进行paired test
(TRUE
or FALSE
)
-
group_by
: 比较时是否要进行分组
-
ref.group
: 是否需要指定参考组
stat_compare_means()函数
主要用法:
stat_compare_means(mapping = NULL, comparisons = NULL hide.ns = FALSE,
label = NULL, label.x = NULL, label.y = NULL, ...)
注释:
-
mapping
:由aes()
创建的一套美学映射
-
comparisons
:指定需要进行比较以及添加p-value
、显著性标记的组
-
hide.ns
:是否要显示显著性标记ns
-
label
:显著性标记的类型,可选项为:p.signif
(显著性标记)、p.format
(显示p-value
)
-
label.x
、label.y
:显著性标签调整
- ...:其他参数
比较独立的两组
compare_means(len~supp, data=ToothGrowth)
结果解释:
-
.y
:测试中使用的y变量
-
p
:p-value
-
p.adj
:调整后的p-value
。默认为p.adjust.method="holm"
-
p.format
:四舍五入后的p-value
-
p.signif
:显著性水平
-
method
:用于统计检验的方法
绘制箱线图
p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", add = "jitter")
上述显著性标记可以通过
label.x
、
label.y
、
hjust
及
vjust
来调整
显著性标记可以通过
aes()
映射来更改:
-
aes(label=..p.format..)
或aes(lebel=paste0("p=",..p.format..))
:只显示p-value
,不显示统计检验方法
-
aes(label=..p.signif..)
:仅显示显著性水平
-
aes(label=paste0(..method..,"\n", "p=",..p.format..))
:p-value
与显著性水平分行显示
举个栗子:
p+stat_compare_means(aes(label=..p.signif..), label.x = 1.5, label.y = 40)
也可以将标签指定为字符向量,不要映射,只需将p.signif两端的..去掉即可
p+stat_compare_means(label = "p.signif", label.x = 1.5, label.y = 40)
比较两个paired sample
compare_means(len~supp, data=ToothGrowth, paired = TRUE)
利用ggpaired()进行可视化
ggpaired(ToothGrowth, x="supp", y="len", color = "supp", line.color = "gray",
line.size = 0.4, palette = "jco")+ stat_compare_means(paired = TRUE)
多组比较
Global test
compare_means(len~dose, data=ToothGrowth, method = "anova")
可视化
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+
stat_compare_means()
Pairwise comparisons:如果分组变量中包含两个以上的水平,那么会自动进行pairwise test,默认方法为"wilcox.test"
compare_means(len~dose, data=ToothGrowth)
可以通过修改参数label.y来更改标签的位置
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose",palette = "jco")+
stat_compare_means(comparisons=my_comparisons, label.y = c(29, 35, 40))+
至于通过添加线条来连接比较的两组,这一功能已由包
ggsignif实现
参考组也可以设置为.all.即所有的平均值
compare_means(len~dose, data=ToothGrowth, ref.group = ".all.", method = "t.test")
接下来利用
survminer包中的数据集
myeloma来讲解一下为什么有时候我们需要将ref.group设置为.all.
library(survminer)
我们将根据患者的分组来绘制DEPDC1基因的表达谱,看不同组之间是否存在显著性的差异,我们可以在7组之间进行比较,但是这样的话组间比较的组合就太多了,因此我们可以将7组中每一组与全部平均值进行比较,看看DEPDC1基因在不同的组中是否过表达还是低表达。
compare_means(DEPDC1~molecular_group, data = myeloma, ref.group = ".all.", method = "t.test")
从图中可以看出,DEPDC1基因在Proliferation组中显著性地过表达,而在Hyperdiploid和Low bone disease显著性地低表达
我们也可以将非显著性标记ns去掉,只需要将参数hide.ns=TRUE
ggboxplot(myeloma, x="molecular_group", y="DEPDC1",
color = "molecular_group", add = "jitter", legend="none")+
rotate_x_text(angle = 45)+
geom_hline(yintercept = mean(myeloma$DEPDC1), linetype=2)+
多个分组变量
按另一个变量进行分组之后进行统计检验,比如按变量dose进行分组:
compare_means(len~supp, data=ToothGrowth, group.by = "dose")
#可视化
p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", add = "jitter", facet.by = "dose", short.panel.labs = FALSE)#按dose进行分面
#label只绘制
p-valuep+stat_compare_means(label = "p.format")
进行paired sample检验
compare_means(len~supp, data=ToothGrowth, group.by = "dose", paired = TRUE)
#可视化
p <- ggpaired(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", line.color="gray", line.size=0.4, facet.by = "dose",
short.panel.labs = FALSE)#按dose分面
#只显示p-value
p+stat_compare_means(label = "p.format", paired = TRUE)
其他图形
条形图与线图(一个分组变量)
条形图与线图(两个分组变量)
ggbarplot(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",
palette = "jco", position = position_dodge(0.8))+
stat_compare_means(aes(group=supp), label = "p.signif", label.y = 29)
ggline(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",
palette = "jco")+
stat_compare_means(aes(group=supp), label = "p.signif", label.y = c(16, 25, 29))
Sessioninfo
sessionInfo()
请发表评论