T检验
t检验分为单总体检验和双总体检验。
单总体检验:【样本平均数,总体平均数差异】
-检验一个样本平均数与一个已知的总体平均数的差异是否显著。
–当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
样本平均数计算:
样本标准差计算:
T分布概率密度函数图像如下:
双总体检验:【两个样本平均值间差异及样本均值与总体差异】
-检验两个样本平均数与其各自所代表的总体的差异是否显著。
–双总体t检验又分为两种情况,一是独立样本t检验,一是配对样本t检验。
—独立样本t检验【两个样本平均值差异】
其统计量为:
—配对样本t检验:【平均样本与总体样本差异】
-检验的对象为配对样本的观测值之差
-若配对样本x1i与x2i之差为di=x1i−x2i 独立且来自常态分配,则有以下统计量
配对样本之差的平均数(di的平均数):
配对样本差值的标准差:
自由度:
-定义:计算某一统计量时,取值不受限制的变量个数
-df=n-k。其中n为样本数量,k为被限制的条件数。
提问:单总体检验中的自由度为什么是n-1?
假设样本中有10个数,x1,x2,x3…x10,我们知道它的均值为5.
由于满足公式
x1+x2+…+x9+x10=5*10
那么,x1,x2…x9我们可以任意分配给它们数值,因为50-(x1+x2+..x9)=x10,我们只要把x10指定为需要的值就可以了,这里面,x10受到了约束,它是不自由的,所以自由度为10-1=9.
置信区间,置信水平(置信度)
置信区间:
定义:一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。
例如,95%置信区间:当给出某个估计值的95%置信区间为【a,b】时,可以说样本的平均值介于a到b间的可能性为95%,而发生错误的概率为5%。
置信区间具体计算方式:
–置信区间下限:a=μ - Ζα/2*σ;
–置信区间上限:a=μ + Ζα/2*σ;
—-其平均值为μ,标准偏差为σ
—-α为非置信水平在正态分布内的覆盖面积
—-Ζα/2即为对应的标准分数
标准分数?z=(x-μ1)/σ;其中z为标准分数;x为某一具体分数(观察值),μ1为平均数,σ为标准差。
置信水平:
定义:置信水平是指总体参数值落在样本统计值某一区内的概率。
其中落在的某一区,指的是置信区间。
置信水平=Pr(c1<=w<=c2)=1-α
其中c1,c2为置信区间,w为实际值 α是显著性水平(例:0.05或0.10) 100%*(1-α)指置信水平(例:95%或90%)
检测结果怎么看?看p值
t检验是对单个变量显著性的检验
计算出来的p值来和显著性水平比较,当p值小于显著性水平是拒绝原假设,否则不拒绝原假设。
–在置信水平固定的情况下,样本量越多,置信区间越窄
–在样本量相同的情况下,置信水平越高,置信区间越宽。
F检验(联合假设检验)
定义为:
F=(X/m)/(Y/n)
其中X,Y为两个独立的随机变量,X服从自由度为m的卡方分布,Y服从自由度为n的卡方分布,这2 个独立的卡方分布被各自的自由度除之后的比率这一统计量的分布。
f分布概率密度函数图像:
检测结果怎么看?
F检验是对所有解释变量整体显著性的检验,
只能检测出是否有因变量的影响,但无法检验出具体的因变量,必须依靠t检验。
T检验和F检验的区别?小伙伴们可以查看https://wenku.baidu.com/view/f31835fdaa00b52acec7ca17.html
小伙伴们,今天就讲到这里咯,明天我们将用R完成假设检验,明天见哈~
|
请发表评论