机器学习笔记之R语言基础5(T,F检验）

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

T检验
t检验分为单总体检验和双总体检验。

单总体检验：【样本平均数，总体平均数差异】

-检验一个样本平均数与一个已知的总体平均数的差异是否显著。
–当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

样本平均数计算：
样本标准差计算：
T分布概率密度函数图像如下：

双总体检验：【两个样本平均值间差异及样本均值与总体差异】

-检验两个样本平均数与其各自所代表的总体的差异是否显著。
–双总体t检验又分为两种情况，一是独立样本t检验，一是配对样本t检验。

—独立样本t检验【两个样本平均值差异】
其统计量为：

—配对样本t检验:【平均样本与总体样本差异】
-检验的对象为配对样本的观测值之差

-若配对样本x1i与x2i之差为di=x1i−x2i 独立且来自常态分配，则有以下统计量

配对样本之差的平均数（di的平均数)：

配对样本差值的标准差:

自由度：
-定义：计算某一统计量时，取值不受限制的变量个数
-df=n-k。其中n为样本数量，k为被限制的条件数。
提问：单总体检验中的自由度为什么是n-1?

假设样本中有10个数，x1,x2,x3…x10,我们知道它的均值为5.
由于满足公式
x1+x2+…+x9+x10=5*10
那么，x1,x2…x9我们可以任意分配给它们数值，因为50-(x1+x2+..x9)=x10,我们只要把x10指定为需要的值就可以了，这里面，x10受到了约束，它是不自由的，所以自由度为10-1=9.

置信区间，置信水平（置信度）
置信区间：
定义：一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。
例如，95%置信区间：当给出某个估计值的95%置信区间为【a,b】时，可以说样本的平均值介于a到b间的可能性为95%，而发生错误的概率为5%。
置信区间具体计算方式：
–置信区间下限：a=μ - Ζα/2*σ;
–置信区间上限：a=μ + Ζα/2*σ;
—-其平均值为μ，标准偏差为σ
—-α为非置信水平在正态分布内的覆盖面积
—-Ζα/2即为对应的标准分数
标准分数？z=(x-μ1)/σ;其中z为标准分数；x为某一具体分数(观察值)，μ1为平均数，σ为标准差。
置信水平：
定义：置信水平是指总体参数值落在样本统计值某一区内的概率。
其中落在的某一区，指的是置信区间。
置信水平=Pr(c1<=w<=c2)=1-α
其中c1,c2为置信区间,w为实际值
α是显著性水平（例：0.05或0.10）
100%*(1-α)指置信水平（例：95%或90%）

检测结果怎么看？看p值
t检验是对单个变量显著性的检验
计算出来的p值来和显著性水平比较，当p值小于显著性水平是拒绝原假设，否则不拒绝原假设。

–在置信水平固定的情况下，样本量越多，置信区间越窄
–在样本量相同的情况下，置信水平越高，置信区间越宽。

F检验(联合假设检验)

定义为：

F=(X/m)/(Y/n)

其中X,Y为两个独立的随机变量，X服从自由度为m的卡方分布，Y服从自由度为n的卡方分布，这2 个独立的卡方分布被各自的自由度除之后的比率这一统计量的分布。
f分布概率密度函数图像：

检测结果怎么看？
F检验是对所有解释变量整体显著性的检验，
只能检测出是否有因变量的影响，但无法检验出具体的因变量，必须依靠t检验。

T检验和F检验的区别？小伙伴们可以查看https://wenku.baidu.com/view/f31835fdaa00b52acec7ca17.html
小伙伴们，今天就讲到这里咯，明天我们将用R完成假设检验，明天见哈~