• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

机器学习笔记之R语言基础5(T,F检验)

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

T检验
t检验分为单总体检验双总体检验

单总体检验:【样本平均数,总体平均数差异】

-检验一个样本平均数与一个已知的总体平均数的差异是否显著。
–当总体分布是正态分布,如总体标准差未知样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布

样本平均数计算:
样本标准差计算:
T分布概率密度函数图像如下:

双总体检验:【两个样本平均值间差异及样本均值与总体差异】

-检验两个样本平均数与其各自所代表的总体的差异是否显著。
–双总体t检验又分为两种情况,一是独立样本t检验,一是配对样本t检验。

独立样本t检验【两个样本平均值差异】
其统计量为:

配对样本t检验:【平均样本与总体样本差异】
-检验的对象为配对样本的观测值之差

-若配对样本x1i与x2i之为di=x1i−x2i 独立且来自常态分配,则有以下统计量


配对样本之差的平均数(di的平均数):

配对样本差值的标准差:

自由度:
-定义:计算某一统计量时,取值不受限制的变量个数
-df=n-k。其中n为样本数量,k为被限制的条件
提问:单总体检验中的自由度为什么是n-1?

假设样本中有10个数,x1,x2,x3…x10,我们知道它的均值为5.
由于满足公式
x1+x2+…+x9+x10=5*10
那么,x1,x2…x9我们可以任意分配给它们数值,因为50-(x1+x2+..x9)=x10,我们只要把x10指定为需要的值就可以了,这里面,x10受到了约束,它是不自由的,所以自由度为10-1=9.

置信区间,置信水平(置信度)
置信区间:
定义:一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。
例如,95%置信区间:当给出某个估计值的95%置信区间为【a,b】时,可以说样本的平均值介于a到b间的可能性为95%,而发生错误的概率为5%。
置信区间具体计算方式:
–置信区间下限:a=μ - Ζα/2*σ;
–置信区间上限:a=μ + Ζα/2*σ;
—-其平均值为μ,标准偏差为σ
—-α为非置信水平在正态分布内的覆盖面积
—-Ζα/2即为对应的标准分数
标准分数?z=(x-μ1)/σ;其中z为标准分数;x为某一具体分数(观察值),μ1为平均数,σ为标准差。
置信水平:
定义:置信水平是指总体参数值落在样本统计值某一区内的概率。
其中落在的某一区,指的是置信区间。
置信水平=Pr(c1<=w<=c2)=1-α
其中c1,c2为置信区间,w为实际值
α显著性水平(例:0.05或0.10)
100%*(1-α)置信水平(例:95%或90%)

检测结果怎么看?看p值
t检验是对单个变量显著性的检验
计算出来的p值来和显著性水平比较,当p值小于显著性水平是拒绝原假设,否则不拒绝原假设。

–在置信水平固定的情况下,样本量置信区间越窄
–在样本量相同的情况下,置信水平越高,置信区间越宽

F检验(联合假设检验)

定义为:

F=(X/m)/(Y/n)

其中X,Y为两个独立的随机变量,X服从自由度为m的卡方分布,Y服从自由度为n的卡方分布,这2 个独立的卡方分布被各自的自由度除之后的比率这一统计量的分布。
f分布概率密度函数图像:

检测结果怎么看?
F检验是对所有解释变量整体显著性的检验,
只能检测出是否有因变量的影响,但无法检验出具体的因变量,必须依靠t检验。

T检验和F检验的区别?小伙伴们可以查看https://wenku.baidu.com/view/f31835fdaa00b52acec7ca17.html
小伙伴们,今天就讲到这里咯,明天我们将用R完成假设检验,明天见哈~


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap