在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.8节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.8 假设检验零假设意味着什么都没有发生、平均值是恒定的,等等。对立假设则意味着有什么发生了,且平均值与总体有所不同。进行假设检验的步骤如下: 1)提出零假设:提出关于总体的假设。例如,平均市内行车英里数为40。 2.8.1 总体均值检验根据前面的检验假设步骤,以Cars93为例来检验总体平均值。 已知方差情况下的单尾均值检验假设某研究人员声明样本采集的所有汽车平均行车里程数超过35。在有93辆汽车的样本中,观察到所有汽车平均行车里程数为29。你应该认可,还是否定该研究人员的声明? 接下来的代码将解释你应该怎样对此下结论: 下面介绍在已知方差情况下对样本数据的总体均值进行单尾和双尾比例检验分析。 单尾和双尾比例检验利用数据集Cars93,假设40%的美国产汽车的RPM(最大马力时的每分钟转速)超过5000。从样本数据得知,57辆汽车中有17辆的RPM超过5000。从上文你可得到什么解释? 如果对立假设是非定向假设,那么这就是双尾比例检验的例子。之前的计算不会有改变,除了临界值的计算。详细代码如下:
虽然在Cars93中没有这样的变量,我们仍然假设在不同汽车品牌的最小价格和最大价格之间有成对关系。
由于p值小于0.05,因此最大价格和最小价格之差在95%置信区间内有显著差异。
由双样本t检验可知,当两个样本相互独立时,p值小于0.05,所以我们可以否定假设高速路和市内的平均里程数无差别的零假设,即高速路和市内的平均里程数有显著差异。这可用略微不同的方法展现出来,即零假设手动挡与自动挡汽车各自的市内平均行车里程数不同: 从以上的检验可知,结论自动挡与手动挡汽车的市内平均行车里程数有显著差异,因为p值小于0.05。 在进行t检验之前,检查数据的正态性非常重要。一个变量的正态性可用Shapiro检验函数检测: 由市内每加仑行车里程数的正态分位图和直方图可知,里程数变量没有呈正态分布。因为该变量不是正态分布的,所以需要采取非参数方法比如Wilcoxon符号秩检验或Kolmogorov-Smirnov检验。 2.8.2 双样本方差检验比较双样本的方差,采用F检验作为统计量: 因为p值小于0.05,我们可以否定手动挡与自动挡汽车在高速路的里程数的方差无差异的零假设。这表明两个样本的方差有95%置信水平的统计显著差异。 这两组样本的方差还可以用Bartlett检验测出: 由以上检验也可以得出这样的结论,即关于方差相同的零假设可在0.05的显著性水平拒绝,可证明这两组样本有显著差异。 单因子方差分析:可使用单因子方差分析。分析的变量是RPM,分组变量是Cylinders(汽缸个数)。 零假设:不同缸数的平均RPM值无差异。 对立假设:至少一种缸数的平均RPM有差异。 代码如下: 由上面的方差分析可知,p值小于0.05,因此否定零假设。这意味着至少有一种缸数的平均RPM存在显著差异。为了识别哪一种缸数是不同的,可在方差分析模型的结果上执行事后检验: 只要调整后的p值小于0.05,RPM的平均差异将显著有别于其他分组。 双因子方差分析及其事后检验:这里研究的因子是origin(是否美国产)和airbags(安全气囊规格)。需要检验的假设是:这两个分类变量对RPM变量是否有影响? |
请发表评论