1、数据是用的Rstudio 中自带的women 数据 分析 身高(height)和体重(weight)
2、数据
3、使用 R语言中的 lm函数建立回归模型
A <-lm(women$weight~women$height,data = women)
备注 R中“<-”和“=”区别
R里通常用符号”<-”代替其它语言里的”=”来作赋值符号。因为前者敲起来比等号要麻烦,且大部分情况下两者是等价的,所以通常就愉懒依旧用”=”来赋值。但要切记两者在某些时候是有区别的。字面上的解释,可以认为”<-”是赋值,”=”是传值。在函数调用中,func(x=1)与func(x<-1)是有区别的,前者调用完后变量x不会被保留,而后者会在工作区里保留变量x=1。再如length(x=seq(1,10))计算完成后x不会被保留,而length(x<-seq(1,10))计算完后你会在工作区里发现x这个变量。
4、查看模型模拟效果summary()函数
Residuals:
Min 1Q Median 3Q Max
-1.7333 -1.1333 -0.3833 0.7417 3.1167
Residuals(残差):实际数据和估计值 的差
理想情况下,回归残差将有一个完美的正态分布,这些统计量基于正态性分布识别可能出现的偏差。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -87.51667 5.93694 -14.74 1.71e-09 ***
women$height 3.45000 0.09114 37.85 1.09e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Coefficients(系数)
标记为Estimate的列表示由普通最小二乘法计算出的估计回归系数。
残差标准误差
Residual standard error: 0.44 on 13 degrees of freedom
理论上说,若一个系数为0,表示该变量残差统计量
Residuals:
Min 1Q Median 3Q Max
-0.83233 -0.26249 0.08314 0.34353 0.49790
理想情况下,回归残差将有一个完美的正态分布,这些统计量基于正态性分布识别可能出现的偏差。
回归系数
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.723456 1.043746 24.64 2.68e-12 ***
weight 0.287249 0.007588 37.85 1.09e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’
标记为Estimate的列表示由普通最小二乘法计算出的估计回归系数。
理论上说,若一个系数为0,表示该变量对模型毫无影响。因而,从统计学角度要思考,这个系数真正为0的可能性有多大?这是t统计量和p值的目的。p值是一个概率,用来估计系数不显著的可能性。
残差标准误差
Residual standard error: 0.44 on 13 degrees of freedom
显示残差的标准偏差
标准差与标准误的意义、作用和使用范围均不同。标准差(亦称单数标准差)一般用s表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。
随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n减小的方法来减小实验误差,但样本数太大意义也不大。标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。
标准差与标准误既有明显区别,又密切相关:标准误是标准差的1/;二者都是衡量样本变量(观测值)随机性的指标,只是从不同角度来反映误差;二者在统计推断和误差分析中都有重要的应用。
R平方
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903
R平方用来衡量模型拟合质量的指标。实际问题中,建议使用调整的R平方来衡量模型拟合质量的指标,因为调整的R平方考虑了模型中变量的数目。
F统计量
F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14
F统计量告诉模型是否显著。
5、查看绘制的直线
plot(A)
6、预测信值
7、查看元数据估计值
请发表评论