• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

R语言线性回归

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

1、数据是用的Rstudio 中自带的women 数据  分析  身高(height)和体重(weight)

2、数据

  

3、使用 R语言中的 lm函数建立回归模型

   A <-lm(women$weight~women$height,data = women)

备注  R中“<-”和“=”区别

R里通常用符号”<-”代替其它语言里的”=”来作赋值符号。因为前者敲起来比等号要麻烦,且大部分情况下两者是等价的,所以通常就愉懒依旧用”=”来赋值。但要切记两者在某些时候是有区别的。字面上的解释,可以认为”<-”是赋值,”=”是传值。在函数调用中,func(x=1)与func(x<-1)是有区别的,前者调用完后变量x不会被保留,而后者会在工作区里保留变量x=1。再如length(x=seq(1,10))计算完成后x不会被保留,而length(x<-seq(1,10))计算完后你会在工作区里发现x这个变量。

 

 

4、查看模型模拟效果summary()函数

  

Residuals:
Min 1Q Median 3Q Max
-1.7333 -1.1333 -0.3833 0.7417 3.1167

Residuals(残差):实际数据和估计值 的差

理想情况下,回归残差将有一个完美的正态分布,这些统计量基于正态性分布识别可能出现的偏差。

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -87.51667 5.93694 -14.74 1.71e-09 ***
women$height 3.45000 0.09114 37.85 1.09e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Coefficients(系数)

标记为Estimate的列表示由普通最小二乘法计算出的估计回归系数。

 

 残差标准误差

Residual standard error: 0.44 on 13 degrees of freedom

理论上说,若一个系数为0,表示该变量残差统计量
Residuals:
     Min       1Q   Median       3Q      Max
-0.83233 -0.26249  0.08314  0.34353  0.49790

理想情况下,回归残差将有一个完美的正态分布,这些统计量基于正态性分布识别可能出现的偏差。

回归系数

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.723456   1.043746   24.64 2.68e-12 ***
weight       0.287249   0.007588   37.85 1.09e-14 ***
---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

标记为Estimate的列表示由普通最小二乘法计算出的估计回归系数。

理论上说,若一个系数为0,表示该变量对模型毫无影响。因而,从统计学角度要思考,这个系数真正为0的可能性有多大?这是t统计量和p值的目的。p值是一个概率,用来估计系数不显著的可能性。

残差标准误差

Residual standard error: 0.44 on 13 degrees of freedom

显示残差的标准偏差

标准差与标准误的意义、作用和使用范围均不同。标准差(亦称单数标准差)一般用s表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

  随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n减小的方法来减小实验误差,但样本数太大意义也不大。标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误一般用于统计推断中,主要包括假设检验参数估计,如样本平均数的假设检验、参数的区间估计点估计等。

  标准差与标准误既有明显区别,又密切相关:标准误是标准差的1/;二者都是衡量样本变量(观测值)随机性的指标,只是从不同角度来反映误差;二者在统计推断和误差分析中都有重要的应用。

 

R平方

Multiple R-squared:  0.991, Adjusted R-squared:  0.9903 

R平方用来衡量模型拟合质量的指标。实际问题中,建议使用调整的R平方来衡量模型拟合质量的指标,因为调整的R平方考虑了模型中变量的数目。

F统计量

F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14

F统计量告诉模型是否显著。

 

 

 

5、查看绘制的直线

plot(A)

 

6、预测信值

 

 

 

7、查看元数据估计值

 

  

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap