引言

随机森林( random forest) 是一种基于分类树( classification tree) 的算法,它可以用于分类和回归,本文在这里以广西地区1990-2014共25年的GDP数据作为因变量,以INV投资、CON消费、NEX净出口为三个自变量,运用R语言软件做随机森林回归,最终得到三个自变量的相对重要程度。

1 数据

从广西统计年鉴中取得1990-2014年的因变量与自变量数据,放入excel表格中。

2 步骤

2.1 安装randomForest

在R语言中,randomForest包提供了随机森林的实现,使用randomForest需要先安装这个包,在R的交互命令中使用下面的命令安装:

1
> install.packages("randomForest")

然后在弹出的镜像列表中选择一个国内的镜像站点就可以自动安装了。

2.2 使用randomForest

在R的交互命令中引入randomForest

1
> library(randomForest)

屏幕上会输出randomForest包的版本信息。

2.3 导入数据

将已经整理好的excel数据放入R语言的workspace中,或将R的工作空间加载为存有excel的文件夹。
将数据导入到R中并查看:

1
2
3
4
5
6
7
8
9
> gxdata <- read.csv("gxdata1990-2014.csv")
> gxdata
      X      gdp       con        inv      nex
  1  1990   449.06  175.4369    68.5666   8.0611
  2  1991   518.59  200.2276    89.6479  10.1670
  3  1992   646.60  243.6189   141.0395  29.2378
  ...
  24 2013 14449.90 5133.1000 11907.6669 862.2181
  25 2014 15672.89 5772.8317 13843.2123 996.4330

2.4 数据的初步处理

在这里我们通过两个步骤将每一行的名字以年份命名。首先去掉第一列(年份),将去掉后的矩阵命名为gxdata_without_x,然后查看新生成的矩阵,命令如下:

1
2
3
4
5
6
7
8
9
> gxdata_without_x <- gxdata[,-1]
> gxdata_without_x
         gdp       con        inv      nex
  1    449.06  175.4369    68.5666   8.0611
  2    518.59  200.2276    89.6479  10.1670
  3    646.60  243.6189   141.0395  29.2378
  ……
  24 14449.90 5133.1000 11907.6669 862.2181
  25 15672.89 5772.8317 13843.2123 996.4330

第二步,取出gxdata矩阵中的第一列gxdata[,1](年份),给矩阵的每一行命名,可查看新的矩阵,命令如下:

1
2
3
4
5
6
7
8
9
> row.names(gxdata_without_x) <- gxdata[,1]
> gxdata_without_x
     gdp       con        inv      nex
 1990   449.06  175.4369    68.5666   8.0611
 1991   518.59  200.2276    89.6479  10.1670
 1992   646.60  243.6189   141.0395  29.2378
 ……
 2013 14449.90 5133.1000 11907.6669 862.2181
 2014 15672.89 5772.8317 13843.2123 996.4330

2.5 多元线性回归分析

利用2.4中处理好的矩阵gxdata_without_x,以CON、INV、NEX为自变量,GDP为因变量做多元回归分析,查看多元线性回归分析在本例中的分析结果。命令及显示结果如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
> gx.lm <- lm(gdp~con+inv+nex,data = gxdata_without_x)
> summary(gx.lm)
Call:
lm(formula = gdp ~ con + inv + nex, data = gxdata_without_x)
 
Residuals:
    Min      1Q  Median      3Q     Max
-657.08  -97.80  -20.73   53.71  613.23
 
Coefficients:
             Estimate Std. Error t value Pr(>|t|)   
(Intercept) 123.88962  101.58446   1.220   0.2361   

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言学习笔记——BaseGraphics发布时间:2022-07-18
下一篇:
R语言可视化学习笔记之添加p-value和显著性标记--转载发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap