引言
随机森林( random forest) 是一种基于分类树( classification tree) 的算法,它可以用于分类和回归,本文在这里以广西地区1990-2014共25年的GDP数据作为因变量,以INV投资、CON消费、NEX净出口为三个自变量,运用R语言软件做随机森林回归,最终得到三个自变量的相对重要程度。
1 数据
从广西统计年鉴中取得1990-2014年的因变量与自变量数据,放入excel表格中。
2 步骤
2.1 安装randomForest
包
在R语言中,randomForest
包提供了随机森林的实现,使用randomForest
需要先安装这个包,在R的交互命令中使用下面的命令安装:
1 |
> install.packages ( "randomForest" )
|
然后在弹出的镜像列表中选择一个国内的镜像站点就可以自动安装了。
2.2 使用randomForest
包
在R的交互命令中引入randomForest
:
1 |
> library (randomForest)
|
屏幕上会输出randomForest
包的版本信息。
2.3 导入数据
将已经整理好的excel数据放入R语言的workspace中,或将R的工作空间加载为存有excel的文件夹。
将数据导入到R中并查看:
1
2
3
4
5
6
7
8
9
|
> gxdata <- read.csv ( "gxdata1990-2014.csv" )
> gxdata X gdp con inv nex
1 1990 449.06 175.4369 68.5666 8.0611
2 1991 518.59 200.2276 89.6479 10.1670
3 1992 646.60 243.6189 141.0395 29.2378
...
24 2013 14449.90 5133.1000 11907.6669 862.2181
25 2014 15672.89 5772.8317 13843.2123 996.4330
|
2.4 数据的初步处理
在这里我们通过两个步骤将每一行的名字以年份命名。首先去掉第一列(年份),将去掉后的矩阵命名为gxdata_without_x,然后查看新生成的矩阵,命令如下:
1
2
3
4
5
6
7
8
9
|
> gxdata_without_x <- gxdata[,-1] > gxdata_without_x gdp con inv nex
1 449.06 175.4369 68.5666 8.0611
2 518.59 200.2276 89.6479 10.1670
3 646.60 243.6189 141.0395 29.2378
……
24 14449.90 5133.1000 11907.6669 862.2181
25 15672.89 5772.8317 13843.2123 996.4330
|
第二步,取出gxdata矩阵中的第一列gxdata[,1](年份),给矩阵的每一行命名,可查看新的矩阵,命令如下:
1
2
3
4
5
6
7
8
9
|
> row.names (gxdata_without_x) <- gxdata[,1]
> gxdata_without_x gdp con inv nex
1990 449.06 175.4369 68.5666 8.0611
1991 518.59 200.2276 89.6479 10.1670
1992 646.60 243.6189 141.0395 29.2378
……
2013 14449.90 5133.1000 11907.6669 862.2181
2014 15672.89 5772.8317 13843.2123 996.4330
|
2.5 多元线性回归分析
利用2.4中处理好的矩阵gxdata_without_x,以CON、INV、NEX为自变量,GDP为因变量做多元回归分析,查看多元线性回归分析在本例中的分析结果。命令及显示结果如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
> gx.lm <- lm (gdp~con+inv+nex,data = gxdata_without_x)
> summary (gx.lm)
Call: lm (formula = gdp ~ con + inv + nex, data = gxdata_without_x)
Residuals: Min 1Q Median 3Q Max
-657.08 -97.80 -20.73 53.71 613.23 Coefficients: Estimate Std. Error t value Pr (>|t|)
(Intercept) 123.88962 101.58446 1.220 0.2361 全部评论
专题导读
热门推荐
热门话题
阅读排行榜
|
请发表评论