R语言第十一讲决策树与随机森林

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

概念

决策树主要有树的回归和分类方法，这些方法主要根据分层和分割的方式将预测变量空间划分为一系列简单区域。对某个给定待预测的观测值，用它所属区域中训练集的平均值或众数对其进行预测。

基于树的方法简便且易于解释。但预测准确性通常较低。

如图所示，一共有5个人，我们根据年龄和性别进行判断，这个人是否喜欢打篮球。我们首先根据年龄是否大于15来判断是否喜欢打篮球。如上，判断出年龄大于15的都不喜欢打篮球，年龄小于15的可能喜欢打篮球。第一次划分，左边的数据集还具有不确定性，因此，我们再次根据性别进行划分，直到叶子节点的数据集的纯度较高时，停止划分。如上的树就是一棵决策树，决策之意，就是我们在每个分支节点上都定义了一个决策属性（age、is male)。使用方法：我们只需要将数据集中的每一个样本从上往下依次去走，直至到达叶子节点，来求得其预测值。

真正的叶子节点的数据集的预测值往往达不到纯度（预测值数据占此叶子节点数据集的百分比）为100%，假设响应变量（是否打篮球）为定性变量，那么其响应值就是叶子节点数据集中出现次数最多的响应值，我们假设爷爷奶奶不喜欢打篮球，他妈妈喜欢打篮球，那么此叶子节点其响应值就是不喜欢打篮球。假设响应变量为定量变量（连续的数值类型），那么其响应值就是此叶子节点所有响应值的加权平均数。

决策树，为什么要先用age决策呢，决策树如何建立的呢？

接下来，我讲一讲决策树的训练阶段。如何从给定的数据集中构造出一棵决策树？

如上图，假设这是一个人要去见约会对象了，我们将根据约会对象的年龄、长相、收入、是否是公务员来预测其去不去见他的约会对象。首先看年龄，其次看长相，再其次看收入……，决策的先后代表其重要的程度。

熵：描述一个子数据集的纯度指标。pi代表的是第i个响应值在叶子数据集中所占的比例，一共有n种响应值。从以下的公式，我们能够的出，如果一个数据集的纯度越高，其熵值就会越低，反之，越高。

基尼系数：描述一个子数据集的纯度指标。，如果一个数据集的纯度越高，其基尼系数值就会越低，反之，越高。

到底谁来当根节点，这个是由计算机内部计算出来的。

构造决策树的基本思想：随着树深度的增加，节点的熵值迅速的降低熵值降低的越快越好，这样就能得到一颗高度最矮的决策树。

下面通过一个例子，来介绍决策树的构造过程。

预测变量为：outlook（天气）、temperature（温度）、humidity（湿度）、windy（是否有风）。

响应变量：是否出去玩（play）

构造决策树：谁来当根节点？我们的得到如下的四种划分。

上面说过了，决策树的构造是根据随着树深度的增加，节点的熵值迅速的降低熵值降低的越快越好。那么这四种划分，那种的熵值降低的幅度最大呢？原有数据集的熵值如下公式计算出来。

首先呢，若选择outlook作为根节点，首次划分之后，其熵值为多少呢？

outlook一共有14个样本

outlook=sunny时，5个样本，2/5的概率打球，3/5的概率不打球。entropy=0.971

outlook=overcast时，4个样本，entropy = 0

outlook=rainy时，5个样本，entropy= 0.971.

其熵值为：5/14 x 0.971 + 4/14 x 0 + 5/14 x 0.971 = 0.693。

如此，系统熵就从0.940降到了0.693.信息增益为 0.940 - 0.693 = 0.247

同样的temperature 信息增益为0.029，humidity 信息增益为0.152，windy 信息增益为0.048.

谁的信息增益大，取那个特征做决策，递归的其左右孩子皆为如此。

接下来，介绍一下一种算法叫做ID3算法，决策树传统的算法，他就是利用信息增益来构建决策树。

信息增益看起来很好，但其实他是存在一些问题的。它存在一些异常现象。

假设，我们考虑这样一个特征，他呢，有很多个值，每一个属性值内部的样本数量又非常少，极端情况下，其每一个属性值内部只有一个样本，那么其熵值就会为0，但是，这样的特征真的就好吗。答案是否定的。采用信息增益作为判定方法，会倾向于去选择属性取值比较多的属性。那么，选择取值多的属性为什么就不好了呢？举个比较极端的例子，如果将身份证号作为一个属性，那么，其实每个人的身份证号都是不相同的，也就是说，有多少个人，就有多少种取值，它的取值很多吧，让我们继续看，如果用身份证号这个属性去划分原数据集D，那么，原数据集D中有多少个样本，就会被划分为多少个子集，每个子集只有一个人，这种极端情况下，因为一个人只可能属于一种类别，好人，或者坏人，那么此时每个子集的信息熵就是0了，就是说此时每个子集都特别纯。信息增益计算出来的特别大，然后决策树会用身份证号这个属性来划分原数据集D，其实这种划分毫无意义。

所以，后人提出了对于ID3的改进算法：C4.5，他是基于信息增益率来构造决策树的。

信息增益率：一个决策的信息增益/属性的熵值

比如身份证的例子，身份证属性的熵值就很大，因为其属性值很多，纯度很低。身份证的熵值虽然大但是除以属性的熵值之后就会变小，也就是其信息增益率就会很小。

如何评价一棵决策树的预测效果呢，到底这颗树的效果如何呢？

在此，我们引入评价函数

N代表当前叶子节点数据集的样本数量，H代表当前叶子节点的熵值。

树的减枝。一个决策树预测好了之后，如果不进行减枝很可能会出现过拟合的现象发生，也就是说，他能很好的拟合训练集，但是测试集的运行效果并不是很好，这主要在于这棵树太过于庞大，有太多的分支，也可能是受到了训练集上一些异常值的影响。
我们可以进行两种减枝操作：

预剪枝：在构建决策树的过程中，提前停止。比如，决策度的深度、或者某个叶子节点数据集样本数到某个数值时就进行停止。

后剪枝：决策树构建好了后，然后才开始减枝。我们将评价函数作如下改变， T代表叶子节点的个数。

图中的a值用来，作为一个调整参数。

我们利用评价函数，对树中的分支节点进行评价，根据评价函数值进行决定要不要进行减枝。

随机森林：通俗的讲就是我们将训练集中部分数据进行10次有放回的随机抽样得到十个训练集，然后就能在十个训练集上得到十棵决策树，构造决策树的时候，选择特征（天气、温度……）时，每棵树只抽取部分特征。使用的时候，用十棵决策树共同来做出决定，比如同一个预测变量值，六棵树预测为蓝色，4棵为红色，其最终预测值就是蓝色。