拓端tecdat|R语言中自编基尼系数的CART回归决策树的实现

本文为了说明回归树的构造（使用CART方法），考虑以下模拟数据集，

具有一个因变量（感兴趣的变量）和两个连续的自变量（变量和）。

理论分区如下

在这里，可以将样本绘制在下方（请注意，第一个变量在上方的y轴上，在下方的x轴上），蓝色点等于1，红色点等于0，

为了构造树，我们需要一个分区critera。最标准的可能是Gini的索引，当将s分为两类时，可以写出该索引，在此表示

或将分为三类时，表示为

等等，这里只是属于分区的观测值的计数，其取值为。但是可以考虑其他标准，例如卡方距离，

在传统上，当我们考虑两个等级时，或者在三个等级的情况下。

同样，这里的想法是使距离最大化：想法是区分，所以我们希望样本尽可能不独立。要计算基尼系数

我们只需构造列联表，然后计算上面给出的数量。首先，假设只有一个解释变量。我们将样本一分为二，并使用所有可能的分割值，即

然后，我们为所有这些值计算基尼系数。结是使基尼系数最大化的值。有了第一个节点后，我们将继续保留（从现在开始将其称为）。我们通过寻找最佳第二选择来重申：给定一个根节点，考虑将样本一分为三的值，并给出最高的基尼系数，因此，我们考虑以下分区

或这个

也就是说，我们在上一个结的下方或上方分割。然后我们进行迭代。代码可以是这样的，

第一步，基尼系数的值如下：

最高约为0.3。然后，我们尝试分三部分构造一个分区（拆分为0.3以下或以上）。我们得到以下基尼系数图（作为第二个节点的函数）

当样本在0.6左右分裂（这成为我们的第二个节点）时最大。等，现在，让我们将代码与标准R函数进行比较，

我们确实获得了类似的结：第一个为0.302，第二个为0.584。因此，构造树并不难...

现在，如果我们考虑两个解释变量，该怎么办？保持不变，除了分区的编写现在变得更加复杂。为了找到第一个节点，我们考虑了两个分量的所有值，然后再次保持最大化基尼指数的值，

> plot(u1,gini[,1],ylim=range(gini),col="green",type="b",xlab="X1",ylab="Gini index")
> abline(h=mg,lty=2,col="red")
> if(i==1){points(u1[which.max(gini[,1])],mg,pch=19,col="red")
+ segments(u1[which.max(gini[,1])],mg,u1[which.max(gini[,1])],-100000)}
> u2[which.max(gini[,2])]
[1] 0.3025479