我们上面介绍完了基尼系数的计算,但是CART决策树在创建过程中有一些细节值得注意:
- 与上面的C4.5一样,CART决策树叶具有处理连续值的能力,只不过在处理连续值的过程中,它获取完分割点后采用的是基尼系数进行运算
- CART决策树是一个二叉树,不同于我们在基尼系数中的计算将色泽分为三类,分别算完基尼系数求和,CART决策树在计算过程中是这样的。他会将A分为三组:{A1}和{A2,A3},{A2}和{A1,A3},{A3}和{A1,A2},然后分别计算这三组怎样分基尼系数最小,选取最小的那一个组合来建立决策树。
我们可以先看一下最开始的情况他是按照纹理来进行切分
之后再通过同样的算法建立起整个决策树
上面我们介绍完分类的决策树,接下来再看一下CART回归树。
分类树输出的是离散值,用叶子结点里概率最大的类别作为当前结点的预测类别;回归树输出的是连续值,是最终叶子结点的均值或者中位数作为输出
回归树与分类树最大的不同:
对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。
我们来看一下回归树是是长什么样的: