Skip to content

Latest commit

 

History

History
29 lines (18 loc) · 1.85 KB

lian-xu-zhi-chu-li.md

File metadata and controls

29 lines (18 loc) · 1.85 KB

连续值处理

假如说某连续特征是$${1,2,3,4,5,6,7,8,9}$$共9个数,那么我们取相邻两个数的平均值$${1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5}$$,就会产生8个分割点,分别计算以每个分割点为中心进行分割时的信息增益,例如以3.5为划分点的话,小于3.5为第一类,大于3.5为第二类。

我们将之前的西瓜数据集添加两个连续属性来生成一个决策树。

对属性“密度”,在决策树学习开始时,根结点包含的17个训练样本在该属性上取值均不同.该属性的候选划分点集合包含16个候选值: T密度= {0.244, 0.294, 0.351, 0.381, 0.420, 0.459, 0.518, 0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}.属性“密度”的信息增益为0.262,对应于划分点0.381.

对属性“含糖率”,其候选划分点集合也包含16个候选值: T 含糖率 s= {0.049, 0.074, 0.095, 0.101, 0.126, 0.155, 0.179, 0.204, 0.213, 0.226, 0.250, 0.265, 0.292, 0.344, 0.373, 0.418}.类似的,根据可计算出含糖率其信息增益为0.349, 对应于划分点0.126.

再由之前计算可知,表4.3的数据上各属性的信息增益为

$$ \begin{array}{ll} \operatorname{Gain}(D, 色泽)=0.109 & \operatorname{Gain}(D, 根蒂)=0.143 \\ \operatorname{Gain}(D, 敲声)=0.141 & \operatorname{Gain}(D, 纹理)=0.381 \\ \operatorname{Gain}(D, 脐部)=0.289 & \operatorname{Gain}(D, 触感)=0.006 \\ \operatorname{Gain}(D, 密度)=0.262 & \operatorname{Gain}(D, 含糖率)=0.349 \end{array} $$

于是,“纹理”被选作根结点划分属性,此后结点划分过程递归进行,最终 生成如图4.8所示的决策树.

需要注意的是,与离散属性不同,若当前节点划分属性为连续属性,该属性还可作为其后代节点的划分属性。