假如说某连续特征是$${1,2,3,4,5,6,7,8,9}$$共9个数,那么我们取相邻两个数的平均值$${1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5}$$,就会产生8个分割点,分别计算以每个分割点为中心进行分割时的信息增益,例如以3.5为划分点的话,小于3.5为第一类,大于3.5为第二类。
我们将之前的西瓜数据集添加两个连续属性来生成一个决策树。
对属性“密度”,在决策树学习开始时,根结点包含的17个训练样本在该属性上取值均不同.该属性的候选划分点集合包含16个候选值: T密度= {0.244, 0.294, 0.351, 0.381, 0.420, 0.459, 0.518, 0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}.属性“密度”的信息增益为0.262,对应于划分点0.381.
对属性“含糖率”,其候选划分点集合也包含16个候选值: T 含糖率 s= {0.049, 0.074, 0.095, 0.101, 0.126, 0.155, 0.179, 0.204, 0.213, 0.226, 0.250, 0.265, 0.292, 0.344, 0.373, 0.418}.类似的,根据可计算出含糖率其信息增益为0.349, 对应于划分点0.126.
再由之前计算可知,表4.3的数据上各属性的信息增益为
于是,“纹理”被选作根结点划分属性,此后结点划分过程递归进行,最终 生成如图4.8所示的决策树.
需要注意的是,与离散属性不同,若当前节点划分属性为连续属性,该属性还可作为其后代节点的划分属性。