机器学习之第四章-决策树
第四章 决策树
提纲
一、基本流程 二、划分选择
三、剪枝处理
四、连续与缺失值
五、多变量决策树
一、基本流程
一、基本流程
一、基本流程
一、基本流程
一、基本流程
二、划分选择
常见的度量样本集合纯度的指标:信息增益、增益率、基尼指数
二、划分选择
若某项Pk=1, 则Ent(D)=0
二、划分选择
二、划分选择
五、多变量决策树
五、多变量决策树
五、多变量决策树
五、多变量决策树
二、划分选择
二、划分选择
三、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
四、连续与缺失值
二、剪枝处理
四、连续与缺失值
四、连续与缺失值
四、连续续与缺失值
四、连续与缺失值
四、连续与缺失值
4.9试将4.4.2节对缺失值的处理机制推广到基尼指数的计算中去。 答:
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
在上面的介绍中,我们有意忽略了表4.1 中的“编 号”这一列.若把“编号”也作为一个候选划分属性, 则根据式件均可计算出它的信息增益为0.998,远大于 其他候选划分属性。这很容易理解“编号”将产生17 个分支,每个分支结点仅包含一个样本,这些分支结 点的纯度己达最大。然而,这样的决策树显然不具有 泛化能力,无法对新样本进行有效预测。(泛化能力: 算法对新样本的适应能力) 实际上,信息增益准则对可取值数目较多的属性 有所偏好,为减少这种偏好可能带来的不利影响,著 名的C4.5 决策树算法[Quinlan, 1993J 不直接使用信息 增益,而是使用"增益率" (gain ratio) 来选择最优划分属