当前位置:文档之家› 决策树分类器课件

决策树分类器课件

Classification_Error = 1 – Max{0.4, 0.3, 0.3} = 1 - 0.4 = 0.60
2022/3/23
Guilin
31
分类误差的性质
与熵和Gini索引一样,一个纯的训练数据集合 (只有一个类)的分类误差值是0,这是因为 概率1的分类误差值是1-max(1) = 0
Gender 如果Gender = male,Transportation mode = bus 如果Gender = female,决策树需要检查下一个节点Car
ownership
如果Car ownership = 0,Transportation mode = bus,否则 Transportation mode = train
2022/3/23
Guilin
19
不纯度的定义
给定一个训练数据集(决策表),我们 能根据类属性度量它的同构性(或异构 性heterogeneity)
如果一个训练数据集的类属性只取一个 类值,它是纯的或者同构的
如果一个训练数据集的类属性取多个类 值,它是不纯的或者异构的
2022/3/23
Guilin
2022/3/23
Guilin
16
举例说明(预测)
根据上面的决策树或者规则,回答前面的问题 就很简单、直接
Alex:Travel cost = standard,所以,无论其它 属性取什么值,可以预测他的交通工具是train
Buddy:Travel cost = cheap并且Gender = male, 则可以预测他的交通工具是bus
20
如何度量不纯度
有多种量化方法度量不纯度 最常用的三种方法如下
Entropy p j log2 p j j
Gini _ Index 1
p
2 j
j
Classification _ error 1 max{p j }
上面所有的度量方法都含有类j的概率pj
2022/3/23
Guilin
Cherry:Travel cost = cheap并且Gender = female 并且Car ownership = 1,则可以预测他的 交通工具是train
2022/3/23
Guilin
17
决策树的缺点
多数决策树算法采用贪心 策略:按照设定的启发式 信息搜索最佳树
无回溯
非穷近搜索,但可能剪枝
2022/3/23
Guilin
9
构造决策树分类器的原则
目标:最大化预测新数据的精度(实现困难) 通常将给定的已知数据随机分成训练集合和测
试集合。训练数据用于归纳分类器,测试数据 用来评估分类器 训练分类器时的目标是最大化预测测试数据的 精度,即,该分类器基本上体现两个(训练和 测试)集合的共同结构 过度拟合(overfitting)问题:拟合训练数 据的效果很好,拟合测试数据的效果很差
2022/3/23
Guilin
10
举例说明(训练数据)
2022/3/23
Guilin
11
举例说明(决策树)
2022/3/23
Guilin
12
举例说明(测试数据)
决策树是用于预测一个数据的类 问题:Alex, Buddy and Cheery使用哪种交通工具?
2022/3/23
Guilin
13
一个纯的训练数据集合(只有一个类)的Gini索 引值是0,这是因为概率1的Gini索引值是1-(1)^2 = 0
与熵一样, Gini索引在每个类的概率相等时达到 最大值
下面的图描出了不同的类个数n的Gini索引的最大 值,这里,p=1/n
注意:无论有多少个类值,Gini索引值总是在0和 1之间
2022/3/23
Guilin
29
图示Gini索引的性质
2022/3/23
Guilin
30
举例说明(用分类误差计算概率)
计算训练数据集合的不纯度的第三个方 法是采用分类误差(classification error)
Classification _ error 1 max{p j }
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3,分类误差值的计算如下:
No
Large
No
Medium
Yes
Large
No
Small
No
Medium
No
Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Training Set
Class No No No No Yes No No Yes No Yes
Tid 11 12 13 14 15
举例说明(决策树的运用)
从根节点Travel cost per km开始 如果Travel Cost = expensive,Transportation mode =
car 如果Travel Cost = standard,Transportation mode =
train 如果Travel Cost = cheap,决策树需要检查下一个节点
预测:用分类器预测新数据的类
这种从有标记的数据种归纳分类器的方法叫监 督学习
决策树、回归是最常用的分类器
2022/3/23
Guilin
3
分类任务图例
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2
Yes
Large
No
Medium
No
Small
Yes
Medium
2022/3/23
Guilin
14
举例说明(决策树)
2022/3/23
Guilin
15
举例说明(决策树产生的规则)
每个叶节点产生一条规则
Rule 1:If Travel cost = expensive then Mode = car Rule 2:If Travel cost = standard then Mode = train Rule 3:If Travel cost = cheap Gender = male then
有了每个类的概率,我们就可以用前面的方法 计算训练数据集合的不纯度
2022/3/23
Guilin
24
举例说明(用熵计算概率)
计算训练数据集合的不纯度的一个方法就是采 用熵(entropy)
Entropy p j log2 p j
j
已知p(Bus) = 0.4, p(Car) = 0.3和p(Train) = 0.3, 熵的计算如下:
分类误差值总是在0和1之间 对于给定类的个数, Gini索引的最大值总是与
21
举例说明(训练数据)
2022/3/23
Guilin
22
举例说明(类的频率)
在训练数据集合中,类属性Transportation mode 有三个类值Bus、Car和Train
我们的例子中,每个值出现的次数如下
4 buses 3 cars 3 trains 简单记为4B, 3C, 3T
2022/3/23
Guilin
8
决策树分类器的解释
一棵决策树是训练数据的一个划分
树的一个非叶节点是对一个属性上的测试
一个属性的一条枝是测试该属性的一个结果
一个叶节点是一个类标记
在每个非叶节点,一个属性被选中,它将训练 数据分裂成尽可能不同类的子集合(划分)
对于一个新数据,根据它的每个属性值从根节 点一直匹配到叶节点,这个叶节点的标记就用 来预测新数据的类
2022/3/23
Guilin
7
决策树的结构
决策树是层次的树结构
由一些节点和枝(边)组成,一棵决策树至少 有一个节点
枝的两端是节点
一棵决策树通常是从左到右,或从上到下画图
树的第一个节点称为根节点,“根-枝-节点...–节点”的最后一个节点是叶节点,其它 节点叫中间节点
非叶节点至少有一条枝
Deduction
Model
分类任务例子
Predicting tumor cells as benign or malignant
Classifying credit card transactions as legitimate or fraudulent
Classifying secondary structures of protein as alpha-helix, beta-sheet, or random coil
下面的图描出了不同的类个数n的熵的最大值, 这里,p=1/n
熵的最大值是-n*p*log p 注意:当类个数n>2时,熵>1
2022/3/23
Guilin
26
图示熵的性质
2022举例说明(用Gini索引计算概率)
计算训练数据集合的不纯度的第二个方法是采 用Gini索引(Gini index)
Entropy = – 0.4 log (0.4) – 0.3 log (0.3) – 0.3 log (0.3) = 1.571
对数的底是2
2022/3/23
Guilin
25
熵的性质
一个纯的训练数据集合(只有一个类)的熵是 0,这是因为概率1的对数log (1) = 0
在多个类的情况下,熵在每个类的概率相等时 达到最大值
Mode = bus Rule 4:If Travel cost = cheap Gender = female Car
ownership = 0 then Mode = bus Rule 5:If Travel cost = cheap Gender = female Car
相关主题