当前位置：文档之家› 数据挖掘-分类-

数据挖掘-分类-

p
i
p n n 其中，
i i
为S中的样本属于第i类 C i 的概率，n为S中样本的个数。
13
2 决策树算法
期望熵
属性A划分样本集S导致的期望熵E(S, A)为：
E ( S , A)
vValues ( A )
S E S S
v v
其中，Values(A)为属性A取值的集合
S S 为S中A取值为v的样本子集， v s S | A s v
要性、减少变量的数目提供参考。
7
二决策树分类
1.4 构造
决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。它通常由两个步骤组成：
（1）构建决策树开始时，所有的训练样本都在根节点；递归地通过选定的属性来划分样本。（2）树剪枝许多分支反映的是训练数据中的噪声和孤立点，通过剪去最不可靠的分支，提高树独立于测试数据正确分类的可靠性。
中
高中中
否
是否否
优
良优优
买
买不买买
22
2 决策树算法
计数 64 64 128 60 64 64 64 年龄青青中老老老中收入高高高中低低低学生否否否否是是是信誉良优良良良优优归类：买计算机？不买不买买买买不买买
分类
2011-12-3 1
主要内容

分类问题综述决策树分类基本概念决策树算法小结贝叶斯分类
2
一分类问题综述
1 定义
分类就是通过分析训练集中的数据，为每个类别建立分类模型；然后用这个分类模型对数据库中的其他记录进行分类。
分类模型的输入集是一组记录集合和几种类别的标记，这个输入集又称为示例数据或训练集。
18
计数
64 64 128 60 64 64 64 128 64 132
年龄
青青中老老老中青青老
收入
高高高中低低低中低中
学生
否否否否是是是否是是
信誉
良优良良良优优良良良
归类：买计算机？
不买不买买买买不买买不买买买
15
例子：
属性1 A A A A A B B B B C C C C C
训练例子的简单平面数据库
数据库T：属性2 70 90 85 95 70 90 78 65 75 80 70 80 80 96 属性3 真真假假假真假真假真真假假假属性4 类1 类2 类2 类2 类1 类1 类1 类1 类1 类2 类2 类1 类1 类1
16
2 决策树算法
其中：9个样本属于类1，5个样本属于类2，因此有：
E (T )
9 9 5 5 log 2 log 2 0.940 14 14 14 14
根据属性1把初始样本集分成3个子集，得出结果：
5 2 2 3 3 4 4 4 E ( x1 , T ) log 2 log 2 log 2 0 14 5 5 5 5 14 4 4
注:测试属性集的组成以及测试属性的先后顺序对决策树的学习具有举足轻重的影响。
10
2 决策树算法
2.1.3 例子
人员 1 2 3 4 5 6 眼睛颜色黑色蓝色灰色蓝色灰色黑色头发颜色黑色金色金色红色红色金色所属人种黄种人白种人白种人白种人白种人混血
眼睛颜色黑色蓝色 [2，4，8] 灰色 [3，5，7]
64 12 8 64 13 2 64 32 32
老
中青青老青中中
低
低中低中中中高
是
是否是是是否是
优
优良良良优优良
不买
买不买买买买买买
21
2 决策树算法
计数年龄收入学生信誉归类：买计算机？
第2-1步计算年龄的熵
年龄共分三个组：青年、中年、老年青年买与不买比例为128/256 S1(买)=128 S2（不买）= 256 S=S1+S2=384 P1=128/384 P2=256/384 I(S1,S2)=I(128,256) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9183
v
E S v 为将 S v 中的样本划分为C个类的信息熵
S
v
S
为 S v 和S中得样本个数之比
14
2 决策树算法
信息增益
属性A划分样本集S的信息增益为：
Gain(S , A) E (S ) E (S , A)
其中, E(S)为划分样本集S为c个类的熵； E(S, A)为属性A划分样本集S导致的期望熵。
1.2决策树的表示基本组成部分：决策结点、分支和叶子。
青学生？否不买是中买优不买年龄？老
信誉？良买
买
6
二决策树分类
1.3 决策树的优点
（1）推理过程容易理解，决策推理过程可以表示成If -Then形式；（2）推理过程完全依赖于属性变量的取值特点；（3）可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重
[1，6]
7
8
灰色
蓝色
黑色
黑色
混血
混血
不属于同一类，非叶结点
11
2 决策树算法
眼睛颜色
黑色
头发颜色
蓝色头发颜色
灰色头发颜色
黑色
金色
金色红色
黑色
金色
黑色红色
混血[7]
黄种人[1] 混血[6] 白种人[2]
白种人[4] 混血[8]
白种人[3] 白种人[5]
ቤተ መጻሕፍቲ ባይዱ
12
2 决策树算法
2.2 ID3算法
8
2 决策树算法
2.1 CLS算法
CLS（概念学习系统）算法是早期的决策树学习算法。它是许多决策树学习算法的基础。 2.1.1 基本思想
从一棵空决策树开始，选择某一属性（分类属性）作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同，可将训练样本分成相应的子集，如果该子集为空，或该子集中的样本属于同一个类，则该子集为叶结点，否则该子集对应于决策树的内部结点，即测试结点，需要选择一个新的分类属性对该子集进行划分，直到所有的子集都为空或者属于同一类。
第1步计算决策属性的熵
决策属性“买计算机？”。该属性分两类：买/不买 S1(买)=641 S2（不买）= 383 S=S1+S2=1024 P1=641/1024=0.6260 P2=383/1024=0.3740 I(S1,S2)=I(641,383) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9537
4
一分类问题综述
3 一般解决方法
分类问题一般是用一种学习算法确定分类模型，该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立能够准确地预测未知样本类标号的模型。
通过以上描述，可以看出解决分类问题一般包括两个步骤：（1）模型构建（归纳）通过对训练集合的归纳，建立分类模型。
9
2 决策树算法
2.1.2 决策树的构建
（1）生成一颗空决策树和一张训练样本属性集; （2）若训练样本集T 中所有的样本都属于同一类,则生成结点T , 并终止学习算法;否则转（3），（3）根据某种策略从训练样本属性表中选择属性A 作为测试属性, 生成测试结点A （4 ）若A的取值为v1,v2,…,vm, 则根据A 的取值的不同,将T 划分成 m个子集T1,T2,…,Tm; （5）从训练样本属性表中删除属性A; （6）转步骤（2）, 对每个子集递归调用CLS;
2.2.3 ID3 决策树建立算法
（1）决定分类属性；（2）对目前的数据表，建立一个节点N （3）如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类（4) 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别 (5) 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N 的测试属性 (6）节点属性选定后，对于该属性中的每个值：从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏，如果分支数据表非空，则运用以上算法从该节点建立子树。
64
32 32 63 1
青
中中老老
中
中高中中
是
否是否否
优
优良优优
买
买买不买买
19
2 决策树算法
计数 64 64 128 60 64 64 64 128 64 132 64 32 32 63 1 年龄青青中老老老中青青老青中中老老收入高高高中低低低中低中中中高中中学生否否否否是是是否是是是否是否否信誉良优良良良优优良良良优优良优优归类：买计算机？不买不买买买买不买买不买买买买买买不买买
P1=256/256 P2=0/256
I(S1,S2)=I(256，0) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0

e商务文档

数据挖掘-分类-

相关文档推荐：