数据挖掘-分类-
p
i
p n n 其中,
i i
为S中的样本属于第i类 C i 的概率,n为S中样本的个数。
13
2 决策树算法
期望熵
属性A划分样本集S导致的期望熵E(S, A)为:
E ( S , A)
vValues ( A )
S E S S
v v
其中,Values(A)为属性A取值的集合
S S 为S中A取值为v的样本子集, v s S | A s v
要性、减少变量的数目提供参考。
7
二 决策树分类
1.4 构造
决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。 它通常由两个步骤组成:
(1)构建决策树 开始时,所有的训练样本都在根节点;递归地通过选定的属性来划分样 本。 (2)树剪枝 许多分支反映的是训练数据中的噪声和孤立点,通过剪去最不可靠的分 支,提高树独立于测试数据正确分类的可靠性。
中
高 中 中
否
是 否 否
优
良 优 优
买
买 不买 买
22
2 决策树算法
计 数 64 64 128 60 64 64 64 年龄 青 青 中 老 老 老 中 收入 高 高 高 中 低 低 低 学生 否 否 否 否 是 是 是 信誉 良 优 良 良 良 优 优 归类:买计算机? 不买 不买 买 买 买 不买 买
分类
2011-12-3 1
主要内容
分类问题综述 决策树分类 基本概念 决策树算法 小结 贝叶斯分类
2
一 分类问题综述
1 定义
分类就是通过分析训练集中的数据,为每个类别建立分类模型;然后用 这个分类模型对数据库中的其他记录进行分类。
分类模型的输入集是一组记录集合和几种类别的标记,这个输入集又称 为示例数据或训练集。
18
计数
64 64 128 60 64 64 64 128 64 132
年龄
青 青 中 老 老 老 中 青 青 老
收入
高 高 高 中 低 低 低 中 低 中
学生
否 否 否 否 是 是 是 否 是 是
信誉
良 优 良 良 良 优 优 良 良 良
归类:买计算机?
不买 不买 买 买 买 不买 买 不买 买 买
15
例子:
属性1 A A A A A B B B B C C C C C
训练例子的简单平面数据库
数据库T: 属性2 70 90 85 95 70 90 78 65 75 80 70 80 80 96 属性3 真 真 假 假 假 真 假 真 假 真 真 假 假 假 属性4 类1 类2 类2 类2 类1 类1 类1 类1 类1 类2 类2 类1 类1 类1
16
2 决策树算法
其中:9个样本属于类1,5个样本属于类2,因此有:
E (T )
9 9 5 5 log 2 log 2 0.940 14 14 14 14
根据属性1把初始样本集分成3个子集,得出结果:
5 2 2 3 3 4 4 4 E ( x1 , T ) log 2 log 2 log 2 0 14 5 5 5 5 14 4 4
注:测试属性集的组成以及测试属性的先后顺序对决策树的学习具有举足 轻重的影响。
10
2 决策树算法
2.1.3 例子
人员 1 2 3 4 5 6 眼睛颜色 黑色 蓝色 灰色 蓝色 灰色 黑色 头发颜 色 黑色 金色 金色 红色 红色 金色 所属人 种 黄种人 白种人 白种人 白种人 白种人 混血
眼睛颜色 黑色 蓝色 [2,4,8] 灰色 [3,5,7]
64 12 8 64 13 2 64 32 32
老
中 青 青 老 青 中 中
低
低 中 低 中 中 中 高
是
是 否 是 是 是 否 是
优
优 良 良 良 优 优 良
不买
买 不买 买 买 买 买 买
21
2 决策树算法
计 数 年龄 收入 学生 信誉 归类:买计算机?
第2-1步计算年龄的熵
年龄共分三个组: 青年、中年、老年 青年买与不买比例为128/256 S1(买)=128 S2(不买)= 256 S=S1+S2=384 P1=128/384 P2=256/384 I(S1,S2)=I(128,256) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9183
v
E S v 为将 S v 中的样本划分为C个类的信息熵
S
v
S
为 S v 和S中得样本个数之比
14
2 决策树算法
信息增益
属性A划分样本集S的信息增益为:
Gain(S , A) E (S ) E (S , A)
其中, E(S)为划分样本集S为c个类的熵; E(S, A)为属性A划分样本集S导致的期望熵。
1.2决策树的表示 基本组成部分:决策结点、分支和叶子。
青 学生? 否 不买 是 中 买 优 不买 年龄? 老
信誉? 良 买
买
6
二 决策树分类
1.3 决策树的优点
(1)推理过程容易理解,决策推理过程可以表示成If -Then形式; (2)推理过程完全依赖于属性变量的取值特点; (3)可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重
[1,6]
7
8
灰色
蓝色
黑色
黑色
混血
混血
不属于同一类,非叶结点
11
2 决策树算法
眼睛颜色
黑色
头发颜色
蓝色 头发颜色
灰色 头发颜色
黑色
金色
金色 红色
黑色
金色
黑色 红色
混血[7]
黄种人[1] 混血[6] 白种人[2]
白种人[4] 混血[8]
白种人[3] 白种人[5]
ቤተ መጻሕፍቲ ባይዱ
12
2 决策树算法
2.2 ID3算法
8
2 决策树算法
2.1 CLS算法
CLS(概念学习系统)算法是早期的决策树学习算法。它是许多决策树 学习算法的基础。 2.1.1 基本思想
从一棵空决策树开始,选择某一属性(分类属性)作为测试属性。该测 试属性对应决策树中的决策结点。根据该属性的值的不同,可将训练样本分 成相应的子集,如果该子集为空,或该子集中的样本属于同一个类,则该子 集为叶结点,否则该子集对应于决策树的内部结点,即测试结点,需要选择 一个新的分类属性对该子集进行划分,直到所有的子集都为空或者属于同一 类。
第1步计算决策属性的熵
决策属性“买计算机?”。该属性分 两类:买/不买 S1(买)=641 S2(不买)= 383 S=S1+S2=1024 P1=641/1024=0.6260 P2=383/1024=0.3740 I(S1,S2)=I(641,383) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9537
4
一 分类问题综述
3 一般解决方法
分类问题一般是用一种学习算法确定分类模型,该模型可以很好地拟合 输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟 合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主 要目标就是要建立能够准确地预测未知样本类标号的模型。
通过以上描述,可以看出解决分类问题一般包括两个步骤: (1)模型构建(归纳) 通过对训练集合的归纳,建立分类模型。
9
2 决策树算法
2.1.2 决策树的构建
(1) 生成一颗空决策树和一张训练样本属性集; (2) 若训练样本集T 中所有的样本都属于同一类,则生成结点T , 并终止 学习算法;否则转(3), (3) 根据某种策略从训练样本属性表中选择属性A 作为测试属性, 生成 测试结点A (4 )若A的取值为v1,v2,…,vm, 则根据A 的取值的不同,将T 划分成 m个 子集T1,T2,…,Tm; (5) 从训练样本属性表中删除属性A; (6) 转步骤(2), 对每个子集递归调用CLS;
2.2.3 ID3 决策树建立算法
(1) 决定分类属性; (2) 对目前的数据表,建立一个节点N (3) 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出 所属的类 (4) 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从 多数的原则在树叶上标出所属类别 (5) 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N 的测试属性 (6)节点属性选定后,对于该属性中的每个值: 从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节 点的数据表,在表中删除节点属性那一栏,如果分支数据表非空,则运用以 上算法从该节点建立子树。
64
32 32 63 1
青
中 中 老 老
中
中 高 中 中
是
否 是 否 否
优
优 良 优 优
买
买 买 不买 买
19
2 决策树算法
计 数 64 64 128 60 64 64 64 128 64 132 64 32 32 63 1 年龄 青 青 中 老 老 老 中 青 青 老 青 中 中 老 老 收入 高 高 高 中 低 低 低 中 低 中 中 中 高 中 中 学生 否 否 否 否 是 是 是 否 是 是 是 否 是 否 否 信誉 良 优 良 良 良 优 优 良 良 良 优 优 良 优 优 归类:买计算机? 不买 不买 买 买 买 不买 买 不买 买 买 买 买 买 不买 买
P1=256/256 P2=0/256
I(S1,S2)=I(256,0) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0