当前位置：文档之家› 数据挖掘算法培训讲义-分类和预测

数据挖掘算法培训讲义-分类和预测

数据挖掘：概念与技术（翻译张磊） 22
2014-8-21
决定最终树大小的方法

将数据集的2/3作为训练集, 1/3作为测试集
使用交叉验证, 例如, 10-fold交叉验证使用全部数据来训练

但运用统计检验(例如, chi-square)来估计对某个节点的分裂或修剪是否能改善整体分布当编码量达到最小时停止树的生长
数据挖掘：概念与技术（翻译张磊） 2
2014-8-21
分类与预测

分类: 预测分类标签基于训练集和分类属性值(分类标签)构造分类模型，然后用该模型分类新数据预测: 对连续函数建模, 即预测未知的或缺失的数据典型应用信用审核目标营销医疗诊断治疗效果分析
通过决策树归纳进行分类

决策树类似于流程图的树型结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树: 对未知样本进行分类在决策树上测试样本的各个属性值
2014-8-21
数据挖掘：概念与技术（翻译张磊）
15
属性选取的度量

信息增益 (ID3/C4.5) 所有属性应为类别型变量可以通过改进来处理连续值属性 Gini索引 (IBM IntelligentMiner) 所有属性应为连续值变量对于每个属性, 假定已存在若干可能的切分点可能需要其它工具(如聚类)的辅助来获取切分点可以通过改进来处理类别型属性
5
数据挖掘：概念与技术（翻译张磊）
分类过程 (2): 使用模型来预测
分类器测试数据
新数据 (Jeff, Professor, 4)
NAME Tom M erlisa G eorge Joseph
2014-8-21
RANK Y E A R S TE N U R E D A ssistant P rof 2 no A ssociate P rof 7 no P rofessor 5 yes A ssistant P rof 7 yes
20
N1 gini( ) N 2 gini( ) ( T ) gini split T1 T2 N N
2014-8-21
数据挖掘：概念与技术（翻译张磊）
从树中抽取分类规则

用IF-THEN规则来作为知识表示从根节点到叶节点的每条路径, 对于于一条规则路径上的每个(属性-值)对被联合起来叶节点给出了类别预测规则非常易懂示例
Gain(income) 0.029 Gain( student ) 0.151 Gain(credit _ rating ) 0.048
19
数据挖掘：概念与技术（翻译张磊）
Gini 索引 (IBM IntelligentMiner)

如果数据集T 包含n种类别的样本, gini index, gini(T) 定义如下
数据挖掘：概念与技术（翻译张磊）
Tenured?
6
有指导的 vs. 无指导的学习

有指导的学习 (分类)

指导: 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行基于训练集对新数据进行分类

无指导的学习 (聚类)

训练数据的类标签是未知的
给定一组样本, 试图建立分类或数据的聚类
2014-8-21
2014-8-21
数据挖掘：概念与技术（翻译张磊）
16
信息增益 (ID3/C4.5)

选取具有最高信息增益的属性假定存在两个分类, P 和N

样本集S中包含p个样本属于类别P, n个样本属于类别N
用于判别S中任意样本属于类别P 或N 的信息量, 定义为
p p n n I ( p, n) log2 log2 pn pn pn pn
2014-8-21
分类与预测相关问题 (1): 数据准备

数据清洗

数据准备是为了减少噪声数据, 并处理缺失值

相关分析 (特征选取)

删除无关属性和冗余属性
数据的泛化和归一化

数据转换

2014-8-21
数据挖掘：概念与技术（翻译张磊）
9
分类与预测的相关问题 (2): 分类方法的评估

预测准确率速度和扩展能力创建模型所需时间应用模型所需时间健壮性可以处理噪声和缺失值扩展能力在大型数据库上的处理能力可解释性模型能否增强用户对数据的理解和洞察力是否良好的规则决策树的大小分类规则的简洁程度
数据挖掘：概念与技术（翻译张磊） 10
DM算法-1
分类和预测
出处：《数据挖掘：概念与技术》 © Jiawei Han and Micheline Kamber
2014-8-21
数据挖掘：概念与技术（翻译张磊）
1
DM算法-1 分类和预测

什么是分类? 什么是预测? 关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结
IF IF IF IF
2014-8-21
数据挖掘：避免分类中的过度训练

生成的树可能会过度拟合了训练数据分支太多, 某些分支其实反映的是特例(由噪声数据或孤立点引起的) 导致预测未知样本的准确率很差避免过度训练的两种方法预修剪: 尽早中止树的创建—当某个分裂会导致优度度量低于给定阈值时, 就不再分裂节点难于确定合适的阈值后修剪: 从“已长成的” 树中删除分支—得到多个修剪后的树使用与训练数据不同的验证集来决定哪个是―最佳剪枝树”
数据挖掘：概念与技术（翻译张磊） 4
2014-8-21
分类过程 (1): 模型创建
训练数据分类算法
NAME RANK M ike M ary B ill Jim D ave Anne
2014-8-21
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
13
2014-8-21
数据挖掘：概念与技术（翻译张磊）
输出: 预测“是否会购买计算机”的决策树
age? <=30 overcast 30..40 yes yes yes >40
student?
no no
2014-8-21
credit rating?
excellent no fair yes
14
数据挖掘：概念与技术（翻译张磊）
决策树归纳算法

基本算法(贪婪算法) 树的创建是一种自顶向下递归的分而治之方法首先, 所有训练样本都位于根节点属性都是类别型变量 (若为连续值, 则需先离散化) 基于选择的属性, 对样本进行递归划分通过启发式搜索或统计量来选取测试属性 (例如, 信息增益) 停止划分的条件对于某个给定节点, 所有样本都属于同一分类没有剩余属性可供进一步划分 – 按照少数服从多数的原则来确定叶节点的分类所有样本都已分类完毕
数据挖掘：概念与技术（翻译张磊） 12
2014-8-21
训练数据集
接下来是 Quinlan’s ID3算法示例
age <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income high high high medium low low low medium low medium medium medium high medium student no no no no yes yes yes no yes yes yes no yes no credit_rating fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent
age = ―<=30‖ AND student = ―no‖ THEN buys_computer = ―no‖ age = ―<=30‖ AND student = ―yes‖ THEN buys_computer = ―yes‖ age = ―31…40‖ THEN buys_computer = ―yes‖ age = ―>40‖ AND credit_rating = ―excellent‖ THEN buys_computer = ―yes‖ IF age = ―>40‖ AND credit_rating = ―fair‖ THEN buys_computer = ―no‖
数据挖掘：概念与技术（翻译张磊）
7
DM算法-1 分类和预测

什么是分类? 什么是预测? 关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结
数据挖掘：概念与技术（翻译张磊） 8
A ssistan t P ro f A ssistan t P ro f P ro fesso r A sso ciate P ro f A ssistan t P ro f A sso ciate P ro f

e商务文档

数据挖掘算法培训讲义-分类和预测

相关文档推荐：