分类与决策树
银 ID
行1
贷2
款 数
3
据4
集5
6
7
8
9
10
11
12
13
14
15
Age
Young Young Young Young Young Middle Middle Middle Middle Middle Old Old Old Old Old
Has_job
No No Yes Yes No No No Yes No No No No Yes Yes No
• CHAID(chi-squared automatic interaction detection,卡方自动交互检测)
二叉或多叉
建立决策树
• 树的生长
– 分裂属性及其条件的选择 – 何时结束分裂
• 树的选择
1. 裂分目标与属性选择
• 裂分目标 使分裂后数据子集的纯度比裂分前数据集的纯度
最大限度的提高;即不同类别的观测尽量分散在不 同的子集中。 • 指标
Has_job
No No Yes Yes No No No Yes No No No No Yes Yes No
Own_home
No No No Yes No No No Yes Yes Yes Yes Yes No No No
Credit
Fair Good Good Fair Fair Fair Good Good Excellent Excellent Excellent Good Good Excellent Fair
分类方法
•决策树方法 •贝叶斯分类法 •LOGISTIC回归 •神经网络方法 •K近邻分类法 •SVM分类法 ……….
决策树(decision tree)
Root
Node
Leaf 规则1:If refund=no and (marst=single or marst=divorced) and taxincome>80k then cheat=yes ……
分析数据集应该包括哪些客户?
ID Age
1 Young 2 Young 3 Young 4 Young 5 Young 6 Middle 7 Middle 8 Middle 9 Middle 10 Middle 11 Old 12 Old 13 Old 14 Old 15 Old
银行贷款申请 Has_job
银 ID
行1
贷2
款 数
3
据4
集5
6
7
8
9
10
11
12
13
14
15
Age
Young Young Young Young Young Middle Middle Middle Middle Middle Old Old Old Old Old
Has_job
No No Yes Yes No No No Yes No No No No Yes Yes No
Own_home
No No No Yes No No No Yes Yes Yes Yes Yes No No No
Credit
Fair Good Good Fair Fair Fair Good Good Excellent Excellent Excellent Good Good Excellent Fair
Class
No No Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes No
银行贷款案例数据集的分类误差: CE=1- 9/15=6/15=0.4
二、建立决策树
常用算法 • ID3-ID5,C4,C4.5,C5.0
二叉或多叉 信息熵
• CART(Classification and Regression Trees分 类与回归树) (C&RT) 二叉 GINI 指数
建模
模型评估
规则1:If refund=no and
marst=married then cheat=no
模
……
型
应
用
分类的过程
• 数据集分区
– 训练集:建立模型 – 验证集:调整和选择模型 – 测试集:评估模型的预测能力
• 建立模型 • 评估并选择模型 • 运用模型
新数据(打分集)
思考:分类模型在什么情况下不适合用于新数据?
Age
Young
Middle
Old
Yes:2 No:3
Yes:3 No:2
Yes:4 No:1
裂分后数据集的熵EntropyAge(T)= 5/15* Entropy(T1)+ 5/15* Entropy(T2)+ 5/15* Entropy(T3) = 5/15*(− 3/5*log2(3/5) − 2/5*log2(2/5) )+
– 信息增益与信息增益率 – GINI指数的下降 – 二分指数 – 卡方检验 – C-SEP、…
信息增益
Information Gain = 裂分前数据集的熵 – 裂分后各子数据集的熵
加权和
其中:权重为每个子集中的观测数在裂分前总 观测数中所占的比例
案例数据集基于own_home属性划分
ID Age
No
No
Fair
Class
No No Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes No
分类与预测
• 分类:
– 目标变量为非数值型
• 预测:
– 目标变量为数值型
• 根据历史数据集(已知目标变 量),构建模型描述目标变量 与输入变量之间的关系,并依 据模型来分类或预测新数据( 目标变量值未知)。 分类模型也称为分类器。
纯度与混杂度
混杂度的常用测度指标
• 信息熵 ( Entropy) • 基尼指数( Gini Index) • 分类误差(classification error)
信息熵 ( Entropy)
Pj 是数据集合中类别j的相对比例.
entropy = pi log 2 pi
i
什么情况下,熵最小? 什么情况下,熵最大?
Class
No No Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes No
银行贷款案例数据集的基尼指数: gini=1-(6/15)2-(9/15)2=0.48
分类误差(classification error)
CE最大=?1-1/2 (目标变量为二元变量) CE最小=?0
No
15 Old
No
No
Fair
No
Good
No
Good
Yes
Fair
Yes
Fair
No
Fair
No
Good
No
Good
Yes
Excellent Yes
Excellent Yes
Excellent Yes
Good
Yes
Good
Yes
Excellent Yes
Fair
No
案例数据集基于age属性划分
Has_job Own_home Credit
Class
1 Young No
No
2 Young No
No
3 Young Yes
No
4 Young Yes
Yes
5 Young No
No
6 Middle No
No
7 Middle No
No
8 Middle Yes
Yes
9 Middle No
Yes
10 Middle No
Class
Noቤተ መጻሕፍቲ ባይዱNo Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes No
银行贷款案例数据集的熵:
Entropy(T)=−6/15*log2(6/15) − 9/15*log2(9/15)=0.971
Gini 指数
Pj 是数据集合中类别j的相对比例.
GINI最大=?1-1/2 (目标变量为二元变量) GINI最小=?0
Yes
Good
Yes
Excellent Yes
Fair
No
案例数据集基于ownhome属性划分
Yes
Yes:6 No:0
Own_home
No
Yes:3 No:6
裂分前数据集的熵:Entropy(T0)=−6/15*log2(6/15) − 9/15*log2(9/15)=0.971
划分后数据集的熵EntropyOwn_home(T)= 6/15* Entropy(T1)+ 9/15* Entropy(T2) = 6/15*(− 6/6*log2(6/6) − 0/0*log2(0/6) )+
分类与预测
Vicky
银行个人住房贷款审批
银行个人客户提出住房贷款申请,根据历史 数据发现:部分贷款客户不能按时还款。为尽量 降低这种现象,需要发现不能按时还款客户的特 征,以便对以后住房贷款申请的审批提供依据。
2006年年底,由SAS机构与招商银行启动了全 行个人住房贷款评分卡开发与推广项目。
该项目利用客户的历史数据构建评分卡模型, 然后将该模型应用到新客户上,最后决定是否接 受新客户的贷款申请。
Yes:1
Yes:4
Yes:4
No:4
No:2
No:0
根据hasjob 和credit划分后的熵分O别w为n_home
EntropyHas_job(TY)=e0s.647
EntropyCredit(T)=0.608