数据挖掘模型评价
2018/10/27 14
小概率事件:
所谓小概率事件是发生概率小,而且一定 是能够为企业界带来高度获利或严重损失 的事件。 由于小概率事件发生概率很小,如果针对 所有客户采取行动,就会形成浪费,因此, 需要利用预测的技术将小概率事件找出来。 那么,只针对预测的小概率事件采取行动 就会避免浪费。 DM的价值就在于能够利用历史资料找出 “小概率事件”。
2018/10/27 12
利用A公司的模型后,结果发现里面只有一条规则, 那就是“所有的人都不会违约”。 为什么? A:所有的人都不会违约,因此它错误的只有8%的 违约分类错误(违约误判为不违约),因此准确率 是92%。 B:在根据评分由高至低筛选出来前40%的名单中, 可以将所有的违约户都找出来。即有32%的非违约 户被误判为违约户,因此准确率只有68%。 哪一家的模型更好呢? 由上可以发现,不能使用准确率来评判模型的优劣。
2018/10/27 7
为此,除用准确率评价分类模型外,还 需要使用灵敏性(sensitivity)和特效性 (specificity)度量。
还可以使用精度(precision)来度量, 即评估标记为“cancer”,实际是 “cancer”的样本百分比。
2018/10/27
8
灵敏性
特效性
t _ pos sensitivity pos
t _ neg specificity neg
精度
t _ pos percision (t _ pos f _ pos)
accuracy sensitivity
pos neg specificity ( pos neg ) ( pos neg )
2018/10/27 2
“保持”这种评估方法是保守的,因为只有一 部分初始数据用于导出的分类法。 随机子选样是“保持”方法的一种变形,它将 “保持”方法重复k次。总体准确率估计取每次 迭代准确率的平均值。
2018/10/27
3
在k—折交叉确认(k—fold cross— validation)中,初试数据被划分成k个互 不相交的子集或“折”,每个折的大小大 致相等。训练和测试k次。在第i次迭代,第 i折用作测试集,其余的子集都用于训练分 类法。
9
预测值 1(预测“cancer”) 0(预测 “no_cancer” ) pos t_
1(实际 “cancer”) 0 10
0(实际 no_cancer) 0 90
sensitivity
pos
0
t _ neg specificity 100% neg
t _ pos percision 0 (t _ pos f _ pos) pos neg accuracy sensitivity specificity 90% ( pos neg ) ( pos neg )
2018/10/27
1
评估分类法准确率的技术有保持(holdout)和k折交叉确认(k-fold cross-validation)方法。
另外,还有两种提供分类法准确率的策略:装袋 (bagging)和推进(boosting)。 1、保持和k-折交叉 ①在保持方法中,给定数据随机划分成两个独立 的集合:训练集和测试集。通常,三分之二的数 据分配到训练集,其余三分之一分配到训练集。
2018/10/27
10
传统评估分类预测模型时,通常使用的是 “准确度”。它的功能是评估模型分类实 物是否正确。准确度越高模型就越好。 但事实上,这样评估出来的模型并不是最 好的。
2018/10/27
11
例:某家银行发行现金卡,风险控管部门主 管决定建立DM模型,利用申请人申请当时 的所填的资料,建立违约预测模型,来作 为核发现金卡以及给予额度的标准。 该银行邀请两家DM公司来设计模型,评比 的标准是根据模型的“准确度”。 根据此标准,A公司所建模型的准确度92%, B公司的准确度是68%。 银行和A公司签约。
2018/10/27 13
原因在于两类错误,忽略了“错误不等价”。 如果把一个“会违约的人判断成不会违 约”,这家银行损失20~30万元的现金卡 卡金,但是如果将一个“不会违约的人错 判成违约”,只是划分了一些审查成本以 及可能因为保守给予额度而造成的机会成 本损失。 因此两种误判所造成的效益影响是不等价 的。
2018/10/27 5
推进
在推进中,每个训练样本赋予一个权。学习得到 一系列分类法。学习得到分类法Ct 后,对分类错误的 样本更新权重,使得下一次迭代更关注这些样本。
即使用相同的分类器,各个分类器不是独立的; 使用同一个算法对样本迭代训练,后建立的分类 器关注于先前建立的分类器不能更好处理的部分 数据;最终的输出为各个分类器的加权投票。
其中,t_pos是真正样本(被正确地按此分类的 “cancer”样本)数,pos是正(“cancer”)样本 数, t_neg是真负样本(被正确地按此分类的 “non_cancer”样本)数,neg是负( “non_cancer”)样本数, 2018/10/27 而f_pos假正样本(被错误地标记为“cancer”的
准确率估计是k次迭代正确分类数除以初始 数据中的样本总数。4Βιβλιοθήκη 2018/10/27
装袋
给定样本s个样本的集合S,装袋过程如下。对于迭代 ( t t 1, 2,..., T),训练集Si 采用放回选样,由原始样本集S 选取。由于使用放回选样,S的某些样本可能不在St中,而 其他的可能出现多次。由每个训练集St 学习,得到一个分 类法Ct。为对一个未知的样本X 分类,每个分类法Ct 返回他 的类预测,算作一票。装袋的分类法C *统计得票,并将得票 最高的类赋予X 。通过取得票的平均值,或者多数,装袋也 可以是连续值的预测。
2018/10/27 6
假定你已经训练了一个分类法,将医疗数 据分类为“cancer”或“non_cancer”。 90%的准确率使得该分类法看上去相当准 确,但是如果实际只有3—4%的训练样本 是“cancer”会怎么样? 显然,90%的准确率是不能接受的——该 分类法只能正确的标记“non_cancer”( 称作负样本)样本。但我们希望评估该分 类能够识别“cancer”(称作正样本)的 情况。