当前位置：文档之家› 数据挖掘模型评价

数据挖掘模型评价

2018/10/27 14
小概率事件：
所谓小概率事件是发生概率小，而且一定是能够为企业界带来高度获利或严重损失的事件。由于小概率事件发生概率很小，如果针对所有客户采取行动，就会形成浪费，因此，需要利用预测的技术将小概率事件找出来。那么，只针对预测的小概率事件采取行动就会避免浪费。 DM的价值就在于能够利用历史资料找出 “小概率事件”。

2018/10/27 12
利用A公司的模型后，结果发现里面只有一条规则，那就是“所有的人都不会违约”。为什么？ A：所有的人都不会违约，因此它错误的只有8%的违约分类错误（违约误判为不违约），因此准确率是92%。 B：在根据评分由高至低筛选出来前40%的名单中，可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户，因此准确率只有68%。哪一家的模型更好呢？由上可以发现，不能使用准确率来评判模型的优劣。

2018/10/27 7

为此，除用准确率评价分类模型外，还需要使用灵敏性（sensitivity）和特效性（specificity）度量。
还可以使用精度（precision）来度量，即评估标记为“cancer”，实际是 “cancer”的样本百分比。

2018/10/27
8
灵敏性
特效性
t _ pos sensitivity pos
t _ neg specificity neg
精度
t _ pos percision (t _ pos f _ pos)
accuracy sensitivity

pos neg specificity ( pos neg ) ( pos neg )
2018/10/27 2
“保持”这种评估方法是保守的，因为只有一部分初始数据用于导出的分类法。随机子选样是“保持”方法的一种变形，它将 “保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。
2018/10/27
3

在k—折交叉确认（k—fold cross— validation）中，初试数据被划分成k个互不相交的子集或“折”，每个折的大小大致相等。训练和测试k次。在第i次迭代，第 i折用作测试集，其余的子集都用于训练分类法。
9
预测值 1(预测“cancer”) 0(预测 “no_cancer” ) pos t_
1（实际 “cancer”） 0 10
0（实际 no_cancer） 0 90
sensitivity
pos
0
t _ neg specificity 100% neg
t _ pos percision 0 (t _ pos f _ pos) pos neg accuracy sensitivity specificity 90% ( pos neg ) ( pos neg )
2018/10/27
1
评估分类法准确率的技术有保持（holdout）和k折交叉确认（k-fold cross-validation）方法。
另外，还有两种提供分类法准确率的策略：装袋（bagging）和推进（boosting）。 1、保持和k-折交叉 ①在保持方法中，给定数据随机划分成两个独立的集合：训练集和测试集。通常，三分之二的数据分配到训练集，其余三分之一分配到训练集。
2018/10/27
10

传统评估分类预测模型时，通常使用的是 “准确度”。它的功能是评估模型分类实物是否正确。准确度越高模型就越好。但事实上，这样评估出来的模型并不是最好的。

2018/10/27
11
例：某家银行发行现金卡，风险控管部门主管决定建立DM模型，利用申请人申请当时的所填的资料，建立违约预测模型，来作为核发现金卡以及给予额度的标准。该银行邀请两家DM公司来设计模型，评比的标准是根据模型的“准确度”。根据此标准，A公司所建模型的准确度92%， B公司的准确度是68%。银行和A公司签约。

2018/10/27 13
原因在于两类错误，忽略了“错误不等价”。如果把一个“会违约的人判断成不会违约”，这家银行损失20～30万元的现金卡卡金，但是如果将一个“不会违约的人错判成违约”，只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。因此两种误判所造成的效益影响是不等价的。
2018/10/27 5
推进
在推进中，每个训练样本赋予一个权。学习得到一系列分类法。学习得到分类法Ct 后，对分类错误的样本更新权重，使得下一次迭代更关注这些样本。
即使用相同的分类器，各个分类器不是独立的；使用同一个算法对样本迭代训练，后建立的分类器关注于先前建立的分类器不能更好处理的部分数据；最终的输出为各个分类器的加权投票。
其中，t_pos是真正样本（被正确地按此分类的 “cancer”样本）数，pos是正（“cancer”）样本数， t_neg是真负样本（被正确地按此分类的 “non_cancer”样本）数，neg是负（ “non_cancer”）样本数， 2018/10/27 而f_pos假正样本（被错误地标记为“cancer”的
准确率估计是k次迭代正确分类数除以初始数据中的样本总数。4Βιβλιοθήκη 2018/10/27
装袋
给定样本s个样本的集合S，装袋过程如下。对于迭代（ t t 1, 2,..., T），训练集Si 采用放回选样，由原始样本集S 选取。由于使用放回选样，S的某些样本可能不在St中，而其他的可能出现多次。由每个训练集St 学习，得到一个分类法Ct。为对一个未知的样本X 分类，每个分类法Ct 返回他的类预测，算作一票。装袋的分类法C *统计得票，并将得票最高的类赋予X 。通过取得票的平均值，或者多数，装袋也可以是连续值的预测。
2018/10/27 6
假定你已经训练了一个分类法，将医疗数据分类为“cancer”或“non_cancer”。 90%的准确率使得该分类法看上去相当准确，但是如果实际只有3—4%的训练样本是“cancer”会怎么样？显然，90%的准确率是不能接受的——该分类法只能正确的标记“non_cancer”（称作负样本）样本。但我们希望评估该分类能够识别“cancer”（称作正样本）的情况。

e商务文档

数据挖掘模型评价

相关文档推荐：