当前位置：文档之家› 数据挖掘分类

数据挖掘分类

输入：每个类的中心C1，…，Cm；待分类的元组t。输出：输出类别c。
（1）dist=∞；//距离初始化
（2）FOR i:=1 to m DO
（3）（4）
IF dis(ci，t)<dist THEN BEGIN c← i；
（5）（6）
dist←dist(ci，t)；
END.
更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。
马修斯相关性系数定义为
00:48
10
分类模型的评估
ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实现，其中TPR=TP/(TP+FN), FPR=FP/(FP+TN)。
预测是否正确预测结果比如预测未知动物是鸟类还是爬行动物，阳性代表爬
行动物，阴性代表非爬行动物，请大家阐述 TP=10， TN=8，FN=3，FP=2是什么意义
00:48
8
分类模型的评估
灵敏度(Sensitivity)： TP/(TP+FN)
也称为查全率(Recall)
数据集共有13只爬行动物，其中10只被正确预测为爬行动物，灵敏度为10/13
sim(ti，Cj)>=sim(ti，Cl) ，Cl∈C，Cl≠Cj，
其中sim(ti，Cj)被称为相似性。
在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。
距离的计算方法有多种，最常用的是通过计算每个类的中心来完成。
00:48
13
基于距离的分类算法的一般性描述
算法 4-1 基于距离的分类算法
分类器通常可以看作一个函数，它把特征映射到类的空间上
00:48
5
如何避免过度训练
分类也称为有监督学习(supervised learning), 与之相对于的是无监督学习(unsupervised learning),比如聚类。
分类与聚类的最大区别在于，分类数据中的一部分的类别是已知的，而聚类数据的类别未知。
建立分类模型需要学习一部分已知数据，如果训练时间过长，或者预测模型参数太多而样本较少，将导致过度训练(overfitting)。
00:48
6
如何避免过度训练
避免过度训练最重要一点是，模型的参数量应远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
训练集应用于建立分类模型测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation)：将初始采样分割成K个子样本(S1，S2,...,Sk)，取K-1个做训练集，另外一个做测试集。交叉验证重复K 次，每个子样本都作为测试集一次，平均K次的结果，最终得到一个单一估测。
00:rue Positive)：实际为阳性预测为阳性真阴性(True Negative)：实际为阴性预测为阴性假阳性(False Positive)：实际为阴性预测为阳性假阴性(False Negative)：实际为阳性预测为阴性
数据集包含23只动物，其中18只预测为正确的分类，准确率为18/23
00:48
9
分类模型的评估
对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果。
非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如，数据集包含10只爬行动物，990只爬行动物，此时，是否预测正确爬行动物对准确率影响不大。
2
是
无
动物B 中
2
2
否
是
类别爬行动物爬行动物爬行动物
鸟类鸟类鸟类？？
根据现有的知识，我们得到了一些关于爬行动物和鸟类的信息，我们能否对新发现的物种，比如动物A，动物B进行分类？
00:48
2
分类的流程
动物种类体型
狗
中
猪
大
牛
大
麻雀小
天鹅中
大雁中
翅膀数量
0 0 0 2 2 2
脚的只数是否产蛋是否有毛
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物爬行动物爬行动物
鸟类鸟类鸟类
步骤二：选择与类别相关的特征（特征选择）。
比如，绿色代表与类别非常相关，黑色代表部分相关，灰色代表完全无关
00:48
4
分类的流程
f (xi1, xi2, xi3,......,xin) yi
步骤三：建立分类模型或分类器（分类）。
第三章分类方法
分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题
内容提要
00:48
1
分类的流程
动物种类体型翅膀数量脚的只数是否产蛋是否有毛
狗
中
0
4
否
是
猪
大
0
4
否
是
牛
大
0
麻雀
小
2
4
否
是
2
是
是
天鹅
中
2
2
是
是
大雁
中
2
2
是
是
动物A 大
0
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物爬行动物爬行动物
鸟类鸟类鸟类
步骤一：将样本转化为等维的数据特征（特征提取）。
所有样本必须具有相同数量的特征兼顾特征的全面性和独立性
00:48
3
分类的流程
动物种类体型
狗
中
猪
大
牛
大
麻雀小
天鹅中
大雁中
翅膀数量
0 0 0 2 2 2
脚的只数是否产蛋是否有毛
特异度(Specificity): TN/(TN+FP)
数据集有10只非爬行动物，其中8只被预测为非爬行动物，特异度为8/10
精度(Precision):
TP/(TP+FP)
分类器预测了12只动物为爬行动物，其中10只确实是爬行动物，精度为10/12
准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP)
大部分分类器都输出一个实数值(可以看作概率),通过变换阈值可以得到多组TPR与FPR的值。
00:48
11
第三章分类方法
分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题
内容提要
00:48
12
基于距离的分类算法的思路
定义4-2 给定一个数据库 D={t1，t2，…，tn}和一组类C={C1，…，Cm}。假定每个元组包括一些数值型的属性值：ti={ti1，ti2，…，tik}，每个类也包含数值性属性值：Cj={Cj1，Cj2，…，Cjk}，则分类问题是要分配每个ti到满足如下条件的类Cj：

e商务文档

数据挖掘分类

相关文档推荐：