当前位置：文档之家› 数据挖掘PPT完整版本

数据挖掘PPT完整版本

聚类
通过聚类分析查找孤立点，消除噪声
15
如何处理噪声数据
回归
通过让数据适应回归函数来平滑数据
y
Y1
Y1’
y=x+1
X1
x
16
数据集成
数据集成：
数据挖掘任务常常涉及数据集成操作，即将来自多个数据源的数据，如：数据库、普通文件等，结合在一起并形成一个统一数据集合，以便为数据挖掘工作的顺利完成提供完整的数据基础。
箱3：29，29，29
用箱边界平滑：
箱1：4，4，15
箱2：21，21，24
箱3：25，25，34
13
如何处理噪声数据
聚类方法：
通过聚类分析可帮助发现异常数据，相似或相邻近的数据聚合在一起形成了各个聚类集合，而那些位于这些聚类集合之外的数据对象，自然而然就被认为是异常数据。
14
25
数据削减策略
数据削减策略
数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生
用于数据削减的时间不应当超过或“抵消” 在削减后的数据上挖掘节省的时间。
26
数据立方体聚集
数据立方体存储多维数据，创建在最低层数据立方体的称为基本立方体，最高层抽象的数据立方体称为顶点立方体，较高层的数据立方体将减少结果数据。
21
数据概化：所谓泛化处理就是用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。例如：街道属性，就可以泛化到更高层次的概念，诸如：城市、国家。同样对于数值型的属性，如年龄属性，就可以映射到更高层次概念，如：年轻、中年和老年。
22
规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0到1.0或0.0到1.0 o 最小----最大规范化：对原始数据进行线形变换。假定属性A的最小和最大值分别为minA 和maxA,计算
18
处理数据集成中的冗余数据
集成多个数据库时，经常会出现冗余数据
同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个表导出，如“年薪”
有些冗余可以被相关分析检测到
(AA)(BB)
rA,B (n1)AB
仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。
数据立方体聚集即将感兴趣的实体提高其抽象层次，以减少结果数据，便于分析使用。
27
维归约
维归约：通过删除不相关的属性（或）维减少数据量。通常使用属性子集选择方法。
属性子集选择方法：目标：找出最小属性集，使得数据类的概率
分布尽可能地接近使用所有属性的原分布。优点：减少了出现在发现模式上的属性的数
8
如何处理空缺值
人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：对一个属性的
所有遗漏的值均利用一个事先确定好的值来填补。
比如使用unknown或-∞或OK 使用属性的平均值填充空缺值
9
如何处理空缺值
利用同类别均值填补遗漏值
这种方法尤其在进行分类挖掘时使用。如：若要对商场顾客按信用风险（credit_risk）进行分类挖掘时，就可以用在同一信用风险类别下（如良好）的属性的平均值，来填补所有在同一信用风险类别下属性的遗漏值。
4
数据预处理的主要方法
数据清理
填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约（削减）
得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果
5
Forms of Data Preprocessing
10
数据清理——噪声数据
噪声：一个测量变量中的随机错误或变化引起噪声数据的原因
数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致
11
如何处理噪声数据
分箱(binning):
首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱的边界平滑
A
小数定标规范化：通过移动属性A的小数点位置进行
规范化，计算
v'
v 10 j
24
数据削减
数据消减技术是用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
目，使得模式更易于理解。
28
数据预处理
属性子集选择方法包括以下技术：
1) 逐步向前选择：由空属性集开始，每次都选择原属性集中最好的属性，将其添加到集合中。
2) 逐步向后删除：由整个属性集开始，在 Hale Waihona Puke 一步，删除掉尚在属性集中的最坏属性。
3) 向前选择和向后删除的结合：每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。
数据预处理
1
为什么要预处理数据？
数据预处理是数据挖掘（知识发现）过程中的一个重要步骤，尤其是在对包含有噪声、不完整，甚至是不一致数据进行数据挖掘时，更需要进行数据的预处理，以提高数据挖掘对象的质量，并最终达到提高数据挖掘所获模式知识质量的目的。
2
为什么要预处理数据？
现实世界的数据是“肮脏的”
6
数据清理－空缺值
数据并不总是完整的
例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时，有些数据应为得不到重视而没有被输入
空缺值要经过推断而补上
7
如何处理空缺值
忽略该条记录：若一条记录中有属性值被遗漏了，则将此条记录排除在数据挖掘过程之外，尤其当类别属性（class label）的值没有而又要进行分类数据挖掘时。当每个属性缺少值的百分比变化很大时，它的效果非常差。
等等
12
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据（单位：美元）：4，8，15，21， 21，24，25，28，34
划分为（等深的）箱：
箱1：4，8，15
箱2：21，21，24
箱3：25，28，34
用箱平均值平滑：
箱1：9，9，9
箱2：22，22，22
17
在数据集成过程中，需要考虑解决以下几个问题：
模式集成：
整合不同数据源中的元数据实体识别问题：匹配来自不同数据源的现实世
界的实体，比如：A.cust-id=B.customer_no
检测并解决数据值的冲突
对现实世界中的同一实体，来自不同数据源的属性值可能是不同的
可能的原因：不同的数据表示，不同的度量等等
4)
判定树归纳：用判定树算法选择“最好” 29
的属性，将数据划分成类。
数据压缩
数据压缩有损压缩和无损压缩
无损压缩的不足：只允许有限的数据操作。
两种流行和有效的有损数据压缩方法：小波变换主要成分分析
30
此课件下载可自行编辑修改，此课件供参考！部分内容来源于网络，如有侵权请与我联系删除！
v ' m v A m m a A A x i( n i n n_ e m w A n a_ x e m w A ) in n _ e m w Ai
23
将A的值映射到区间[new_minA,new_maxA]中的v’
z-score规范化：属性A的值基于A的平均值和标准差规范化，计算
v'
vA
不完整的：有些感兴趣的属性缺少属性值
含噪声的：包含错误或者异常（偏离期望值）的数据
不一致的：在编码或者命名上存在差异
没有高质量的数据，就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
使挖掘过程更有效、更容易
3
多方面考查数据的质量
精确（Accuracy）完整（Completeness）一致（Consistency）及时（Timeliness）可信（Believability）可添加（Value added）可解释（Interpretability）
19
数据转换
所谓数据转换就是将数据转换或归并成一个适合数据挖掘的描述形式。
数据转换包含以下处理内容：
20
数据变换
平滑：去除数据中的噪声（分箱、聚类、回归）聚集（合计处理）：对数据进行总结或合计
操作。例如：每天销售额（数据）可以进行合计操作以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多细度的分析。

e商务文档

数据挖掘PPT完整版本

相关文档推荐：