数据预处理的常见方法
(1)空缺值; (2)噪声数据; (3)不一致数据。
数据集成
7
数据集成
➢ 将多个数据源中的数据整合到一个一致的存储中。 ➢ 这些源可以是关系型数据库、数据立方体或一般文件。
它需要统一原始数据中的所有矛盾之处,如字段的:
➢ 同名异义; ➢ 异名同义; ➢ 单位不统一; ➢ 字长不一致等。
数据变换
➢ 可用来构造数据立方体。
数据归约
9
对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间,使得这样 的分析变得不现实和不可行;
数据归约(data reduction):数据消减或约简,是在不影响最终挖掘结果 的前提下,缩小所挖掘数据的规模。
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原 数据的完整性。
4
数据清理(清洗):去掉数据中的噪声,纠正不一致 数据集成 数据变换(转换) 数据归约(消减)
注意:
5
上述的各种数据预处理方法,并不是相互独立的,而是相互关联的,如消除 数据冗余既可以看成是一种形式的数据清洗,也可以看成是一种数据归约 (消减)。
一、数据清理
6
现实世界的数据一般是脏的、不完整的和不一致的。而数据清洗试图填充空 缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。因此,从如下 几个方面介绍:
对归约后的数据集进行挖掘可提高挖掘的效率,并产生相同(或几乎相同) 的结果。
数据归约
10
数据归约的标准:
用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。 归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。
数据规约
11
数据归约的策略如下:
数据立方体聚集; 维归约; 数据压缩; 数值归约; 离散化和概念分层生成。
8
数据变换:将数据转换成适合数据挖掘的形式。涉及内容:(1)平滑:去掉 数据中的噪声,将连续的数据离散化:
➢ 分箱
➢
➢ Avg(), count(), sum(), min(), max(),…
➢ 如,每天销售额(数据)可以进行聚集操作以获得每月或每年的总额。
小结
12
理解数据挖掘中进行预处理的方法
习题
13
1. 为什么要进行数据清理,有哪些方法。
数据预处理的常见方法
内容要点
1
理解数据挖掘中进行预处理的常见方法
数据预处理的重要性
2
数据预处理的常见方法
3
-----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据 仓库。
-----将一种格式的数据转换为另一格式的数据(如规范化) ----通过聚集、删除冗余属性或聚类等方法来压缩数据。