当前位置:文档之家› 数据预处理

数据预处理


它们分别代表输入数据的平滑后或低频的版本和它的高频内容。
④两个函数递归地作用于前面的新数据集,直到数据集的长度为2。
⑤由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数。
31
3.5
3.5.3
数据归约
数据压缩
2、主要成分分析(PCA,又称K-L方法):
假定待压缩的数据由N个元组或数据向量组成,取自k-维。主要成分分
14
3.4
3.4.1
数据转换
数据标准化
数据的标准化是将数据按比例缩放,使之落入特定小区间。 小数缩放: 小数缩放移动小数点,但仍保留大多数原始数据值。常见的缩放是使 值在-1到1的范围内。小数缩放可以表示为等式
15
3.4
3.4.1
数据转换
数据标准化
最小—最大标准化(归一化):
16
3.4
3.4.1
11
3.3
3.3.2
数据集成
冗余和相关分析
3、数值数据的协方差
用于评估两个属性是否一起变化
12
3.3
3.3.3
数据集成
元组重复数据的检测
除了检测属性间的冗余外,还应当在元组级检测重复(重复实体记
录)。去规范化表(数据冗余以减少库表连接)的使用是数据冗余的另 一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据 输入,或由于只更新了某些副本的数据,但未更新其他副本的数据。
此外,数据可能并非来自假定的样本母体(异常点,偶然/必然?)。
4
3.1
数据预处理的必要性
数据准备阶段的两个中心任务: ①把数据组织成一种标准形式,以便数据挖掘工具和其他基于计算机
的工具处理(标准形式是一个关系表)。
②准备数据集,使其能得到最佳的数据挖掘效果。
5
3.2
3.2.1
数据清洗
缺失数据处理方法
③生成一个预测模型来预测每个丢失值。
6
3.2
3.2.2
数据清洗
噪声数据平滑技术
数据值越多,越影响数据挖掘性能,而数据值的微小差别不重要,可进 行平滑处理。 ①计算类似测量值的平均值。如,数据值是有小数的实数,则把这些 值平滑为给定的精度就是应用大量样本的一种简单平整算法,其中
每个样本都有自己的实数值。
属性子集选择的基本启发式方法包括以下技术(2): (3)向前选择和向后删除的结合。向前选择和向后删除方法结合, 每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
(4) 决策树归纳。决策树归纳构造一个类似于流程图的结构,其每
个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的 一个输出;每个外部(树叶)结点表示一个判定类。在每个结点,算法 选择“最好”的属性,将数据划分成类。
比,所需的I/O操作更少,更有效。对于同一个属性可定义多个概念分
层,以适合不同需要。
18
3.4
3.4.2
数据转换
数据泛化
($0„$1000]
($0„$200]
($200„$400]
($400„$600]
($600„$800]
($800„$1000]
($0„$100]
($200„$300]
($400„$500]
13
3.3
3.3.4
数据集成
冲突数据的检测与处理
数据集成还涉及数据值冲突的检测与处理。不同数据源对同一实体
因为表示、包含内容、比例或编码不同而属性值可能不同。数据这种语
义上的异种性,是数据集成的巨大挑战。 将多个数据源中的数据集成,能减少或避免结果数据集中数据的冗 余和不一致性。这有助于提高其后挖掘的精度和速度。
24
3.5
3.5.1
数据归约
数据立方体聚集
D
分部
B
C
A
家庭娱乐 568 750 150 50 1997 1998 1999
25
商品类型
计算机 电话 安全

3.5
3.5.2
数据归约
维度归约
用于数据分析的数据可能包含数以百计的属性,大部分属性与挖掘 任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能 是一项困难而费时的任务,特别是当数据的行为不清楚时更是如此。遗漏 相关属性或留下不相关属性是有害的,会导致所用的挖掘算法无所适从。
($600„$700]
($800„$900]
($100„$200]
($300„$400]
($500„$600]
($700„$800]
($900„$1000]
属性price的一个概念分层
19
3.4
3.4.2
数据转换
数据泛化
一些典型的方法产生分类数据的概念分层(1): (1)由用户或专家在模式级显式地说明属性的部分序。通常,分类 属性或维的概念分层涉及一组属性。 (2)通过显式数据分组说明分层结构的一部分。这基本上是人工地 定义概念分层结构的一部分。
20
3.4
3.4.2
数据转换
数据泛化
一些典型的方法产生分类数据的概念分层(2):
(3)说明属性集,但不说明它们的偏序。用户可以说明一个属性
集,形成概念分层,但并不显式说明它们的偏序。系统自动产生序,形 成概念分层。一般地,底层概念的数据不同取值个数较高层概念多。 (4)只说明部分属性集。在定义分层时,有时用户可能不小心,或 对分层结构中应包含什么不清楚使得其可能在分层结构说明中只包含了
②减少特征中不同值的数目,即减少了数据空间的维度,这对基于逻 辑的数据挖掘方法特别有用。如将连续型特征分解成只包含“真 假”两个值的离散型特征。
7
3.2
3.2.3
数据清洗
时间相关数据的处理
实际的数据挖掘应用可能时间强相关、时间弱相关和时间无关。 最简单情况:隔一定(固定)时间间隔测量的单个特征。用以前的多 个(组-窗口)值预测以后的一或多个值。 时间序列的特征概括起来,主要成分如下:
这可能导致发现的模式质量很差。此外,不相关或冗余的属性增加了数据
量,可能会减慢挖掘进程。
26
3.5
3.5.2
数据归约
维度归约
维归约通过删除不相关的属性(或维)减少数据量。通常使用属性 子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概 率分布尽可能地接近使用所有属性的原分布。在最小属性集上挖掘还有其 它的优点。它减少了发现模式上的属性数,使模式更易理解。
33
3.5
3.5.4
数据归约
数值归约
1、回归和对数线性模型:
回归和对数线性模型可以用来近似给定数据。在线性回归中,对 数据建模,使之适合一条直线。例如,可以用以下公式,将随机变量Y (称作响应变量)表示为另一随机变量X(称为预测变量)的线性函数
34
3.5
3.5.4
数据归约
数值归约
2、直方图:
通常,桶表示给定属性的一个连续区间。“如何确定桶和属性值的
第3章 数据预处理
3.1
3.2 3.3 3.4
数据预处理的必要性
3.5
3.6
数据归约
数据清洗
数据集成 数据转换
数据离散化
特征提取、选择和构造
3.7
1
3.1
数据预处理的必要性
数据预处理包括数据清理、数据集成、数据变换和数据归约等,可
以改进数据质量,提高数据挖掘过程的性能和精度。
失真数据、错误的步骤、滥用数据挖掘工具、未考虑数据中的各种 不确定性和模糊性,都可能导致方向错误。数据挖掘是一个批判性的鉴 定、考查、检验和评估过程。
数据转换
数据标准化
标准差标准化: 按标准差进行的标准化对距离测量值非常有效,但是把初始数据转化
成了未被认可的形式。对于特征v,平均值mean(v)和标准差sd(v)是针对
整个数据集来计算的。对于样本i,用下述公式转换特征的值:
17
3.4
3.4.2
数据转换
数据泛化
数据泛化是用高层次概念替换低层次“原始”数据。通过泛化,细 节丢失了,但泛化后的数据更有意义、更易解释,且所需的空间比原数 据少。在泛化后的数据上进行挖掘,与在大的、泛化前的数据上挖掘相
2
3.1
数据预处理的必要性
用不同方式计算,采用不同的样本大小,选择重要的比率,针对时 间相关数据改变数据窗口的大小等,都会改进数据挖掘的效果。 数据在本质上应该是定义明确的、一致的和非易失性的。 数据量应足够大。
3
3.1
杂乱数据的原因: ①数据缺失
数据预处理的必要性
②数据的误记录,这在大数据集中非常常见。
④数值归约:用替代的、较小的数据表示替换或估计数据,如参数模 型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚 类、选样和使用直方图。 ⑤离散化和概念分层产生:属性的原始值用区间值或较高层的概念替
换。概念分层允许挖掘多个抽象层上的数据,是一种强有力的工具。 22
3.5
3.5.1
数据归约
数据立方体聚集
3.5
主要成分分析的基本过程如下: ①对输入数据规范化,使得每个属性都落入相同的区间。
②PCA计算c个规范正交向量,作为规范化输入数据的基。
③对主要成分按“意义”或强度降序排列。 ④既然主要成分根据“意义”降序排列,就可以通过去掉较弱的成 分(即,方差较小的那些)来压缩数据。
27
3.5
3.5.2
数据归约
维度归约
属性子集选择的基本启发式方法包括以下技术(1): (1)逐步向前选择。该过程由空属性集开始,选择原属性集中最好 的属性,并将它添加到该集合中。
(2)逐步向后删除。该过程由整个属性集开始。在每一步,删除掉
尚在属性集中的最坏属性。
相关主题