当前位置:文档之家› 数据预处理与清理数据ppt课件

数据预处理与清理数据ppt课件


数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 重复的记录 不完整的数据 不一致的数据

数据清理中所需要处理的其它问题

9
噪音数据的处理

分箱(Binning)的方法 聚类方法

检测并消除异常点
对不符合回归的数据进行平滑处理 由计算机检测可疑的点,然后由用户确认
分箱(Binning) 方法举例

对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) :

- Bin 1: 4, 8, 9, 15


- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34

平滑处理: 从数据中消除噪音数据 聚集操作: 对数据进行综合,类似于Data Cube的构


数据概化:构建概念层次 数据规范化: 将数据集中到一个较小的范围之中

最大-最小规范化 z-score(零-均值)规范化

小数范围规范化(0–1规范化)

属性构造
18

最大-最小规范化

字符表示:优、良、及格、不及格

概念不清

最近交易额:前一个小时、昨天、本周、本月?

聚集冲突:根源在于表结构的设计
16
冗余数据的处理

从多个数据源中抽取不同的数据,容易导致数据的冗余


不同的属性在不同的数据源中是不同的命名方式
有些属性可以从其它属性中导出, 例如:销售额=单价×销售量

有些冗余可以通过相关分析检测到

规范化、聚集等
在可能获得相同或相似结果的前提下,对数据容量进行有效的缩减 对于一个特定连续属性,尤其是连续数字属性,可以把属性值划分 6 成若干区间,以区间值来代替实际数据值,以减少属性值的个数.
数据归约

数据离散化

数据预处理的形式
数据清理
数据集成
数据转换
数据归约
7
缺失数据的处理方法

使用属性的平均值填充空缺数值

噪音数据(采集数据的设备、数据录入人员、数据传输)


不一致性(数据结构的设计人员、数据录入人员)

数据值的不一致性
3

数据挖掘的数据源可能是多个互相独立的数据源

关系数据库 多维数据库(Data Cube) 文件、文档数据库

数据转换

为了数据挖掘的方便

海量数据的处理

数据归约(在获得相同或者相似结果的前提下)
将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据源包括:多个数据库、多维数据库和一般的文件 数据集成也是数据仓库建设中的一个重要问题

数据集成的内容

模式集成

利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义

冗余数据的处理 检测和解决数值冲突

对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同
19

z-score(零-均值)规范化
15
模式集成

数据类型冲突


数据标签冲突:解决同名异义、异名同义
Βιβλιοθήκη 性别:string(Male、Female)、Char(M、F)、Interger(0、1) 日期:Date、DateTime、String 学生成绩、分数 学生成绩

度量单位冲突

百分制:100 ~ 0 五分制: A 、B、C、D、E
数据预处理与清 理数据
1 为什么需要数据预处理? 2 数据清洗 3 数据集成与转换 4 数据归约
5 数据离散化
2
1 为什么需要数据预处理 ?

在现实社会中,存在着大量的“脏”数据

不完整性(数据结构的设计人员、数据采集设备和数据录入人员)

缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 数据中包含错误的信息 存在着部分偏离期望值的孤立点 数据结构的不一致性 Label的不一致性
对原始数据进行线性变换
new _ max , new _ min
A A
保持了原始数据值之间的关系 当有新的输入,落在原数据区之外,该方法将面 临“越界”错误
v min A max A min A
受到孤立点的影响可能会比较大 v ' ( new _ max A new _ min A ) new _ min A

线性回归


人机结合共同检测

10
分箱方法

基本思想:

通过考察相邻数据的值,来平滑存储数据的值

基本步骤

首先,对数据进行排序,并分配到具有相同宽度 /深度的不同的“箱子”中。 其次,通过箱子的平均值(Means)、中值 (Median)、或者边界值等来进行平滑处理。

2018/10/22
11
r A ,B ( A A ) ( B B ) ( n 1 ) A B
其中:n是元组的个数, A 和 分别是 A和B的平均值, B BA和B的标准差 和 分别是 A

元组级的“重复”,也是数据冗余的一个重要方面 减少冗余数据,可以大大提高数据挖掘的性能
17
数据转换
4

没有高质量的数据,就没有高质量的挖掘结果

高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成

5
数据预处理的主要任务

数据清理

填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 多个数据库、Data Cube和文件系统的集成

数据集成

数据转换

简单方便、挖掘结果容易产生不精确的结果

使用与给定元组同一个类别的所有样本的平均值

分类非常重要,尤其是分类指标的选择

使用最有可能的值予以填充

利用回归、基于推导的使用贝叶斯形式化的方法的工具或 者判定树归纳确定 利用属性之间的关系进行推断,保持了属性之间的联系
8

噪音数据

噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因

根据bin中的平均值进行离散化:

- Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
12
基于聚类分析的平滑处理
13
通过线性回归的平滑处理
y
Y1
Y1’
y=x+1
X1
x
14
数据集成

数据集成的概念

相关主题