当前位置：文档之家› 数据预处理与清理数据ppt课件

数据预处理与清理数据ppt课件

数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致重复的记录不完整的数据不一致的数据

数据清理中所需要处理的其它问题

9
噪音数据的处理

分箱（Binning）的方法聚类方法

检测并消除异常点
对不符合回归的数据进行平滑处理由计算机检测可疑的点，然后由用户确认
分箱（Binning）方法举例

对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) :

- Bin 1: 4, 8, 9, 15

- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34

平滑处理: 从数据中消除噪音数据聚集操作: 对数据进行综合，类似于Data Cube的构
建

数据概化：构建概念层次数据规范化: 将数据集中到一个较小的范围之中

最大-最小规范化 z-score（零－均值）规范化

小数范围规范化（0–1规范化）

属性构造
18

最大-最小规范化

字符表示：优、良、及格、不及格

概念不清

最近交易额：前一个小时、昨天、本周、本月？

聚集冲突：根源在于表结构的设计
16
冗余数据的处理

从多个数据源中抽取不同的数据，容易导致数据的冗余

不同的属性在不同的数据源中是不同的命名方式
有些属性可以从其它属性中导出，例如：销售额＝单价×销售量

有些冗余可以通过相关分析检测到

规范化、聚集等
在可能获得相同或相似结果的前提下，对数据容量进行有效的缩减对于一个特定连续属性，尤其是连续数字属性，可以把属性值划分 6 成若干区间，以区间值来代替实际数据值，以减少属性值的个数.
数据归约

数据离散化

数据预处理的形式
数据清理
数据集成
数据转换
数据归约
7
缺失数据的处理方法

使用属性的平均值填充空缺数值

噪音数据（采集数据的设备、数据录入人员、数据传输）

不一致性（数据结构的设计人员、数据录入人员）

数据值的不一致性
3

数据挖掘的数据源可能是多个互相独立的数据源

关系数据库多维数据库（Data Cube）文件、文档数据库

数据转换

为了数据挖掘的方便

海量数据的处理

数据归约（在获得相同或者相似结果的前提下）
将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括：多个数据库、多维数据库和一般的文件数据集成也是数据仓库建设中的一个重要问题

数据集成的内容

模式集成

利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义

冗余数据的处理检测和解决数值冲突

对于现实世界中的同一实体，来自于不同数据源的属性值可能不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同
19

z-score（零－均值）规范化
15
模式集成

数据类型冲突

数据标签冲突：解决同名异义、异名同义
Βιβλιοθήκη 性别：string(Male、Female)、Char（M、F）、Interger（0、1）日期：Date、DateTime、String 学生成绩、分数学生成绩

度量单位冲突

百分制：100 ~ 0 五分制： A 、B、C、D、E
数据预处理与清理数据
1 为什么需要数据预处理? 2 数据清洗 3 数据集成与转换 4 数据归约
5 数据离散化
2
1 为什么需要数据预处理 ?

在现实社会中，存在着大量的“脏”数据

不完整性（数据结构的设计人员、数据采集设备和数据录入人员）

缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据，没有详细数据数据中包含错误的信息存在着部分偏离期望值的孤立点数据结构的不一致性 Label的不一致性
对原始数据进行线性变换
new _ max , new _ min
A A
保持了原始数据值之间的关系当有新的输入，落在原数据区之外，该方法将面临“越界”错误
v min A max A min A
受到孤立点的影响可能会比较大 v ' ( new _ max A new _ min A ) new _ min A

线性回归

人机结合共同检测

10
分箱方法

基本思想：

通过考察相邻数据的值，来平滑存储数据的值

基本步骤

首先，对数据进行排序，并分配到具有相同宽度 /深度的不同的“箱子”中。其次，通过箱子的平均值（Means）、中值（Median）、或者边界值等来进行平滑处理。

2018/10/22
11
r A ,B ( A A ) ( B B ) ( n 1 ) A B
其中：n是元组的个数， A 和分别是 A和B的平均值， B BA和B的标准差和分别是 A

元组级的“重复”，也是数据冗余的一个重要方面减少冗余数据，可以大大提高数据挖掘的性能
17
数据转换
4

没有高质量的数据，就没有高质量的挖掘结果

高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成

5
数据预处理的主要任务

数据清理

填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性多个数据库、Data Cube和文件系统的集成

数据集成

数据转换

简单方便、挖掘结果容易产生不精确的结果

使用与给定元组同一个类别的所有样本的平均值

分类非常重要，尤其是分类指标的选择

使用最有可能的值予以填充

利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断，保持了属性之间的联系
8

噪音数据

噪音数据:一个度量（指标）变量中的随机错误或者偏差主要原因

根据bin中的平均值进行离散化:

- Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
12
基于聚类分析的平滑处理
13
通过线性回归的平滑处理
y
Y1
Y1’
y=x+1
X1
x
14
数据集成

数据集成的概念

e商务文档

数据预处理与清理数据ppt课件

相关文档推荐：