当前位置:
文档之家› 数据预处理与清理数据ppt课件
数据预处理与清理数据ppt课件
数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 重复的记录 不完整的数据 不一致的数据
数据清理中所需要处理的其它问题
9
噪音数据的处理
分箱(Binning)的方法 聚类方法
检测并消除异常点
对不符合回归的数据进行平滑处理 由计算机检测可疑的点,然后由用户确认
分箱(Binning) 方法举例
对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) :
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
平滑处理: 从数据中消除噪音数据 聚集操作: 对数据进行综合,类似于Data Cube的构
建
数据概化:构建概念层次 数据规范化: 将数据集中到一个较小的范围之中
最大-最小规范化 z-score(零-均值)规范化
小数范围规范化(0–1规范化)
属性构造
18
最大-最小规范化
字符表示:优、良、及格、不及格
概念不清
最近交易额:前一个小时、昨天、本周、本月?
聚集冲突:根源在于表结构的设计
16
冗余数据的处理
从多个数据源中抽取不同的数据,容易导致数据的冗余
不同的属性在不同的数据源中是不同的命名方式
有些属性可以从其它属性中导出, 例如:销售额=单价×销售量
有些冗余可以通过相关分析检测到
规范化、聚集等
在可能获得相同或相似结果的前提下,对数据容量进行有效的缩减 对于一个特定连续属性,尤其是连续数字属性,可以把属性值划分 6 成若干区间,以区间值来代替实际数据值,以减少属性值的个数.
数据归约
数据离散化
数据预处理的形式
数据清理
数据集成
数据转换
数据归约
7
缺失数据的处理方法
使用属性的平均值填充空缺数值
噪音数据(采集数据的设备、数据录入人员、数据传输)
不一致性(数据结构的设计人员、数据录入人员)
数据值的不一致性
3
数据挖掘的数据源可能是多个互相独立的数据源
关系数据库 多维数据库(Data Cube) 文件、文档数据库
数据转换
为了数据挖掘的方便
海量数据的处理
数据归约(在获得相同或者相似结果的前提下)
将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据源包括:多个数据库、多维数据库和一般的文件 数据集成也是数据仓库建设中的一个重要问题
数据集成的内容
模式集成
利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义
冗余数据的处理 检测和解决数值冲突
对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同
19
z-score(零-均值)规范化
15
模式集成
数据类型冲突
数据标签冲突:解决同名异义、异名同义
Βιβλιοθήκη 性别:string(Male、Female)、Char(M、F)、Interger(0、1) 日期:Date、DateTime、String 学生成绩、分数 学生成绩
度量单位冲突
百分制:100 ~ 0 五分制: A 、B、C、D、E
数据预处理与清 理数据
1 为什么需要数据预处理? 2 数据清洗 3 数据集成与转换 4 数据归约
5 数据离散化
2
1 为什么需要数据预处理 ?
在现实社会中,存在着大量的“脏”数据
不完整性(数据结构的设计人员、数据采集设备和数据录入人员)
缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 数据中包含错误的信息 存在着部分偏离期望值的孤立点 数据结构的不一致性 Label的不一致性
对原始数据进行线性变换
new _ max , new _ min
A A
保持了原始数据值之间的关系 当有新的输入,落在原数据区之外,该方法将面 临“越界”错误
v min A max A min A
受到孤立点的影响可能会比较大 v ' ( new _ max A new _ min A ) new _ min A
线性回归
人机结合共同检测
10
分箱方法
基本思想:
通过考察相邻数据的值,来平滑存储数据的值
基本步骤
首先,对数据进行排序,并分配到具有相同宽度 /深度的不同的“箱子”中。 其次,通过箱子的平均值(Means)、中值 (Median)、或者边界值等来进行平滑处理。
2018/10/22
11
r A ,B ( A A ) ( B B ) ( n 1 ) A B
其中:n是元组的个数, A 和 分别是 A和B的平均值, B BA和B的标准差 和 分别是 A
元组级的“重复”,也是数据冗余的一个重要方面 减少冗余数据,可以大大提高数据挖掘的性能
17
数据转换
4
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成
5
数据预处理的主要任务
数据清理
填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 多个数据库、Data Cube和文件系统的集成
数据集成
数据转换
简单方便、挖掘结果容易产生不精确的结果
使用与给定元组同一个类别的所有样本的平均值
分类非常重要,尤其是分类指标的选择
使用最有可能的值予以填充
利用回归、基于推导的使用贝叶斯形式化的方法的工具或 者判定树归纳确定 利用属性之间的关系进行推断,保持了属性之间的联系
8
噪音数据
噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因
根据bin中的平均值进行离散化:
- Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
12
基于聚类分析的平滑处理
13
通过线性回归的平滑处理
y
Y1
Y1’
y=x+1
X1
x
14
数据集成
数据集成的概念