当前位置:文档之家› 数据挖掘概念与技术第二章数据预处理1精品PPT课件

数据挖掘概念与技术第二章数据预处理1精品PPT课件


2020/10/28
数据挖掘:概念与技术
7
Chapter 2: Data Preprocessing
Why preprocess the data? 描述性数据汇总
Data cleaning
Data integration and transformation
Data reduction
s2n 1 1i n 1(xi x)2n 1 1 [i n 1xi21 n(i n 1xi)2]
2N 1i n1(xi)2N 1i n1xi22
标准差 s (or σ) 是方差的平方根 s2 (or σ2)
2020/10/28
数据挖掘:概念与技术
14
正态分布曲线的属性
正态分布曲线 从 μ–σ 到 μ+σ: 大约包含68%的观测值 (μ: mean, σ: standard deviation) 从 μ–2σ 到 μ+2σ:大约包含95%的观测值 从 μ–3σ 到 μ+3σ:大约包含99.7%的观测值
2020/10/28
数据挖掘:概念与技术
12
度量数据的离散程度(1) (数据已经递增排序)
极差,四分位数, 离群点 与 盒图
极差(range):最大值与最小值之差
四分位数: Q1 (第25个百分位数), Q3 (第75个百分位数)
中间四分位数极差: IQR = Q3 – Q1 五数概括: min, Q1, Median, Q3, max 盒图:
代数度量
采用多个分布式度量函数来导出计算数据集的度量值。如 average()=sum()/count() 。
整体度量
必须对整个数据集计算的度量,计算开销较大,可以寻找 近似计算的方法。
2020/10/28
数据挖掘:概念与技术
10
度量数据的中心趋势(1)
平均值mean (代数度量,分布式度量,SQL中AVG()):
数据挖掘: 概念与技术
— 第二章 数据预处理 —
2020/10/28
数据挖掘:概念与技术
1
第二章: 数据预处理
为什么需要数据预处理? 描述性数据汇总 数据清理 数据集成和变换 数据归约 数据离散化和概念分层产生 总结
2020/10/28
数据挖掘:概念与技术
2
为什么需要预处理数据?
现实世界的数据容易“变脏” 不完整: 缺省属性值,缺少感兴趣的属性, 或者仅 仅包含聚集数据。
Discretization and concept hierarchy generation
Summary
2020/10/28
数据挖掘:概念与技术
8
挖掘数据的描述性特征(1)
动机 更好地理解数据分布:中心趋势,变化和传播趋势
数据的中心趋势度量 均值(mean)、中位数(median)、众数(mode)、中列 数(midrange)等。
2020/10/28
数据挖掘:概念与技术
3
为什么数据会变脏?
不完整的数据可能来自
收集数据时该数据值(属性)没有用 在收集数据和分析数据时的存在不同考虑 人员/硬件/软件故障的
噪声数据(不正确的数值)可能来自
仪器设备产生错误数据 数据输入时人为错误或计算机错误 数据传输错误
不一致数据可能来自
2020/10/28
数据挖掘:概念与技术
6
数据预处理的主要任务
数据清理
填充缺失值,光滑噪声数据, 识 别和删除离群值,解决不一致性
数据集成
集成多个数据库、数据立方体 或平面文件
数据转换
规范化和聚集
数据归约
获得大量数据的简化表示,但 能够产生同样的结果
数据离散化
数据归约的一种,对于数值数 据自动产生概念分层非常重要。
2020/10/28
数据挖掘:概念与技术
11
度量数据的中心趋势(2)
众数Mode 集合中出现频率最高的值 单峰的 Unimodal, 双峰的 bimodal, 三峰的trimodal
经验公式: mem an o 3 d (m e em an e)dian
中列数 数据集中最大和最小值的平均值
x
1 n
n i 1
xi
x N
n
w ixi
加权算术平均:
x
i1 n
wi
i1
截断平均(Trimmed mean): 去掉极值
中值median: (整体度量值)
奇数个值的中间值, 偶数个值的中间两个的平均值
插值估计 (for 分组分区间数据):
Байду номын сангаас
n/2( f)l
mediL1a(n
)c fme d ia n
不同的数据源 违反函数依赖 (e.g., 修改一些关联数据(FK))
重复元组也需要数据清理
2020/10/28
数据挖掘:概念与技术
4
为什么数据预处理很重要?
低质量的数据导致低质量的挖掘结果 高质量的决策必须依赖于高质量的数据
e.g., 重复数据和缺失数据可能引起不正确,甚至令 人误解的统计结果。
e.g., occupation=“ ”
噪声: 包含错误数据或者离群数据
e.g., Salary=“-10”
不一致: 编码或名称有差异的数据
e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C”
数据的离中趋势度量 四分位数(quartiles)、四分位数极差(interquartile range, IQR)、极差(range)、方差(variance)等。
2020/10/28
数据挖掘:概念与技术
9
挖掘数据的描述性特征(2)
数据度量类型
分布式度量
将数据集划分为较小的子集,计算每个子集的度量,然后 合并计算结果而得到原数据集的度量值。如sum(), count(), min(), max()等。
盒的端点在四分位数上使得盒的长度是中 间四分位数极差IQR
中位数用盒内的线标记
盒的另外两条线(胡须)延伸到最小和最 大观测值
离群点单独个别绘出
离群点:高于Q3或低于Q1的1.5 x IQR
2020/10/28
数据挖掘:概念与技术
13
度量数据的离散程度(2)
方差和标准差 方差: (代数度量, 可伸缩的计算)
数据仓库需要集成高质量的一致性数据 数据抽取、清理和转换是构建数据仓库的主要工作。
2020/10/28
数据挖掘:概念与技术
5
数据质量的度量
被广泛接受的数据质量观点: 精确性 完全性 一致性 合时性 可信性 增值性 可解释性 可访问性
广泛分类: 内在的,上下文关系的,代表性的,可访问性的
相关主题