当前位置：文档之家› 数据挖掘概念与技术第二章数据预处理1精品PPT课件

数据挖掘概念与技术第二章数据预处理1精品PPT课件

2020/10/28
数据挖掘：概念与技术
7
Chapter 2: Data Preprocessing
Why preprocess the data? 描述性数据汇总
Data cleaning
Data integration and transformation
Data reduction
s2n 1 1i n 1(xi x)2n 1 1 [i n 1xi21 n(i n 1xi)2]
2N 1i n1(xi)2N 1i n1xi22
标准差 s (or σ) 是方差的平方根 s2 (or σ2)
2020/10/28
数据挖掘：概念与技术
14
正态分布曲线的属性
正态分布曲线从 μ–σ 到 μ+σ: 大约包含68%的观测值 (μ: mean, σ: standard deviation) 从 μ–2σ 到 μ+2σ:大约包含95%的观测值从 μ–3σ 到 μ+3σ:大约包含99.7%的观测值
2020/10/28
数据挖掘：概念与技术
12
度量数据的离散程度（1） (数据已经递增排序)
极差，四分位数, 离群点与盒图
极差（range）：最大值与最小值之差
四分位数: Q1 (第25个百分位数), Q3 (第75个百分位数)
中间四分位数极差: IQR = Q3 – Q1 五数概括: min, Q1, Median, Q3, max 盒图:
代数度量
采用多个分布式度量函数来导出计算数据集的度量值。如 average()=sum()/count() 。
整体度量
必须对整个数据集计算的度量，计算开销较大，可以寻找近似计算的方法。
2020/10/28
数据挖掘：概念与技术
10
度量数据的中心趋势（1）
平均值mean (代数度量，分布式度量，SQL中AVG()):
数据挖掘: 概念与技术
— 第二章数据预处理 —
2020/10/28
数据挖掘：概念与技术
1
第二章：数据预处理
为什么需要数据预处理? 描述性数据汇总数据清理数据集成和变换数据归约数据离散化和概念分层产生总结
2020/10/28
数据挖掘：概念与技术
2
为什么需要预处理数据？
现实世界的数据容易“变脏” 不完整: 缺省属性值,缺少感兴趣的属性, 或者仅仅包含聚集数据。
Discretization and concept hierarchy generation
Summary
2020/10/28
数据挖掘：概念与技术
8
挖掘数据的描述性特征（1）
动机更好地理解数据分布：中心趋势，变化和传播趋势
数据的中心趋势度量均值(mean)、中位数(median)、众数(mode)、中列数(midrange)等。
2020/10/28
数据挖掘：概念与技术
3
为什么数据会变脏?
不完整的数据可能来自
收集数据时该数据值(属性)没有用在收集数据和分析数据时的存在不同考虑人员/硬件/软件故障的
噪声数据（不正确的数值）可能来自
仪器设备产生错误数据数据输入时人为错误或计算机错误数据传输错误
不一致数据可能来自
2020/10/28
数据挖掘：概念与技术
6
数据预处理的主要任务
数据清理
填充缺失值,光滑噪声数据, 识别和删除离群值,解决不一致性
数据集成
集成多个数据库、数据立方体或平面文件
数据转换
规范化和聚集
数据归约
获得大量数据的简化表示，但能够产生同样的结果
数据离散化
数据归约的一种，对于数值数据自动产生概念分层非常重要。
2020/10/28
数据挖掘：概念与技术
11
度量数据的中心趋势（2）
众数Mode 集合中出现频率最高的值单峰的 Unimodal, 双峰的 bimodal, 三峰的trimodal
经验公式： mem an o 3 d (m e em an e)dian
中列数数据集中最大和最小值的平均值
x
1 n
n i 1
xi
x N
n
w ixi
加权算术平均:
x
i1 n
wi
i1
截断平均（Trimmed mean）: 去掉极值
中值median: (整体度量值)
奇数个值的中间值, 偶数个值的中间两个的平均值
插值估计 (for 分组分区间数据):
Байду номын сангаас
n/2( f)l
mediL1a(n
)c fme d ia n
不同的数据源违反函数依赖 (e.g., 修改一些关联数据（FK）)
重复元组也需要数据清理
2020/10/28
数据挖掘：概念与技术
4
为什么数据预处理很重要?
低质量的数据导致低质量的挖掘结果高质量的决策必须依赖于高质量的数据
e.g., 重复数据和缺失数据可能引起不正确，甚至令人误解的统计结果。
e.g., occupation=“ ”
噪声: 包含错误数据或者离群数据
e.g., Salary=“-10”
不一致: 编码或名称有差异的数据
e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C”
数据的离中趋势度量四分位数(quartiles)、四分位数极差(interquartile range, IQR)、极差(range)、方差(variance)等。
2020/10/28
数据挖掘：概念与技术
9
挖掘数据的描述性特征（2）
数据度量类型
分布式度量
将数据集划分为较小的子集，计算每个子集的度量，然后合并计算结果而得到原数据集的度量值。如sum(), count(), min(), max()等。
盒的端点在四分位数上使得盒的长度是中间四分位数极差IQR
中位数用盒内的线标记
盒的另外两条线（胡须）延伸到最小和最大观测值
离群点单独个别绘出
离群点:高于Q3或低于Q1的1.5 x IQR
2020/10/28
数据挖掘：概念与技术
13
度量数据的离散程度（2）
方差和标准差方差: (代数度量, 可伸缩的计算)
数据仓库需要集成高质量的一致性数据数据抽取、清理和转换是构建数据仓库的主要工作。
2020/10/28
数据挖掘：概念与技术
5
数据质量的度量
被广泛接受的数据质量观点：精确性完全性一致性合时性可信性增值性可解释性可访问性
广泛分类: 内在的,上下文关系的,代表性的,可访问性的

e商务文档

数据挖掘概念与技术第二章数据预处理1精品PPT课件

相关文档推荐：