当前位置：文档之家› 数据预处理

数据预处理

整体度量
众数(mode)：集合中出现频率最高的值。单峰、多峰（双峰、三峰…）、无众数对于适度倾斜的单峰频率曲线，有如下的经验关系：
mean mode 3(mean median)
中位数、均值和众数
16
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法：从局部最优到全局最优。
逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳
2.5.3 维度归约
维度归约使用数据编码或变换，以便得到原数据的归约或“压缩”表示。分为无损和有损两种。
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是至关重要的。
描述性数据汇总技术可以用来识别数据的典型性质，突显哪些数据值应当视为噪声或离群点。
动机：更好的理解数据。主要内容：度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
数据变换将数据转换或统一成适合于挖掘的形式。
2.4.1 数据集成
实体识别
元数据可帮助避免错误
属性冗余
相关分析
数据重复（元组冗余）数据值冲突的检测与处理
表示、比例或编码不同
37
2.4.2 数据变换
平滑：去掉数据中的噪声。技术包括分箱、回归、
聚类。
聚集Aggregation ：对数据进行汇总或聚集。数据泛化（概化）：使用概念分层，用高层概念
直方图、分位数图、分位数-分位数图（q-q图）散布图、散布图矩阵局部回归（Loess）曲线
22
直方图 Histogram 概括给定属性分布的图形方法每个矩形等宽
分位数图 Quantile Plot
观察单变量数据分布的简单有效方法
散布图scatter plot
存在问题：若存在离群点，可能影响规范化
若在规范化后添加新的数据，当新数
据落在原数据的区间[minA, maxA]之外，将导致“越界”错误。
规范化…
2） z-score规范化（零均值规范化）：属性A的值基于A的平均值和标准差规范化。
v' v A A
对离群点不敏感
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示盒外的两条线（胡须）分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
可以对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分，称作概念分层。
概念分层(concept hierarchy)用于归约数据
忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本
的平均值使用最可能的值填充空缺值
28
2.3.2 噪声数据
分箱：
通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。
回归：
用一个函数（回归函数）拟合数据来光滑数据。
2.5.1 数据立方体聚集
数据立方体存储多维聚集信息，提供对预计算的汇总数据进行快速访问。
如：立方体内存储季度销售额，若对年销售额感兴趣，可对数据执行聚集操作，例如sum()等。
2.5.2 属性子集选择
通过删除不相关或冗余的属性（或维）减小数据集。
其目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。
直接观察是否存在簇(cluster)，离群点等每个点对应一个坐标对
局部回归（Loess）曲线添加一条光滑曲线到散布图
2.3 数据清理
现实世界的数据一般是不完整的、有噪声的和不一致的。
数据清理的任务：填充缺失的值，光滑噪声并识别离群
点，纠正数据中的不一致。
2.3.1 缺失值
算数平均值最常用
分布式度量可以通过如下方法计算度量（即函数）：将数据集划分成较小的子集，计算每个子集的度量，然后合并计算结果，得到原（整个）数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量。 mean()、中列数
2.5 数据归约 Data Reduction
对海量数据进行复杂的数据分析和挖掘将需要很长时间，使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效，并产生相同（或几乎相同）的结果。
数据归约
数据归约策略：
整体度量
中位数（median）：适用于倾斜的数据。近
似值计算如下：
median L1

(n
/
2 ( f me dian
f
)l
)c
设N个数值排序，若N为奇数，中位数是有序集的中间值；若N为偶数，中位数是中间两个值的平均值。
例如：1,3,5,7 中位数4

1,3,5,6,7 中位数5
非参数方法：直方图、聚类、抽样
抽样
用数据的小得多的随机样本（子集）不是大型数据集。
抽样方法
s个样本无放回简单随机抽样（SRSWOR ）
s个样本有放回简单随机抽样（SRSWR）聚类抽样分层抽样
2.6 数据离散化和概念分层产生
数据离散化技术用少数区间标记替换连续属性的数值，从而减少和简化了原来的数据。
整体度量必须对整个数据集计算的度量。中位数、众数
代数度量
mean()：
x

1 n
n i 1
xi
加权平均：
n
wi xi
x
i 1 n
wi
i 1
截断均值：去掉高、低极端值得到的均值。减小极端值对均值的影响。
中列数（midrange ）：(max+min)/2
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means: * Smoothing by bin boundaries:
主要方法：
串压缩：无损，但只允许有限的数据操作。小波变换（DWT）：有损，适合高维数据。主成分分析（PCA）：有损，能更好地处理稀
疏数据。
2.5.4 数值归约
通过选择替代的、“较小的”数据表示形式来减少数据量。
可以分为参数方法和非参数方法。
参数方法：回归（regression ）和对数线性模型
中位数是第50个百分位数，是第2个四分位数
第1个是第25个百分位数，Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图方差、标准差
反映了每个数与均值相比平均相差的数值 17
度量数据的离散程度…
盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分
简化数据、但产生同样或相似的结果 7
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一致的。
数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析的数据，将在决策过程中得到高回报。
第2章数据预处理
1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
2
2.1 数据预处理的原因
数据质量的含义
正确性（Correctness）一致性（Consistency）完整性（Completeness）可靠性（Reliability）
聚类：将类似的值聚集为簇。其他：如数据归约、离散化和概念分
层。
29
2.3.2 噪声数据
分箱：ห้องสมุดไป่ตู้
通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。
划分：等频、等宽光滑：用箱均值、用箱中位数、
用箱边界（去替换箱中的每个数据）
30
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
右[Redmen],[Orr98]
5
数据错误的危害性
高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
v' v minA (new _ maxA new _ minA) new _ minA maxA minA

e商务文档

数据预处理

相关文档推荐：