当前位置：文档之家› 第一课数据预处理ppt

第一课数据预处理ppt

- Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
回归：用一个函数（回归函数）
通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法：从局部最优到全局最优。
逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳
2.5.3 维度归约
维度归约使用数据编码或变换，以便得到原数据的归约或“压缩”表示。分为无损和有损两种。
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
1
2.1 数据预处理的原因
数据质量的含义
正确性（Correctness）一致性（Consistency）完整性（Completeness）可靠性（Reliability）
2
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性，或仅包含聚集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同，如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左
直方图、分位数图、分位数-分位数图（q-q图）散布图、散布图矩阵局部回归（Loess）曲线
21
直方图 Histogram 概括给定属性分布的图形方法每个矩形等宽
分位数图 Quantile Plot
观察单变量数据分布的简单有效方法
散布图scatter plot
整体度量
中位数（median）：适用于倾斜的数据。近
似值计算如下：
median L1

(n
/
2 ( f me dian
f
)l
)c
设N个数值排序，若N为奇数，中位数是有序集的中间值；若N为偶数，中位数是中间两个值的平均值。
例如：1,3,5,7 中位数4

1,3,5,6,7 中位数5
（1）数据立方体聚集：对数据立方体做聚集操作（2）属性子集选择：检测并删除不相关、弱相关
或冗余的属性和维。（3）维度归约：删除不重要的属性（4）数值归约：
用规模较小的数据表示、替换或估计原始数据
（5）离散化和概念分层(concept hierarchy)产生
属性的原始数值用区间值或较高层的概念替换
2.5 数据归约 Data Reduction
对海量数据进行复杂的数据分析和挖掘将需要很长时间，使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效，并产生相同（或几乎相同）的结果。
数据归约
数据归约策略：
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示盒外的两条线（胡须）分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
非参数方法：直方图、聚类、抽样
抽样
用数据的小得多的随机样本（子集）不是大型数据集。
抽样方法
s个样本无放回简单随机抽样（SRSWOR ）
s个样本有放回简单随机抽样（SRSWR）聚类抽样分层抽样
2.6 数据离散化和概念分层产生
数据离散化技术用少数区间标记替换连续属性的数值，从而减少和简化了原来的数据。
v' v minA (new _ maxA new _ minA) new _ minA maxA minA
例如:income的最大，最小值分别为9000，2000，则将它的值映射到[0，1]时，若income的值6800 规范后为：（6800-2000）/（9000-2000）*（10）+0=0.686
中位数是第50个百分位数，是第2个四分位数
第1个是第25个百分位数，Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图方差、标准差
反映了每个数与均值相比平均相差的数值 16
度量数据的离散程度…
盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分
整体度量必须对整个数据集计算的度量。中位数、众数
代数度量
mean()：
x

1 n
n i 1
xi
加权平均：
n
wi xi
x
i 1 n
wi
i 1
截断均值：去掉高、低极端值得到的均值。减小极端值对均值的影响。
中列数（midrange ）：(max+min)/2
右[Redmen],[Orr98]
4
数据错误的危害性
高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本
的平均值使用最可能的值填充空缺值
27
2.3.2 噪声数据
分箱：
通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。
回归：
用一个函数（回归函数）拟合数据来光滑数据。
聚类：将类似的值聚集为簇。其他：如数据归约、离散化和概念分
层。
28
2.3.2 噪声数据
分箱：
通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。
划分：等频、等宽光滑：用箱均值、用箱中位数、
用箱边界（去替换箱中的每个数据）
29
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
可以对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分，称作概念分层。
概念分层(concept hierarchy)用于归约数据
：用较高层的概念替换较低层的概念。
直接观察是否存在簇(cluster)，离群点等每个点对应一个坐标对
局部回归（Loess）曲线添加一条光滑曲线到散布图
2.3 数据清理
现实世界的数据一般是不完整的、有噪声的和不一致的。
数据清理的任务：填充缺失的值，光滑噪声并识别离群
点，纠正数据中的不一致。
2.3.1 缺失值
存在问题：若存在离群点，可能影响规范化
若在规范化后添加新的数据，当新数
据落在原数据的区间[minA, maxA]之外，将导致“越界”错误。
规范化…
2） z-score规范化（零均值规范化）：属性A的值基于A的平均值和标准差规范化。
v' v A A
对离群点不敏感
简化数据、但产生同样或相似的结果 6
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一致的。
数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析的数据，将在决策过程中得到高回报。
替换低层或特定区间。最小-最大、Z-Score、按小数定标规范化。
属性构造（特征构造）：由给定的属性构造新
的属性并添加到属性集中，以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。
37
规范化
1）最小-最大规范化：将原始数据v经线性变换，映射到区间[new_minA, new_maxA]
算数平均值最常用
分布式度量可以通过如下方法计算度量（即函数）：将数据集划分成较小的子集，计算每个子集的度量，然后合并计算结果，得到原（整个）数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量。 mean()、中列数
数据变换（纠正偏差）
数据迁移工具提取/变换/载入（ETL）工具
加强交互性
数据清理工具：Potter’s Wheel 开发数据变换操作规范说明语言
2.4 数据集成和变换
数据集成合并多个数据源中的数据，存放在一个一致的数据库（如数据仓库）中。
源数据可能包括多个数据库，数据立方体或一般文件。
主要方法：
串压缩：无损，但只允许有限的数据操作。小波变换（DWT）：有损，适合高维数据。主成分分析（PCA）：有损，能更好地处理稀
疏数据。
2.5.4 数值归约
通过选择替代的、“较小的”数据表示形式来减少数据量。

e商务文档

第一课数据预处理ppt

相关文档推荐：