当前位置:文档之家› 数据挖掘部分课后习题

数据挖掘部分课后习题

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么?有哪些常用方法?
数据清理的目的:去掉噪声和无关数据,用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。

常用的方法:
◆处理空缺值;可用以下方法:忽略该记录、去掉属性、手工填写空缺值、使
用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。

◆噪声数据的处理: 噪声数据是一个测量变量中的随机错误或偏差。

可用以下
方法:分箱:按箱平均值平滑,按箱中值平滑,按箱边界平滑等;聚类:聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;回归,让数据适合一个函数(如回归函数)来平滑数据。

数据集成的目的:将多个数据源中的数据结合起来存放在一个一致的数据存储中.。

常用的方法:
◆模式集成:主要是实体识别问题,利用元数据(关于数据的数据),这可以
避免模式集成中的错误。

数据变换的目的:把原始数据转换成为适合数据挖掘的形式。

常用的方法:
◆用平滑消除噪声数据
◆聚类来对数据进行汇总
◆数据概化使用高层次概念替换低层次“原始”数据来进行概念分层
◆规范化将属性数据按比例缩放,使之落入一个小的特定区间
◆属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。

数据归约的目的:用产生数据的归约表示,使数据的范围减小,减少数据量。

常用的方法:
◆数据立方聚集
◆维归约
◆数据压缩
◆数值归约
◆离散化和概念分层等
2、对数据挖掘的数据为什么要进行预处理?
数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。

围绕数据挖掘过程需要涉及:问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。

数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度
◆现实世界的数据是“肮脏的”,很容易受噪声数据,空缺数据和不一致数据
的侵扰,所以在用数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据。

不完整的——数据内涵出现不一致情况
含噪声的——感兴趣的属性没有值
不一致的——数据中存在着错误、或异常(偏离期望值)的数据
重复、维度高
◆没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成。

相关主题