当前位置：文档之家› 数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术（原书第3版）
第三章课后习题及解答
习题
数据质量可以从多方面评估，包括准确性、完整性和一致性问题。

对于以上每个问题，讨论数据质量的评估如何依赖于数据的应用目的，给出例子。

提出数据质量的两个其他尺度。

答：
数据的质量依赖于数据的应用。

准确性和完整性：如对于顾客的地址信息数据，有部分缺失或错误，对于市场分析部门，这部分数据有80%是可以用的，就是质量比较好的数据，而对于需要一家家拜访的销售而言，有错误地址的数据，质量就很差了。

一致性：在不涉及多个数据库的数据时，商品的编码是否一致并不影响数据的质量，但涉及多个数据库时，就会影响。

数据质量的另外三个尺度是时效性，可解释性，可信性。

在现实世界的数据中，某些属性上缺失值得到元组是比较常见的。

讨论处理这一问题的方法。

答：对于有缺失值的元组，当前有6种处理的方法：
（1）忽略元组：当缺少类标号时通常这么做（假定挖掘任务涉及分类）。

除非元组有多个属性缺少值，否则该方法不是很有效。

当每个属性缺失值的百分比变化很大时，它的性能特别差。

采用忽略元组，你不能使用该元组的剩余属性值。

这些数据可能对手头的任务是有利的。

（2）人工填写缺失值：一般来说，该方法很费时，并且当数据集很大、缺失值很多时，该方法可能行不通。

（3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“u nknown”或-）替换。

如果缺失值都用“u nknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“u nknown”。

因此，尽管该方法简单，但是并不十分可靠。

（4）使用属性的中心度量（如均值或中位数）填充缺失值：第2章讨论了中心趋势度量，它们指示数据分布的“中间”值。

对于正常的（对称的）数据分布，可以使用均值，而倾斜分布的数据则应使用中位数。

（5）使用与给定元组属同一类的所有样本的属性均值或中位数
（6）使用最可能的值填充缺水值：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

在习题中，属性age包括如下值（以递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.
(a)使用深度为3的箱，用箱均值光滑以上的数据。

说明你的步骤，讨论这种技术对给定数据的效果。

答：首先将排好序的age数据划分到大小为3的等频的箱中，如下：
13，15，16；16，19，20；20，21，22；22，25，25；25，25，30；33，33，35；35，35，35；36，40，45；46，52，70.
其次用箱均值光滑数据：
13，15，16；16，19，20；20，21，22；22，25，25；25，25，30；33，33，35；35，35，35；36，40，45；46，52，70.
，，；，，；21，21，21；24，24，24；，，；，，；35，35，35；，，；56，56，56
箱均值光滑技术确实使给定的数据光滑了。

(b)如何确定该数据中的离群点
答：可以用聚类来检测离群点。

聚类将类似的值组织成群或“簇”，直观的，落在簇之外的值被视为离群点。

(c)还有什么其他方法来光滑数据
答：还可以用回归来光滑数据。

讨论数据集成需要考虑的问题。

答：1.实体识别问题；2.冗余和相关分析；3.元组重复；4.数据值冲突的检测与处理。

如下规范化方法的值域是什么
（a）最小-最大规范化
（b）z分数规范化
（c）z分数规范化，使用均值绝对偏差而不是标准差
（d）小数定标规范化
答：
（a）最小-最大规范化：[指定的最小,最大值]
（b）z分数规范化：(-∞，+∞)
（c）z分数规范化，使用均值绝对偏差而不是标准差：(-∞，+∞)
（d）小数定标规范化：（-1，1）
使用如下方法规范化如下数据组：
200，300，400，600，1000
（a）另min=0，max=1，最小-最大规范化
（b）z分数规范化
（c）z分数规范化，使用均值绝对偏差而不是标准差
（d）小数定标规范化
答：
（a）另min=0，max=1，最小-最大规范化
200变为0
300变为（300-200）/（1000-200）*（1-0）+0=
400变为（400-200）/（1000-200）*（1-0）+0=
600变为（600-200）/（1000-200）*（1-0）+0=
1000变为（1000-200）/（1000-200）*（1-0）+0=1
规范化后的数据组为：0，，，，1
（b）z分数规范化
求得数据组均值为500，标准差为
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为：，，，，
（c）z分数规范化，使用均值绝对偏差而不是标准差
求得数据组均值为500，均值绝对差为240
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为：，，，，
（d）小数定标规范化
,,,,
使用习题中给出的age数据，回答以下问题：
(a)使用最小-最大规范化将age值35变换到[，]区间
(b)使用z分数规范化变换age值35，其中age的标准差为岁
(c)使用小数定标规范化变换age值35
(d)指出对于给定的数据，你愿意使用哪种方法。

陈述你的理由。

答：
(a)（35-13）/（70-13）*（1-0）+0=
(b)（）/=
(c)
(d)对于给定的数据，我愿意使用小数定标规范化，最简单
使用习题中给出的age和%fat数据，回答如下问题：
(a)基于z分数规范化，规范化这两个属性
(b)计算相关系数（pearson矩阵系数）。

这两个变量是正相关还是负相关计算他们的协方差。

答：
(b)相关系数（pearson矩阵系数）r(age,%fat)=
这两个变量是正相关
协方差cov(A，B)=
假设12个销售记录价格已经排序，如下所示：5,10,11,13,15,35,50,55,72,92,204,215
使用如下方法使它们划分成三个箱
(a)等频（等深）划分
(b)等宽划分
(c)聚类
答：
(a)箱1: 5，10，11，13
箱2: 15，35，50，55
箱3: 72，92，204，215
(b)箱1: 5，10，11，13，15，35，50，55
箱2: 72，92
箱3: 204，215
(c)使用k-means聚类，聚为三类
箱1: 5，10，11，13，15，35
箱2: 50，55，72，92
箱3: 204，215
使用流程图概述如下属性子集选择过程：
(a)逐步向前选择
(b)逐步向后删除
(c)结合逐步向前选择和逐步向后删除
使用习题中给出的age数据
(a)画一个宽度为10的等宽的直方图
(b)简要描述如下每种抽样技术的例子：SRSWOR,SRSWR,簇抽样，分层抽样。

使用大小为5的样本以及层“young”、“middle_aged”和“senior”
答：
(a)略。

横轴为age，纵轴为频次
(b)SRSWOR：无放回简单随机抽样，从age中抽取5个样本，每次抽取一个，不放回age
中
SRSWR：有放回简单随机抽样，从age中抽取5个样本，每次抽取一个，放回age中
簇抽样：用无放回简单随机抽样将age数据分为几个不相交的簇。

分层抽样：将age数据对年龄层进行分层，分为“young”、“middle_aged”和“senior”，对每层数据，分别随机抽取2，2，1个
[Ker92]是监督的、自底向上的（即基于合并的）数据离散化方法。

它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止标准。

(a)简略描述ChiMerge如何工作
(b)取鸢尾花数据集作为待离散化的数据集合，鸢尾花数据集可以从UCI机器学习数据库得到。

使用ChiMerge方法，对四个数值属性分别进行离散化。

（令停止条件为：max-interval=6）。

你需要写一个小程序，以避免麻烦的数值计算。

提交你的简要分析和检验结果：分裂点、最终的区间以及源程序文档。

答：
对如下问题，使用伪代码或你喜欢用的程序设计语言，给出一个算法：
(a)对于标称数据，基于给定模式中属性的不同值的个数，自动产生概念分层
(b)对于数值数据，基于等宽划分规则，自动产生概念分层
(c)对于数值数据，基于等频划分规则，自动产生概念分层
答：
数据库系统中鲁棒的数据加载提出了一个挑战，因为输入数据常常是脏的。

在许多情况下，数据记录可能缺少多个值，某些记录可能被污染（即某些数据值不在
期望的值域内或具有不同的类型）。

设计一种自动数据清理和加载算法，使得有错误的数据被标记，被污染的数据在数据加载时不会错误地插入到数据库中。

答：。

e商务文档

数据挖掘概念与技术习题答案-第3章

相关文档推荐：