当前位置:文档之家› 数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术(原书第3版)
第三章课后习题及解答
习题
数据质量可以从多方面评估,包括准确性、完整性和一致性问题。

对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。

提出数据质量的两个其他尺度。

答:
数据的质量依赖于数据的应用。

准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。

一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。

数据质量的另外三个尺度是时效性,可解释性,可信性。

在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。

讨论处理这一问题的方法。

答:对于有缺失值的元组,当前有6种处理的方法:
(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。

除非元组有多个属性缺少值,否则该方法不是很有效。

当每个属性缺失值的百分比变化很大时,它的性能特别差。

采用忽略元组,你不能使用该元组的剩余属性值。

这些数据可能对手头的任务是有利的。

(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。

(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。

如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。

因此,尽管该方法简单,但是并不十分可靠。

(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。

对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。

(5)使用与给定元组属同一类的所有样本的属性均值或中位数
(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

在习题中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
(a)使用深度为3的箱,用箱均值光滑以上的数据。

说明你的步骤,讨论这种技术对给定数据的效果。

答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:
13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.
其次用箱均值光滑数据:
13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.
,,;,,;21,21,21;24,24,24;,,;,,;35,35,35;,,;56,56,56
箱均值光滑技术确实使给定的数据光滑了。

(b)如何确定该数据中的离群点
答:可以用聚类来检测离群点。

聚类将类似的值组织成群或“簇”,直观的,落在簇之外的值被视为离群点。

(c)还有什么其他方法来光滑数据
答:还可以用回归来光滑数据。

讨论数据集成需要考虑的问题。

答:1.实体识别问题;2.冗余和相关分析;3.元组重复;4.数据值冲突的检测与处理。

如下规范化方法的值域是什么
(a)最小-最大规范化
(b)z分数规范化
(c)z分数规范化,使用均值绝对偏差而不是标准差
(d)小数定标规范化
答:
(a)最小-最大规范化:[指定的最小,最大值]
(b)z分数规范化:(-∞,+∞)
(c)z分数规范化,使用均值绝对偏差而不是标准差:(-∞,+∞)
(d)小数定标规范化:(-1,1)
使用如下方法规范化如下数据组:
200,300,400,600,1000
(a)另min=0,max=1,最小-最大规范化
(b)z分数规范化
(c)z分数规范化,使用均值绝对偏差而不是标准差
(d)小数定标规范化
答:
(a)另min=0,max=1,最小-最大规范化
200变为0
300变为(300-200)/(1000-200)*(1-0)+0=
400变为(400-200)/(1000-200)*(1-0)+0=
600变为(600-200)/(1000-200)*(1-0)+0=
1000变为(1000-200)/(1000-200)*(1-0)+0=1
规范化后的数据组为:0,,,,1
(b)z分数规范化
求得数据组均值为500,标准差为
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为:,,,,
(c)z分数规范化,使用均值绝对偏差而不是标准差
求得数据组均值为500,均值绝对差为240
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为:,,,,
(d)小数定标规范化
,,,,
使用习题中给出的age数据,回答以下问题:
(a)使用最小-最大规范化将age值35变换到[,]区间
(b)使用z分数规范化变换age值35,其中age的标准差为岁
(c)使用小数定标规范化变换age值35
(d)指出对于给定的数据,你愿意使用哪种方法。

陈述你的理由。

答:
(a)(35-13)/(70-13)*(1-0)+0=
(b)()/=
(c)
(d)对于给定的数据,我愿意使用小数定标规范化,最简单
使用习题中给出的age和%fat数据,回答如下问题:
(a)基于z分数规范化,规范化这两个属性
(b)计算相关系数(pearson矩阵系数)。

这两个变量是正相关还是负相关计算他们的协方差。

答:
(b)相关系数(pearson矩阵系数)r(age,%fat)=
这两个变量是正相关
协方差cov(A,B)=
假设12个销售记录价格已经排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215
使用如下方法使它们划分成三个箱
(a)等频(等深)划分
(b)等宽划分
(c)聚类
答:
(a)箱1: 5,10,11,13
箱2: 15,35,50,55
箱3: 72,92,204,215
(b)箱1: 5,10,11,13,15,35,50,55
箱2: 72,92
箱3: 204,215
(c)使用k-means聚类,聚为三类
箱1: 5,10,11,13,15,35
箱2: 50,55,72,92
箱3: 204,215
使用流程图概述如下属性子集选择过程:
(a)逐步向前选择
(b)逐步向后删除
(c)结合逐步向前选择和逐步向后删除
使用习题中给出的age数据
(a)画一个宽度为10的等宽的直方图
(b)简要描述如下每种抽样技术的例子:SRSWOR,SRSWR,簇抽样,分层抽样。

使用大小为5的样本以及层“young”、“middle_aged”和“senior”
答:
(a)略。

横轴为age,纵轴为频次
(b)SRSWOR:无放回简单随机抽样,从age中抽取5个样本,每次抽取一个,不放回age

SRSWR:有放回简单随机抽样,从age中抽取5个样本,每次抽取一个,放回age中
簇抽样:用无放回简单随机抽样将age数据分为几个不相交的簇。

分层抽样:将age数据对年龄层进行分层,分为“young”、“middle_aged”和“senior”,对每层数据,分别随机抽取2,2,1个
[Ker92]是监督的、自底向上的(即基于合并的)数据离散化方法。

它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止标准。

(a)简略描述ChiMerge如何工作
(b)取鸢尾花数据集作为待离散化的数据集合,鸢尾花数据集可以从UCI机器学习数据库得到。

使用ChiMerge方法,对四个数值属性分别进行离散化。

(令停止条件为:max-interval=6)。

你需要写一个小程序,以避免麻烦的数值计算。

提交你的简要分析和检验结果:分裂点、最终的区间以及源程序文档。

答:
对如下问题,使用伪代码或你喜欢用的程序设计语言,给出一个算法:
(a)对于标称数据,基于给定模式中属性的不同值的个数,自动产生概念分层
(b)对于数值数据,基于等宽划分规则,自动产生概念分层
(c)对于数值数据,基于等频划分规则,自动产生概念分层
答:
数据库系统中鲁棒的数据加载提出了一个挑战,因为输入数据常常是脏的。

在许多情况下,数据记录可能缺少多个值,某些记录可能被污染(即某些数据值不在
期望的值域内或具有不同的类型)。

设计一种自动数据清理和加载算法,使得有错误的数据被标记,被污染的数据在数据加载时不会错误地插入到数据库中。

答:。

相关主题