当前位置：文档之家› 数据挖掘原理与实践2016A 答案

数据挖掘原理与实践2016A 答案

3）深度为4进行划分，得到三个箱（6，7，9，11），（12，18，20，21），（25，35，37，100）
边界值平滑后的结果为（6，6，11，11），（12，12，21，21），（25，25，25，100）
2)已知数组：{13,15,16,16,19,20,20,21,22,22}，先按深度为3边界值进行划分，再写出按边界值进行平滑后的结果
噪声数据处理的方法一般有处理方法一般有分箱，聚类，回归这些处理方法。（需要回答得更详细一点）
,
3．（10分）这是有一个有监督的分类挖掘任务。因此要解决以下几个问题:
采集数据的范围。应该在全国（全省）范围内进行分层抽样。样本需要来自不同层次的学校。
类标号列数据的获取,需要对参加过回答问题，并且考上了大学的学生，填写专业并回答
两者的区别主要是数据中是否有类标号。
从数据方面来说，分类挖掘的数据必须有类标号，也就是有专家参与。
从算法上来说，分类主要是建立决策树模型，而聚类主要是将相似的数据归为一个类。
5．（15分）如下表所示的数据集。请写出按属性A和B划分时的信息增益的计算表达式。不需要计算出最后结果。并回答计算信息增益在分类算法中的作用。
答：分箱的结果是：
{13,15,16}{16,19,20}{20,21,22}{22}
边界平滑后的结果是：
{13,16,16}{16,20,20}{20,20,22}
2。（10分）
答：答案要求，需要通过举例的方式说明噪声数据产生的原因。
比如，在收集野外的气象数据的时候，每一个自动化收集站都会收集气压，气温，雨量，方向等数据。如果由于传感器灵敏度的原因，收集的数据会有误差，这些数据就属于噪声数据。
广东工业大学考试试卷( A )答案
课程名称:数据挖掘试卷满分100分
考试时间: 2016年6月16日(第周星期)
题号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
评卷签名
复核得分
复核签名
1。（10分）
1)答案：平均值是25.08，20%的截断均值（两端各去掉两个数以后的平均值）是18.8，，中位数是19。
2）规范化后，转换后的值为（0，1，0.31）
答：该题和书上的例题3-4一样。
6．需要通过一个例子，从数据的采集，构成，数据清理、数据挖掘，评估来说明一个聚类的挖掘任务。
7．答：
D(p,q)=1+1+(22-17)=7
D(p,C1)=(1-20/30)+(1-18/30)+(20-17)=3.73
D(p,C2)=(1-3/15)+(1-0/15)+(24-17)=8.8
是否喜欢本专业。
需要回答使用了分类挖掘任务，并且简单的回答挖掘的过程。
4。（10分）某学校对入学的新生进行性格问卷调查，没有心理学家的参与，根据学生对问题的回答，把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务？为什么？并利用该例说明聚类分析和分类分析的异同点。
答：是属于聚类任务。
以及他们的子集。
D(q,C1)=(1-5/30)+(1-8/30)+(22-20)=3.57
D(q,C2)=(1-12/15)+(1-3/12)+(24-22)=2.95
D(C1,C2)==1-(25*3+5*12)/(30*15)+1-(8*3)/(30*15)+(24-20)=5.65
8.答：首先要找到一项频繁集，按照顺序排：
序号
项集
支持度
1
KEY
6
2
BEER
5
3
WINE
4
4
BOX

7
DIAPER
2
8
TV
2
9
HAM
1
10
C
1
PF树如下：答案不唯一。
频繁2项集有：
（TV,BEER,KEY）;
(DIAPPER,EGG,BOX,WINE,BEER,KEY)
(DESK,BEER,KEY)
(BOX,KEY)
(BOX,WINE,KEY)

e商务文档

数据挖掘原理与实践2016A 答案

相关文档推荐：