当前位置:
文档之家› 数据挖掘原理与实践2016A 答案
数据挖掘原理与实践2016A 答案
3)深度为4进行划分,得到三个箱(6,7,9,11),(12,18,20,21),(25,35,37,100)
边界值平滑后的结果为(6,6,11,11),(12,12,21,21),(25,25,25,100)
2)已知数组:{13,15,16,16,19,20,20,21,22,22},先按深度为3边界值进行划分,再写出按边界值进行平滑后的结果
噪声数据处理的方法一般有处理方法一般有分箱,聚类,回归这些处理方法。(需要回答得更详细一点)
,
3.(10分)这是有一个有监督的分类挖掘任务。因此要解决以下几个问题:
采集数据的范围。应该在全国(全省)范围内进行分层抽样。样本需要来自不同层次的学校。
类标号列数据的获取,需要对参加过回答问题,并且考上了大学的学生,填写专业并回答
两者的区别主要是数据中是否有类标号。
从数据方面来说,分类挖掘的数据必须有类标号,也就是有专家参与。
从算法上来说,分类主要是建立决策树模型,而聚类主要是将相似的数据归为一个类。
5.(15分)如下表所示的数据集。请写出按属性A和B划分时的信息增益的计算表达式。不需要计算出最后结果。并回答计算信息增益在分类算法中的作用。
答:分箱的结果是:
{13,15,16}{16,19,20}{20,21,22}{22}
边界平滑后的结果是:
{13,16,16}{16,20,20}{20,20,22}
2。(10分)
答:答案要求,需要通过举例的方式说明噪声数据产生的原因。
比如,在收集野外的气象数据的时候,每一个自动化收集站都会收集气压,气温,雨量,方向等数据。如果由于传感器灵敏度的原因,收集的数据会有误差,这些数据就属于噪声数据。
广东工业大学考试试卷( A )答案
课程名称:数据挖掘试卷满分100分
考试时间: 2016年6月16日(第周星期)
题号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
评卷签名
复核得分
复核签名
1。(10分)
1)答案:平均值是25.08,20%的截断均值(两端各去掉两个数以后的平均值)是18.8,,中位数是19。
2)规范化后,转换后的值为(0,1,0.31)
答:该题和书上的例题3-4一样。
6.需要通过一个例子,从数据的采集,构成,数据清理、数据挖掘,评估来说明一个聚类的挖掘任务。
7.答:
D(p,q)=1+1+(22-17)=7
D(p,C1)=(1-20/30)+(1-18/30)+(20-17)=3.73
D(p,C2)=(1-3/15)+(1-0/15)+(24-17)=8.8
是否喜欢本专业。
需要回答使用了分类挖掘任务,并且简单的回答挖掘的过程。
4。(10分)某学校对入学的新生进行性格问卷调查,没有心理学家的参与,根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。
答:是属于聚类任务。
以及他们的子集。
D(q,C1)=(1-5/30)+(1-8/30)+(22-20)=3.57
D(q,C2)=(1-12/15)+(1-3/12)+(24-22)=2.95
D(C1,C2)==1-(25*3+5*12)/(30*15)+1-(8*3)/(30*15)+(24-20)=5.65
8.答:首先要找到一项频繁集,按照顺序排:
序号
项集
支持度
1
KEY
6
2
BEER
5
3
WINE
4
4
BOX
7
DIAPER
2
8
TV
2
9
HAM
1
10
C
1
PF树如下:答案不唯一。
频繁2项集有:
(TV,BEER,KEY);
(DIAPPER,EGG,BOX,WINE,BEER,KEY)
(DESK,BEER,KEY)
(BOX,KEY)
(BOX,WINE,KEY)