当前位置：文档之家› 广工数据挖掘2015

广工数据挖掘2015

广东工业大学考试试卷( A )
课程名称:数据挖掘试卷满分100分
考试时间: 2015年6月19日(第周星期)
题号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
评卷签名
复核得分
复核签名
1。（10分）计算{2，9，7，6，20，100，35，21，11}的均值，中位数和p=40%的截断均值，并且简单说明三种不同的均值在反映数据中心方面有什么特点？
4。（10分）某学校对入学的新生进行性格问卷调查，没有心理学家的参与，根据学生对问题的回答，把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务？为什么？并利用该例说明聚类分析和分类分析的异同点。
5．（12分）假设描述学生的信息包含属性：性别，籍贯，年龄。有两条记录p，q和C1，C2的信息如下，分别求出记录和簇彼此之间的距离。
p={男，广州，18}，q={女，韶关，20}
C1={男：25，女：5；广州：20，深圳：6，韶关：4；20}
C2={男：3，女：12；汕头：12，深圳：1，韶关：2；24}
,ቤተ መጻሕፍቲ ባይዱ
6．（12分）请举例说明什么是关联数据挖掘任务？
7．（12分）新闻报道说，有科学家根据当前通行的血液检查的指标，来预测一个人五年后得老年痴呆病的情况。假设需要你重复该实验，并且可以通过血液检查的指标来做出预测，请你说明从采集数据到建立模型的大概步骤，以及可能使用的算法。
2。（10分）有如下的数据：{2，4，5，6，11，13，21，22，24，26，28，40}，使用深度为4的分箱方法进行数据平滑，分别使用箱平均值，中值和边界值进行平滑，请写出平滑后的结果。并说明分箱方法的用途是什么？
3．（10分）请说明在数据预处理的时候，可以发现并清除噪音数据吗？对噪音数据一般有哪些处理方法？
2
D,O,N,K,E,Y
3
M,A,K,E
4
M,U,C,K,Y
5
C,O,K,I,E
6
Y,M,K,O
8．（12分）如下表所示：
A
B
C
类
0
0
0
+
0
0
1
-
0
1
1
-
0
1
1
-
0
0
1
+
1
0
1
+
1
0
1
-
1
0
1
-
1
1
1
+
1
0
1
+
用K-最近邻算法（使用曼哈顿距离），预测样本（A=0,B=1,C=1）的类标号是什么？
9．(12分)画出如下数据的FP树，并按支持度阈值是2找到频繁项集。
序号
事务
1
M,O,N,K,E,Y

e商务文档

广工数据挖掘2015

相关文档推荐：