广工数据挖掘2015
广东工业大学考试试卷( A )
课程名称:数据挖掘试卷满分100分
考试时间: 2015年6月19日(第周星期)
题号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
评卷签名
复核得分
复核签名
1。(10分)计算{2,9,7,6,20,100,35,21,11}的均值,中位数和p=40%的截断均值,并且简单说明三种不同的均值在反映数据中心方面有什么特点?
4。(10分)某学校对入学的新生进行性格问卷调查,没有心理学家的参与,根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。
5.(12分)假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p,q和C1,C2的信息如下,分别求出记录和簇彼此之间的距离。
p={男,广州,18},q={女,韶关,20}
C1={男:25,女:5;广州:20,深圳:6,韶关:4;20}
C2={男:3,女:12;汕头:12,深圳:1,韶关:2;24}
,ቤተ መጻሕፍቲ ባይዱ
6.(12分)请举例说明什么是关联数据挖掘任务?
7.(12分)新闻报道说,有科学家根据当前通行的血液检查的指标,来预测一个人五年后得老年痴呆病的情况。假设需要你重复该实验,并且可以通过血液检查的指标来做出预测,请你说明从采集数据到建立模型的大概步骤,以及可能使用的算法。
2。(10分)有如下的数据:{2,4,5,6,11,13,21,22,24,26,28,40},使用深度为4的分箱方法进行数据平滑,分别使用箱平均值,中值和边界值进行平滑,请写出平滑后的结果。并说明分箱方法的用途是什么?
3.(10分)请说明在数据预处理的时候,可以发现并清除噪音数据吗?对噪音数据一般有哪些处理方法?
2
D,O,N,K,E,Y
3
M,A,K,E
4
M,U,C,K,Y
5
C,O,K,I,E
6
Y,M,K,O
8.(12分)如下表所示:
A
B
C
类
0
0
0
+
0
0
1
-
0
1
1
-
0
1
1
-
0
0
1
+
1
0
1
+
1
0
1
-
1
0
1
-
1
1
1
+
1
0
1
+
用K-最近邻算法(使用曼哈顿距离),预测样本(A=0,B=1,C=1)的类标号是什么?
9.(12分)画出如下数据的FP树,并按支持度阈值是2找到频繁项集。
序号
事务
1
M,O,N,K,E,Y