当前位置:文档之家› 数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

数据挖掘习题及解答■完美版
Data Mi ning Take Home Exam
学号: xxxx ____________ 姓名:XXX
1. (20分)考虑下表的数据集。

顾客ID 性别车型衬衣尺码类
1 家用小C0 d
2 运动中C0
3 运动中C0
4 运动大C0
5 运动加大C0
6 运动加大C0
7 运动小C0
8 运动小C0
9 运动中C0
10 豪华大C0
11 家用大C1
12 家用加大C1
13 家用中C1
14 豪华加大C1
15 豪华小C1
16 豪华小C1
17 豪华中C1
18 豪华中C1
19 豪华中C1
20 豪华大C1
(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini 指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1)
Gini=1-(10/20)八2-(10/20)八2=0.5
Gi ni=[{1-(6/10)八2-(4/10)八2}*1/2]*2=0.48
Gi ni={1-(1/4)2-(3/4)2}*4/20+{1-(8/8)2-(0/8)八2}*8/20+{1-(1/8)八2-(7/8)八2}*8/20 =26/160=0.1625
Gini={1-(3/5)2-(2/5)2}*5/20+{1-(3/7)2-(4/7)2}*7/20+[{1-(2/4)八2-(2/4)八2}*4/2
0]*2=8/25+6/35=0.4914

比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (20分)考虑下表中的购物篮事务数据集
(1)将每个事务ID视为一个购物篮,计算项集{e} ,{b,d}和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)
(4)使用(3)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。

答:(1)由上表计数可得{ e }的支持度为8/10=0.8; { b, d }的支持度为2/10=0.2; {b,d,e}的支持度为2/10=0.2。

(2)c[{b,d} —{e}]=2/8=0.25;c[{e} —{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8, {b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4) c[{b,d} — {e}]=5/4=1.25, c[{e} — {b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分 R 输出结果。

> Is 仁 Im (y~x1+x2) > ano va (ls1)
> Is2<-lm(y~x2+x1) > ano va(ls2)
H o :劭=0
计算检验统计量;是否拒绝零假设,为什么?
H 0:伦=0
计算检验统计量;是否拒绝零假设,为什么?
x1 x2 Residuals
Df 1 1 7
Sum Sq 10021.2 4030.9
1130.7 Mean Sq 10021.2 4030.9 161.5
F value Pr(>F) 62.038 0.0001007 *** 24.954 0.0015735 **
Df Sum Sq Mea n Sq F value Pr(>F) x2
1 3363.4
3363.4 20.822 0.002595 x1 1 10688.7 10688.7 66.170 8.193e-05
Residuals 7 1130.7
161.5
(1)
用F 检验来检验以下假设(a
0.05)
(2) 用F 检验来检验以下假设(a= 0.05) (3) 用F 检验来检验以下假设(a= 0.05)
H0: p1 = 3 = 0
H a: 3和3并不都等于零
计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F ( 2, 7) =4.74, p<0.05,所以可以拒
绝原假设,即得到I;不等于0。

(2)同理,在0=0.05 的条件下,F=20.822>F(2,7)=4.74, p<0.05,即拒绝原假
设,得到旳不等于0。

(3)F={ (10021.2+4030.9 /2}/ (1130.7/7) =43.4973>F=(2,7)=4.74,即拒绝原假
设,得到灼和悅并不都等于0。

4. (20 分) 考虑下面20个观测值:
[1] -20.00 -0.516 -1.249 -0.510 25.000
⑹-0.561 -0.928 -0.023 0.714 0.374
[11] -0.377 0.830 0.838 0.874 -1.306
[16] 1.138 1.087 -1.489 2.524 0.713
(1)用3*S标准来检测该数据中是否存在异常值。

(2)用1.5*IQR标准来检测该数据中是否存在异常值。

要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据解:数据放入R运行得
>hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,
+ + -0.561,-0.928,-0.023,0.714,0.374,
+ + -0.377,0.830,0.838,0.874,-1.306,
+ + 1.138,1.087,-1.489,2.524,0.713)
>mean( hhh)
[1] 0.35665
>sqrt(var(hhh))
[1] 7.405346
>jjjv-(hhh-mea n( hhh))/sqrt(var(hhh))
>which(abs(jjj)>=3)
[1] 5
>Q1= qua ntile(hhh,0.25)
>Q3=qua ntile(hhh,0.75)
>IQR=Q3-Q1
>Q1
25%
-0.65275
>Q3
75%
0.847
>IQR
75%
1.49975
>kkv-Q1-1.5*IQR
>llv-Q3+1.5*IQR
>which(hhhvkk)
[1] 1
>which(hhh>ll)
[1] 5
>
(1)由以上数据处理可得第五个数据25.00为异常值。

(2)由数据分析可以得出第一个-20.00和第五个25.00均为异常值。

5.简述题(20分))
(1)在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。

答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN 分析。

其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。

K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。

该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。

但对于想要知道其他几类的分类情况就需要重新计算分析。

DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。

其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。

(2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这些子任务中的工作原理。

答:主要分为两个子任务:频繁项集的产生和关联规则的产生。

第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。

根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采取逐
层检验步骤,计算各项的支持度和置信度大小和阕值比较,即测试过程;对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作,即剪枝过程;直到没有新的非频繁项集产生时,执行算法结束过程。

相关主题