当前位置:文档之家› 电子科大数据挖掘作业1-6

电子科大数据挖掘作业1-6

数据挖掘课后习题数据挖掘作业1——6第一章绪论1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。

1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。

实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。

②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。

③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。

2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。

该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。

运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。

数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。

同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据模型上的OLAP操作。

●数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度。

数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。

●多维数据模型上的OLAP操作a)上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约b)下卷(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现c)切片和切块(slice and dice)投影和选择操作d)转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列2)OLAP多维分析如何辅助决策?举例说明。

OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。

OLAP要查询大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化值,经理通过查询变化值来做决策。

例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。

经过进一步的分析和追踪查询可以发现问题并解决3)举例说明OLAP的多维数据分析的切片操作。

切片就是在某两个维上取一定区间的维成员或全部维成员。

如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片)。

第三章数据预处理1)假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70。

(a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。

解释你的步骤。

评论对于给定的数据,该技术的效果。

已知数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35, 35,35,35,36,40,45,46,52,70,且箱的深度为 3,划分为(等频)箱:箱 1: 13,15,16箱 2: 16,19,20箱 3: 20,21,22箱 4: 22,25,25箱 5: 25,25,30箱 6: 33,33,33箱 7: 35,35,35箱 8: 35,36,40箱 9: 45,46,52箱 10: 70用箱均值光滑:箱 1: 15,15,15箱 2: 18,18,18箱 3: 21,21,21箱 4: 24,24,24箱 5: 27,27,37箱 6: 33,33,33箱 7: 35,35,35箱 8: 37,37,37箱 9: 48,48,48箱 10: 70(b)对于数据平滑,还有哪些其它方法?(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。

直观地,落在簇集合之外的值视为离群点。

2)使用习题1)给出的 age 数据,回答以下问题:3)(a) 使用 min-max 规范化,将 age 值 35 转换到[0.0, 1.0]区间。

已知最大值为 70,最小值为 13,则可将 35 规范化为:(b) 使用z-score规范化转换age值35,其中,age的标准偏差为12.94 年。

已知均值为 30,标准差为 12.94,则可将 35 规范化为:(c) 使用小数定标规范化转换 age 值 35。

使用小数定标规范化可将 35 规范化为:(d) 指出对于给定的数据,你愿意使用哪种方法。

陈述你的理由。

对于给定的数据,你愿意使用 min-max 规范化。

理由是计算简单。

4)以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数)1(2)、 5(5)、 8(2)、 10(4)、 12、 14(3)、 15(5)、18(8)、 20(7)、 21(4)、 25(5)、 28、 30(3)。

请分别用等宽的方法和等高的方法对上面的数据集进行划分。

(1) 等宽方法:划分为3个数据集,每个数据集的宽度为价格10。

价格在1—10之间出现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数为13。

(2) 等高方法:划分为2个数据集,每个数据集的高度为出现的次数 4。

出现次数1—4之间的价格为1、8、10、12、14、21、28、 30,共 8 个数据;出现次数5—8之间的价格为5、15、18、20、25,共5个数据。

第四章关联规则1)考虑如下的频繁3-项集: {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3,4}, {1, 3, 5}, {2, 3, 4},{2, 3, 5}, {3, 4, 5}。

(a)根据 Apriori 算法的候选项集生成方法,写出利用频繁 3-项集生成的所有候选 4-项集。

{1,2,3,4}; {1,2,3,5}; {1,2,4,5}; {1,3,4,5}; {2,3,4,5}(b)写出经过剪枝后的所有候选 4-项集.{1,2,3,4}; {1,2,3,5};2) 一个数据库有5个事务,如下表所示。

设 min_sup=60%, min_conf = 80%。

事务ID 购买的商品T100 T200 T300 T400 T500 {M, O, N, K, E, Y} {D, O, N, K, E, Y} {M, A, K, E} {M, U, C, K, Y} {C, O, O, K, I ,E}(a) 分别用 Apriori 算法和 FP-growth 算法找出所有频繁项集。

比较两种挖掘方法的效率。

Apriori 算法FP-growth 算法效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。

在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选,但是FP消耗了大量的内存,当数据量很大时。

(b)比较穷举法和 Apriori 算法生成的候选项集的数量。

穷举法:M=2k -1=211 - 1=2047Apriori 算法: 23(c) 利用(a)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。

{O,K} — >{E} ,支持度 0.6 ,置信度 1{O,E} — >{k} ,支持度 0.6 ,置信度 13) 如下表所示的相依表汇总了超级市场的事务数据。

其中 hot dogs 指包含热狗的事务,hot dogs 指不包含热狗的事务。

hamburgers 指包含汉堡hot dogs hot dogs ΣrowHamburgers 2,000 500 2,500hamburgers 1,000 1,500 2,500Σcol 3,000 2,000 5,000阈值25%和最小置信度阈值 50%,这个关联规则是强规则吗?s({hot dogs})=3000/5000=60%;s({hot dogs, hamburgers})=2000/5000=40%C({hot dogs} → {hamburgers})=40%/60%=66.7%故这个关联规则是强规则。

计算关联规则“hot dogs ⇒hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?S({hamburgers})=2500/5000=50%提升度lift({hot dogs}→{hamburgers}) = C({hot dogs}→{hamburgers})/S({hamburgers})=1.334 提升度大于1,表明hot dogs和hamburgers不是互相独立的,二者之间存在正相关关系。

第五章分类和预测1) 简述决策树分类的主要步骤。

决策树生成的过程如下:(1)对数据源进行数据预处理, 得到训练集和测试集;(2)对训练集进行训练;(3)对初始决策树进行树剪枝;(4)由所得到的决策树提取分类规则;(5)使用测试数据集进行预测,评估决策树模型;2) 考虑下表所示二元分类问题的数据集。

(a) 计算按照属性 A 和 B 划分时的信息增益。

决策树归纳算法将会选择那个属性?B = T B = F+ 3 1- 1 5划分前样本集的信息熵为E=-0.4log20.4 - 0.6log20.6 = 0.9710按照属性 A 划分样本集分别得到的两个子集(A 取值 T 和 A 取值 F)的信息熵分别为:按照属性 B 划分样本集分别得到的两个子集(B 取值 T 和 B 取值 F)的信息熵分别为:因此,决策树归纳算法将会选择属性A。

(b)计算按照属性 A 和 B 划分时 Gini 系数。

决策树归纳算法将会选择那个属性?3)考虑下表数据集,请完成以下问题:记录号 A B C 类1 0 0 0 +2 0 0 1 -3 0 1 1 -4 0 1 1 -5 0 0 1 +6 1 0 1 +7 1 0 1 -8 1 0 1 -9 1 1 1 +10 1 0 1 +(a) 估计条件概率 P(A | +), P(B | +), P(C | +), P(A | -), P(B| -), P(C | -)。

相关主题