当前位置:文档之家› 数据挖掘第二次作业

数据挖掘第二次作业

1.假设最小支持度为40%,最小置信度为70%。

对于下表,使用Apriori算法求解所有的频繁项集,在此基础上推导出所有的强关联规则,并给出相应的支持度和置信度。

答:最小支持数为: 5*40% =2因此所有的频繁项集为:{l1}, {l2}, {L3}, {L4}, {L6},{l1,l2}, {l1,l3}, {l1,l6}, {l2,l4}, {l2,l6}, {l3,l6},{{l1,l2,l6}},{l1,l3,l6}}{l1,l2}的非空子集为{l1}, {l2}I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%{l1,l3}的非空子集为{l1}, {l3}I1=>I3 support = 2/5 =40% confidence =2/4 =50%I3=> I1 support = 2/5 =40% confidence =2/2=100%{l1,l6}的非空子集为{l1}, {l6}I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%{l2,l4}的非空子集为{l2}, {l4}I2=>I4 support = 2/5 =40% confidence =2/4 =50%I4 => l2 support = 2/5 =40% confidence =2/2 =100%{l2,l6}的非空子集为{l2}, {l6}I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%{l3,l6}的非空子集为{l3}, {l6}I3=> l6 support = 2/5 =40% confidence =2/2=100%I6=>I3 support = 2/5 =40% confidence =2/4=50%{l1,l2,l6}}的非空子集为{l1,l2} , {1l,l6}, {l2,l6}, {l1}, {l2}, {l6}I1=>I2^I6 support = 2/5 =40% confidence =2/4 =50%I2=>I1^I6 support = 2/5 =40% confidence = 2/4 =50%I6=>I1^I2 support = 2/5 =40% confidence =2/4 =50%I2^I6=> I1 support = 2/5 =40% confidence = 2/3 =66.67% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I2=> l6 support = 2/5 =40% confidence =2/3 =66.67%{l1,l3,l6}的非空子集为{l1,l3}, {l1,l6}, {l3,l6}, {l1}, {l3}, {l6}I1=>I3^I6 support = 2/5 =40% confidence =2/4 = 50%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100% I6=>I1^I3 support = 2/5 =40% confidence =2/4 = 50%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I3=> l6 support = 2/5 =40% confidence =2/2=100%因为最小置信度为70%,所以强关联:I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%I3=> I1 support = 2/5 =40% confidence =2/2=100%I3=> l6 support = 2/5 =40% confidence =2/2=100%I4 => l2 support = 2/5 =40% confidence =2/2 =100%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100%I1^I3=> l6 support = 2/5 =40% confidence = 2/2 =100%2.针对下表的数据,a)构造决策树,并给出是否外出游玩的有关规则;b)利用贝叶斯分类方法,判断:在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,是否可以外出游玩。

答:a)b)设X =(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)P (外出游玩= “yes” ) = 9/14 = 0.643P (外出游玩= “No” ) = 5/14 = 0.357p (阴晴= ”S unny” | 外出游玩= ”yes”)=2/9 ;p(阴晴= ”sunn y” | 外出游玩=”N o”)= 3/5 ;p (湿度=”Mild”|外出游玩=”yes”)=4/9 ;p(湿度=”Mild” | 外出游玩=” N o”)=2/5 ;p (温度=”N orma”|外出游玩=”yes”)=6/9 ;p(温度=”Normal” | 外出游玩=” N o”)=1/5 ;p(刮风=”F alse”|外出游玩=”yes”)=6/9 ;p(刮风=“false”| 外出游玩=”N o”)=2/5 ;p (X|外出游玩=”y es”)=2/9 * 4/9 * 6/9 * 6/9 = 0.044p (X|外出游玩=”no”)= 3/5 * 2/5 * 1/5 * 2/5 = 0 019p (X|外出游玩=”yes”) p(外出游玩=”yes”)= 0.044 * 0.643 = 0.028p (X|外出游玩=” no”) p(外出游玩=” N o”)= 0.019 * 0.357 = 0.007 因此,对于样本X,贝叶斯分类预测,外出游外=”yes”。

所以在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,可以外出游玩3.简述什么是面向属性的归纳,它的主要步骤有哪些?答:面向属性的归纳是一种面向关系数据查询的、基于汇总的在线数据分析技术。

受数据类型和度量类型的约束比较少它的基本思想是:使用关系数据库查询收集任务相关的数据●通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化●通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作●通过与用户交互,将广义关系以图表或规则等形式,提交给用户4.为什么要进行属性相关性分析?答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预●用户必须告诉系统哪些维或属性应当包含在类分析中 (难)。

属性太少,则造成挖掘的描述结果不正确。

属性太多,浪费计算、淹没知识●告诉系统每个维应当概化到多高的层次(易)。

直接通过概化的临界值,说明给定维应当达到的概化程度。

对概化层次不满意,则可以指定需要上卷或下钻的维5.什么是类比较,它的主要步骤有哪些。

答:类比较挖掘的目标是得到将目标类与对比类相区分的描述。

步骤:1)数据收集:通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类2)维相关分析:使用属性相关分析方法,使我们的任务中仅包含强相关的维3) 同步概化:同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体4) 导出比较的表示: 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较(e.g count%).6.什么是关联规则挖掘,关联规则都有哪些类型?答:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

类型有:1)根据规则中所处理的值类型2)根据规则中涉及的数据维3)根据规则集所涉及的抽象层4)根据关联挖掘的各种扩充7.简要说明什么是Apriori性质。

答:频繁项集的所有非空子集也必须是频繁的。

●A∪B模式不可能比A更频繁的出现●Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。

●Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率8.简要说明多层关联规则挖掘的方法。

通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略a)请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度b)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数c)每一层的关联规则挖掘可以使用Apriori等多种方法9.举例说明为什么强关联规则不一定是有趣的。

答:例如在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而,打篮球=> 喝麦片粥[40%, 66.7%]是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高打篮球=> 不喝麦片粥[20%, 33.3%]这个规则远比上面那个要精确,尽管支持度和置信度都要低的多10.分类和预测有什么区别?它们的主要步骤是什么。

答:区别:●分类法主要是用来预测类标号(分类属性值)●预测法主要是用来估计连续值(量化属性值)步骤:⏹第一步,建立一个模型,描述预定数据类集和概念集⏹第二步,使用模型,对将来的或未知的对象进行分类11.除了决策树(判定树)以外还有哪些分类方法,比较这些分类方法的标准是什么?答:贝叶斯分类,后向传播分类。

相关主题