当前位置：文档之家› 数据挖掘第二次作业

数据挖掘第二次作业

1.假设最小支持度为40%，最小置信度为70%。

对于下表，使用Apriori算法求解所有的频繁项集，在此基础上推导出所有的强关联规则，并给出相应的支持度和置信度。

答：最小支持数为: 5*40% =2因此所有的频繁项集为:{l1}, {l2}, {L3}, {L4}, {L6},{l1,l2}, {l1,l3}, {l1,l6}, {l2,l4}, {l2,l6}, {l3,l6},{{l1,l2,l6}},{l1,l3,l6}}{l1,l2}的非空子集为{l1}, {l2}I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%{l1,l3}的非空子集为{l1}, {l3}I1=>I3 support = 2/5 =40% confidence =2/4 =50%I3=> I1 support = 2/5 =40% confidence =2/2=100%{l1,l6}的非空子集为{l1}, {l6}I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%{l2,l4}的非空子集为{l2}, {l4}I2=>I4 support = 2/5 =40% confidence =2/4 =50%I4 => l2 support = 2/5 =40% confidence =2/2 =100%{l2,l6}的非空子集为{l2}, {l6}I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%{l3,l6}的非空子集为{l3}, {l6}I3=> l6 support = 2/5 =40% confidence =2/2=100%I6=>I3 support = 2/5 =40% confidence =2/4=50%{l1,l2,l6}}的非空子集为{l1,l2} , {1l,l6}, {l2,l6}, {l1}, {l2}, {l6}I1=>I2^I6 support = 2/5 =40% confidence =2/4 =50%I2=>I1^I6 support = 2/5 =40% confidence = 2/4 =50%I6=>I1^I2 support = 2/5 =40% confidence =2/4 =50%I2^I6=> I1 support = 2/5 =40% confidence = 2/3 =66.67% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I2=> l6 support = 2/5 =40% confidence =2/3 =66.67%{l1,l3,l6}的非空子集为{l1,l3}, {l1,l6}, {l3,l6}, {l1}, {l3}, {l6}I1=>I3^I6 support = 2/5 =40% confidence =2/4 = 50%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100% I6=>I1^I3 support = 2/5 =40% confidence =2/4 = 50%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I3=> l6 support = 2/5 =40% confidence =2/2=100%因为最小置信度为70%，所以强关联:I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%I3=> I1 support = 2/5 =40% confidence =2/2=100%I3=> l6 support = 2/5 =40% confidence =2/2=100%I4 => l2 support = 2/5 =40% confidence =2/2 =100%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100%I1^I3=> l6 support = 2/5 =40% confidence = 2/2 =100%2.针对下表的数据，a)构造决策树，并给出是否外出游玩的有关规则；b)利用贝叶斯分类方法，判断：在（阴晴=sunny，温度=Mild，湿度=Normal，刮风=False）的情况下，是否可以外出游玩。

答：a)b)设X =（阴晴=sunny，温度=Mild，湿度=Normal，刮风=False）P (外出游玩= “yes” ) = 9/14 = 0.643P (外出游玩= “No” ) = 5/14 = 0.357p (阴晴= ”S unny” | 外出游玩= ”yes”)=2/9 ;p(阴晴= ”sunn y” | 外出游玩=”N o”)= 3/5 ;p (湿度=”Mild”|外出游玩=”yes”)=4/9 ;p(湿度=”Mild” | 外出游玩=” N o”)=2/5 ;p (温度=”N orma”|外出游玩=”yes”)=6/9 ;p(温度=”Normal” | 外出游玩=” N o”)=1/5 ;p(刮风=”F alse”|外出游玩=”yes”)=6/9 ;p(刮风=“false”| 外出游玩=”N o”)=2/5 ;p (X|外出游玩=”y es”)=2/9 * 4/9 * 6/9 * 6/9 = 0.044p (X|外出游玩=”no”)= 3/5 * 2/5 * 1/5 * 2/5 = 0 019p (X|外出游玩=”yes”) p(外出游玩=”yes”)= 0.044 * 0.643 = 0.028p (X|外出游玩=” no”) p(外出游玩=” N o”)= 0.019 * 0.357 = 0.007 因此，对于样本X，贝叶斯分类预测，外出游外=”yes”。

所以在（阴晴=sunny，温度=Mild，湿度=Normal，刮风=False）的情况下，可以外出游玩3.简述什么是面向属性的归纳，它的主要步骤有哪些？答：面向属性的归纳是一种面向关系数据查询的、基于汇总的在线数据分析技术。

受数据类型和度量类型的约束比较少它的基本思想是：使用关系数据库查询收集任务相关的数据●通过考察任务相关数据中每个属性的不同值的个数进行概化，方法是属性删除或者是属性概化●通过合并相等的，概化的广义元组，并累计他们对应的计数值进行聚集操作●通过与用户交互，将广义关系以图表或规则等形式，提交给用户4.为什么要进行属性相关性分析？答：数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程，这使得这个过程中需要有很多用户干预●用户必须告诉系统哪些维或属性应当包含在类分析中 (难)。

属性太少，则造成挖掘的描述结果不正确。

属性太多，浪费计算、淹没知识●告诉系统每个维应当概化到多高的层次（易）。

直接通过概化的临界值，说明给定维应当达到的概化程度。

对概化层次不满意，则可以指定需要上卷或下钻的维5.什么是类比较，它的主要步骤有哪些。

答：类比较挖掘的目标是得到将目标类与对比类相区分的描述。

步骤：1）数据收集：通过查询处理收集数据库中相关的数据，并将其划分为一个目标类和一个或多个对比类2）维相关分析：使用属性相关分析方法，使我们的任务中仅包含强相关的维3) 同步概化：同步的在目标类和对比类上进行概化，得到主目标类关系/方体和主对比类关系/方体4) 导出比较的表示: 用可视化技术表达类比较描述，通常会包含“对比”度量，反映目标类与对比类间的比较(e.g count%).6.什么是关联规则挖掘，关联规则都有哪些类型？答：从事务数据库，关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

类型有：1）根据规则中所处理的值类型2）根据规则中涉及的数据维3）根据规则集所涉及的抽象层4）根据关联挖掘的各种扩充7.简要说明什么是Apriori性质。

答：频繁项集的所有非空子集也必须是频繁的。

●A∪B模式不可能比A更频繁的出现●Apriori算法是反单调的，即一个集合如果不能通过测试，则该集合的所有超集也不能通过相同的测试。

●Apriori性质通过减少搜索空间，来提高频繁项集逐层产生的效率8.简要说明多层关联规则挖掘的方法。

通常，多层关联规则的挖掘还是使用置信度－支持度框架，可以采用自顶向下策略a)请注意：概念分层中，一个节点的支持度肯定不小于该节点的任何子节点的支持度b)由概念层1开始向下，到较低的更特定的概念层，对每个概念层的频繁项计算累加计数c)每一层的关联规则挖掘可以使用Apriori等多种方法9.举例说明为什么强关联规则不一定是有趣的。

答：例如在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而，打篮球=> 喝麦片粥[40%, 66.7%]是错误的，因为全部学生中喝麦片粥的比率是75%，比打篮球学生的66.7%要高打篮球=> 不喝麦片粥[20%, 33.3%]这个规则远比上面那个要精确，尽管支持度和置信度都要低的多10.分类和预测有什么区别？它们的主要步骤是什么。

答：区别：●分类法主要是用来预测类标号（分类属性值）●预测法主要是用来估计连续值（量化属性值）步骤：⏹第一步，建立一个模型，描述预定数据类集和概念集⏹第二步，使用模型，对将来的或未知的对象进行分类11.除了决策树（判定树）以外还有哪些分类方法，比较这些分类方法的标准是什么？答：贝叶斯分类，后向传播分类。

e商务文档

数据挖掘第二次作业

相关文档推荐：