当前位置：文档之家› 华南理工大学数据挖掘第五章

华南理工大学数据挖掘第五章

混合维关联规则(存在重复谓词) L. g ：age(X,”19-25”) ∧buys(X, “computer”) ⇒buys(X, “printer”) 分类属性（Categorical Attribute）又称标称属性（Nominal Attribute）属性值中包含有限个确定的不同值, 值之间无顺序关系例如：性别、民族、职业、颜色等量化属性（Quantitative Attribute）属性值是数字类型的，值之间隐含了顺序关例如：年龄、收入、销售量、价格、销售额等关联挖掘与相关分析兴趣度的度量客观度量两个最为流行的度量: 支持度和置信度（support and confidence）（该规则具有一定的欺骗性）主观度量(Silberschatz&Tuzhilin, KDD95) 一个规则（模式）是感兴趣的，如果没有想到的(用户感到惊讶的); 可操作的(用户在得到结果后，可以在此之上做些什么) 提升： P(A∪B)=P(B)*P(A), A 和 B 是独立事件
support ({�� }{�� }) support ({x})
使用 Apriori 方法挖掘关联规则频繁项集：如果项集满足最小支持度，则称之为频繁项集频繁项集的基本特征：任何频繁项集的非空子集均为频繁项集 Apriori 方法：
提高 Aproori 效率的方法： 1、基于 hash 的项集计数 2、较少交易记录 3、划分 4、抽样 5、动态项集计数：在添加一个新的候选集之前，先估计一下是不是他的所有子集都是频繁的。挖掘多层关联规则自上而下，深度优先的方法：先找高层的“强”规则：牛奶⇒面包[20%, 60%]. 再找他们底层的“弱”规则：酸奶⇒黄面包[6%, 50%]. 支持度递减: 随着层次的降低支持度递减层与层独立：完全的宽度搜索层交叉单项过滤层交叉 k－项集过滤受控的层交叉单项过滤为什么要逐步精化挖掘操作的代价可能高或低，结果可能过细致或粗糙在速度和质量之间折衷：逐步精化多维关联规则挖掘单维关联规则（维内关联规则）关联规则中仅包含单个谓词（维）通常针对的是事务数据库 L. g ：buys(X, “milk”) ⇒buys(X, “bread”) 多维关联规则：规则内包含 2 个以上维/谓词维间关联规则(不重复谓词)
第五章关联规则关联规则挖掘—相关概念频繁模式: 频繁地出现在数据集中的模式(如项集、子序列或子结构) 为什么频繁模式挖掘重要？揭示数据集中内在和重要模式为许多挖掘人物提供基础所有形如 X ⇒Y 蕴涵式的称为关联规则，这里 X ⊂I, Y ⊂I，并且 X∩Y=Φ 支持度 s：一个事务中包含 X Y 的可能性 L. g：support(X⇒Y) :在所有事件中既购买了 X 又购买了 Y 的概率置信度 c：一个事务中包含 X 也包含 Y 的条件概率 L. g：confidence(X⇒Y): 购买了 X 的情况下购买 Y 的概率 Support(X⇒Y)) = support({X}{Y}) confidence(X⇒Y) =
总结
�� 大量数据之间的关联关系的发现在选择购物、决策分析和商务管理方面是有用的。一个流
行的应用领域是购物篮分析，通过搜索经常一块购买的商品的集合（或序列），研究顾客的购买习惯。关联规则挖掘首先找出频繁项集（项的集合，如A 和B，满足最小支持度阈值，或任务相关元组的百分比），然后，由它们产生形如A ⇒B 的强关联规则。这些规则也满足最小置信度阈值（预定义的、在满足A 的条件下满足B 的概率）。 �� 根据不同的标准，关联规则可以分成若干类型，如： (1) 根据规则所处理的值的类型，关联规则可以分为布尔的和量化的。布尔关联规则表现离散（分类）对象之间的联系。量化关联规则是多维关联规则，涉及动态离散化的数值属性。它也可能涉及分类属性。 (2) 根据规则中数据涉及的维，关联规则可以分成单维和多维的。单维关联规则涉及单个谓词或维，如buys；而多维关联规则涉及多个（不同的）谓词或维。单维关联规则展示的是维内联系（即，同一个属性或维内的关联）；而多维关联规则展示的是维间联系（即，属性/维之间的关联）。 (3) 根据规则涉及的抽象层，关联规则可以分为单层和多层的。在单层关联规则中，项或谓词的挖掘不考虑不同的抽象层；而多层关联规则考虑多个抽象层。 (4) 根据对关联挖掘的不同扩充，关联挖掘可以扩充为相关分析和最大频繁模式（“最大模式”）与频繁闭项集挖掘。相关分析指出相关项的存在与否。最大模式是一个频繁模式p，使得p的任何真超集都不是频繁的。频繁闭项集是指：项集c 是闭的，如果不存在c 的真超集c’，使得包含c 的子模式的每个事务也包含c’。 �� Apriori算法是一种有效的关联规则挖掘算法，它逐级探查，进行挖掘。Apriori性质：频繁项集的所有非空子集都必须是频繁的。在第k 次迭代，它根据频繁k-项集，形成频繁 (k+1)-项集候选，并扫描数据库一次，找出完整的频繁(k+1)-项集L k+1。涉及散列和事务压缩的变形可以用来使得过程更有效。其它变形涉及划分数据（在每一部分上挖掘，然后合并结果）和数据选样（在数据子集上挖掘）。这些变形可以将数据扫描次数减少到一或两次。 �� 频繁模式增长（FP-增长）是一种不产生候选的挖掘频繁项集方法。它构造一个高度压缩的数据结构（FP-树），压缩原来的事务数据库。不是使用类Apriori方法的产生-测试策略，它聚焦于频繁模式（段）增长，避免了高代价的候选产生，获得更好的效率。 �� 多层关联规则可以根据每个抽象层上的最小支持度阈值如何定义，使用多种策略挖掘。当在较低层使用递减的支持度时，剪枝方法包括层交叉按单项过滤，层交叉按k-项集过滤。冗余的（后代）关联规则可以删除，不向用户提供，如果根据其对应的祖先规则，它们的支持度和置信度接近于期望值的话。 �� 挖掘多维关联规则可以根据对量化属性处理分为若干类。第一，量化属性可以根据预定义的概念分层静态离散化。数据方非常适合这种方法，因为数据方和量化属性都可以利用概念分层。第二，可以挖掘量化关联规则，其量化属性根据分箱动态离散化，“临近的”关联规则可以用聚类组合。第三，可以挖掘基于距离的关联规则，其中区间根据聚类定义。 �� 并非所有的强关联规则都是有趣的。对于统计相关的项，可以挖掘相关规则。 �� 基于限制的挖掘允许用户聚焦，按提供的元规则（即，模式模板）和其它挖掘限制搜索规则。这种挖掘促进了说明性数据挖掘查询语言和用户界面的使用，并对挖掘查询优化提出了巨大挑战。规则限制可以分五类：反单调的、单调的、简洁的、可变的和不可变的。前四类限制可以在关联挖掘中使用，指导挖掘过程，导致更有功效和更有效率的挖掘。 �� 关联规则不应当直接用于没有进一步分析或领域知识的预测。它们不必指示因果关系。然而，对于进一步探查，它们是有帮助的切入点。这r A ,B
P(A B ) P(A )P(B )
取值小于 1 ，A and B 负相关取值大于 1 ，A and B 正相关基于约束的关联挖掘使用约束的必要性：产生的多数规则是用户不感兴趣的，应在用户提供的各种约束的指导下进行挖掘在数据挖掘中常使用的几种约束：知识类型限制：指定要挖掘的知识类型，如关联规则。数据限制：指定任务相关的数据集。维/层限制：指定所用的维或概念分层结构的层。兴趣度限制：指定规则兴趣度阈值或统计度量，如支持度和置信度。规则限制：指定要挖掘的规则形式。这种限制可以用元规则（规则模板）表示，如可以出现在规则前件或后件中谓词的最大或最小个数，或属性、属性值和/或聚集之间的联系。

e商务文档

华南理工大学数据挖掘第五章

相关文档推荐：