华南理工大学数据挖掘第五章
混合维关联规则(存在重复谓词) L. g :age(X,”19-25”) ∧buys(X, “computer”) ⇒buys(X, “printer”) 分类属性(Categorical Attribute) 又称标称属性(Nominal Attribute) 属性值中包含有限个确定的不同值, 值之间无顺序关系 例如:性别、民族、职业、颜色等 量化属性(Quantitative Attribute) 属性值是数字类型的,值之间隐含了顺序关 例如:年龄、收入、销售量、价格、销售额等 关联挖掘与相关分析 兴趣度的度量 客观度量 两个最为流行的度量: 支持度和置信度(support and confidence) (该规则具有一定的欺骗性 ) 主观度量(Silberschatz&Tuzhilin, KDD95) 一个规则(模式)是感兴趣的,如果 没有想到的(用户感到惊讶的); 可操作的(用户在得到结果后,可以在此之上做些什么) 提升: P(A∪B)=P(B)*P(A), A 和 B 是独立事件
support ({������ }{������ }) support ({x})
使用 Apriori 方法挖掘关联规则 频繁项集:如果项集满足最小支持度,则称之为频繁项集 频繁项集的基本特征:任何频繁项集的非空子集均为频繁项集 Apriori 方法:
提高 Aproori 效率的方法: 1、 基于 hash 的项集计数 2、 较少交易记录 3、 划分 4、 抽样 5、 动态项集计数:在添加一个新的候选集之前,先估计一下是不是他的所有子集 都是频繁的。 挖掘多层关联规则 自上而下,深度优先的方法: 先找高层的“强”规则: 牛奶⇒面包[20%, 60%]. 再找他们底层的“弱”规则: 酸奶⇒黄面包[6%, 50%]. 支持度递减: 随着层次的降低支持度递减 层与层独立: 完全的宽度搜索 层交叉单项过滤 层交叉 k-项集过滤 受控的层交叉单项过滤 为什么要逐步精化 挖掘操作的代价可能高或低,结果可能过细致或粗糙 在速度和质量之间折衷:逐步精化 多维关联规则挖掘 单维关联规则(维内关联规则) 关联规则中仅包含单个谓词(维) 通常针对的是事务数据库 L. g :buys(X, “milk”) ⇒buys(X, “bread”) 多维关联规则:规则内包含 2 个以上维/谓词 维间关联规则(不重复谓词)
第五章关联规则 关联规则挖掘—相关概念 频繁模式: 频繁地出现在数据集中的模式(如项集、子序列或子结构) 为什么频繁模式挖掘重要? 揭示数据集中内在和重要模式 为许多挖掘人物提供基础 所有形如 X ⇒Y 蕴涵式的称为关联规则,这里 X ⊂I, Y ⊂I,并且 X∩Y=Φ 支持度 s:一个事务中包含 X Y 的可能性 L. g:support(X⇒Y) :在所有事件中既购买了 X 又购买了 Y 的概率 置信度 c:一个事务中包含 X 也包含 Y 的条件概率 L. g:confidence(X⇒Y): 购买了 X 的情况下购买 Y 的概率 Support(X⇒Y)) = support({X}{Y}) confidence(X⇒Y) =
总结
��� 大量数据之间的关联关系的发现在选择购物、决策分析和商务管理方面是有用的。一个流
行的应用领域是购物篮分析,通过搜索经常一块购买的商品的集合(或序列),研究顾客的 购买习惯。关联规则挖掘首先找出频繁项集(项的集合,如A 和B,满足最小支持度阈值, 或任务相关元组的百分比),然后,由它们产生形如A ⇒B 的强关联规则。这些规则也满足 最小置信度阈值(预定义的、在满足A 的条件下满足B 的概率)。 ��� 根据不同的标准,关联规则可以分成若干类型,如: (1) 根据规则所处理的值的类型, 关联规则可以分为布尔的和量化的。 布尔关联规则表 现离散(分类)对象之间的联系。量化关联规则是多维关联规则,涉及动态离散化的数 值属性。它也可能涉及分类属性。 (2) 根据规则中数据涉及的维, 关联规则可以分成单维和多维的。 单维关联规则涉及单 个谓词或维,如buys;而多维关联规则涉及多个(不同的)谓词或维。单维关联规则 展示的是维内联系(即,同一个属性或维内的关联);而多维关联规则展示的是维间联 系(即,属性/维之间的关联)。 (3) 根据规则涉及的抽象层,关联规则可以分为单层和多层的。在单层关联规则中,项 或谓词的挖掘不考虑不同的抽象层;而多层关联规则考虑多个抽象层。 (4) 根据对关联挖掘的不同扩充,关联挖掘可以扩充为相关分析和最大频繁模式(“最 大模式”)与频繁闭项集挖掘。相关分析指出相关项的存在与否。最大模式是一个频繁 模式p,使得p的任何真超集都不是频繁的。频繁闭项集是指:项集c 是闭的,如果不 存在c 的真超集c’,使得包含c 的子模式的每个事务也包含c’。 ��� Apriori算法是一种有效的关联规则挖掘算法,它逐级探查,进行挖掘。Apriori性质:频 繁项集的所有非空子集都必须是频繁的。在第k 次迭代,它根据频繁k-项集,形成频繁 (k+1)-项集候选,并扫描数据库一次,找出完整的频繁(k+1)-项集L k+1。涉及散列和事务压 缩的变形可以用来使得过程更有效。其它变形涉及划分数据(在每一部分上挖掘,然后合并 结果)和数据选样(在数据子集上挖掘)。这些变形可以将数据扫描次数减少到一或两次。 ��� 频繁模式增长(FP-增长)是一种不产生候选的挖掘频繁项集方法。它构造一个高度压缩 的数据结构 (FP-树) , 压缩原来的事务数据库。 不是使用类Apriori方法的产生-测试策略, 它聚焦于频繁模式(段)增长,避免了高代价的候选产生,获得更好的效率。 ��� 多层关联规则可以根据每个抽象层上的最小支持度阈值如何定义,使用多种策略挖掘。当 在较低层使用递减的支持度时,剪枝方法包括层交叉按单项过滤,层交叉按k-项集过滤。冗 余的(后代)关联规则可以删除,不向用户提供,如果根据其对应的祖先规则,它们的支持 度和置信度接近于期望值的话。 ��� 挖掘多维关联规则可以根据对量化属性处理分为若干类。第一,量化属性可以根据预定义 的概念分层静态离散化。 数据方非常适合这种方法, 因为数据方和量化属性都可以利用概念 分层。第二,可以挖掘量化关联规则,其量化属性根据分箱动态离散化,“临近的”关联规 则可以用聚类组合。第三,可以挖掘基于距离的关联规则,其中区间根据聚类定义。 ��� 并非所有的强关联规则都是有趣的。对于统计相关的项,可以挖掘相关规则。 ��� 基于限制的挖掘允许用户聚焦,按提供的元规则(即,模式模板)和其它挖掘限制搜索规 则。 这种挖掘促进了说明性数据挖掘查询语言和用户界面的使用, 并对挖掘查询优化提出了 巨大挑战。规则限制可以分五类:反单调的、单调的、简洁的、可变的和不可变的。前四类 限制可以在关联挖掘中使用,指导挖掘过程,导致更有功效和更有效率的挖掘。 ��� 关联规则不应当直接用于没有进一步分析或领域知识的预测。它们不必指示因果关系。然 而,对于进一步探查,它们是有帮助的切入点。这r A ,B
P(A B ) P(A )P(B )
取值小于 1 ,A and B 负相关 取值大于 1 ,A and B 正相关 基于约束的关联挖掘 使用约束的必要性:产生的多数规则是用户不感兴趣的,应在用户提供的各种约束 的指导下进行挖掘 在数据挖掘中常使用的几种约束: 知识类型限制:指定要挖掘的知识类型,如关联规则。 数据限制:指定任务相关的数据集。 维/层限制:指定所用的维或概念分层结构的层。 兴趣度限制:指定规则兴趣度阈值或统计度量,如支持度和置信度。 规则限制:指定要挖掘的规则形式。这种限制可以用元规则(规则模板) 表示,如可以出现在规则前件或后件中谓词的最大或最小个数,或属性、 属性值和/或聚集之间的联系。