当前位置：文档之家› 关联规则挖掘综述

关联规则挖掘综述

５Ａｐｒｉｏｒｉ算法
５．１算法的基本思想：Ａｐｒｉｏｒｉ算法主要工作在于寻找频繁项集。通过先计算所有的候选１－项集的集合Ｃ１。找出所有的频繁１－项集Ｌ１。然后根据频繁１－项集Ｌ１确定候选２－项集的集合Ｃ２。从Ｃ２中找出所有的频繁２－项集Ｌ２。再根据频繁２－项集Ｌ２确定候选３－项集的集合Ｃ３。从Ｃ３中找出所有的频繁３－项集Ｌ３。如此下去直到不再有候选项集。算法Ａｐｒｉｏｒｉ：Ｌ１＝ｆｉｎｄ＿ｆｒｅｑｕｅｎｔ＿１－ｉｔｅｍｓｅｔｓ（Ｄ）；ｆｏｒ（ｋ＝２；ＬＫ－１！＝ＮＵＬＬ；Ｋ＋＋）｛Ｃｋ＝ａｐｒｏｒｉ＿ｇｅｎ（Ｌｋ－１）；／／由Ｌｋ－１经过连接和剪枝产生Ｋ候选项集ｆｏｒｅａｃｈｔｒａｎｓａｃｔｉｏｎｔ∈Ｄ／／扫描所有的事务｛Ｃｔ＝ｓｕｂｓｅｔ（Ｃｋ，ｔ）；／／从ｔ中取得是候选集的子集ｆｏｒｅａｃｈｃａｎｄｉｄａｔｅｃ∈Ｃｔｃ．ｃｏｕｎｔ＋＋；｝Ｌｋ＝｛ｃ∈Ｃｋ｜ｃ．ｃｏｕｎｔ＞＝ｍｉｎ＿ｓｕｐ｝｝ＲｅｔｕｒｎＬ＝ＵｋＬｋ；在论文中，Ａｇｒａｗａｌ等引入了修剪技术（Ｐｒｕｎｉｎｇ）来减小候选集Ｃｋ的大小，利用我们前面介绍过得性质：频繁项集的所有非空子集都必须也是频繁的。这个修剪过程可以降低计算所有的候选集的支持度的代价。在论文［１］中，还引入了杂凑树（ＨａｓｈＴｒｅｅ）方法来有效的计算每个项集的支持度。５．２算法的性能分析在ａｐｒｉｏｒｉ算法中，Ｃｋ中的每个元素需要在交易数据库中进行验证以决定是否加入Ｌｋ，它可能需要重复地扫描事务数据库，这里的验证过程是算法性能的一个瓶颈。当数据库很大的时候，就会需要很大的Ｉ／Ｏ负载。５．３算法的改进虽然ａｐｒｏｒｉ算法自身提供了一些改进，但是仍然不能令人满意，所以人们提出了很多解决的方案，旨在提高原算法的效率。涉及散列和事务压缩的变形可以用来使得过程变得更有效。其他变形涉及划分数据（在每一部分上挖掘，然后合并结果）和数据选样（在数据子集上挖掘）。这些变形可以将数据扫描次数减少到两次
３挖掘的种类
３．１基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系。
数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则也可以包含种类变量。
收稿日期：２００５－１１－２７作者简介：朱熹梅（１９８１－），女，山东省郯城县人，硕士，研究方向：数据挖掘。
３６
电脑知识与技术
数据库与信息管理
电脑知识与技术
３．３根据规则所涉及的抽象层。有多层关联规则和单层关联规则之分。ＩＢＭ台式机＝＞Ｓｏｎｙ打印机，是一个细节数据上的单层关联规则；台式机＝＞Ｓｏｎｙ打印机，是一个较高层次和细节层次之间的多层关联规则。
２．１项集：设Ｉ＝｛ｉ１，ｉ２， ……，ｉｍ｝是项的集合，则Ｉ称为项集（ｉｔｅｍｓｅｔ）。包含Ｋ个项的项集称为Ｋ－项集。
２．２事务：事务是项的集合。２．３事务集：事务的集合称为事务集。每一个事务有一个标识符，称作ＴＩＤ。２．４关联规则：关联规则是形如Ａ＝〉Ｂ的蕴含式，其中Ａ包含于Ｉ，Ｂ包含于Ｉ。并且Ａ∩Ｂ＝Φ，规则Ａ＝〉Ｂ在事务集Ｄ中成立，具有支持度ｓ其中ｓ是Ｄ中事务包含Ａ∪Ｂ的百分比，它是概率Ｐ（Ａ∪Ｂ），比如，某天一个商店有５００笔交易，共有５０笔交易同时购买了洗衣服和衣架，则关联规则（洗衣粉＝）衣架）的支持度为
１０％。Ａ＝〉Ｂ在事务集Ｄ中具有置信度ｃ，它是条件概率Ｐ（Ｂ｜Ａ），比如，在买了洗衣粉的顾客中，有８０％的人会买衣架，那么关联规则（洗衣服＝）衣架）的置信度为８０％。它们的运算公式如下：
ｓｕｐｐｏｒｔ（Ａ＝＞Ｂ）＝Ｐ（Ａ∪Ｂ）ｃｏｎｆｉｄｅｎｃｅ（Ａ＝＞Ｂ）＝Ｐ（Ｂ｜Ａ）２．５频繁项集：频繁项集为满足最小支持度的项集，最小支持度是由领域专家或者用户设定的，以获取对用户有用的规则，摒弃没有用的。事实上，规则，需要设定最小支持度和最小置信度两个阈值。
电脑知识与技术
数据库与信息管理
关联规则挖掘综述
朱喜梅（同济大学软件学院，上海２０１８０４）
摘要：关联规则挖掘则是数据挖掘中最重要的分支之一。它着重研究大量数据中项集之间有趣的关联或相关关系，一个典型的例子就是购物篮分析。该过程可以分析出哪些商品顾客倾向于在一起购买，从而可以为商店经理提供比较好的商店布局方式。例如，通过分析，我们发现，顾客在购买了一台计算机以后，一般都会去购买财务管理软件，那么我们就可以把计算机和财务管理软件放在比较近的位置，以增加销售量。这里主要介绍了关联规则挖掘的经典算法，Ａｐｒｉｏｒｉ算法，同时给出了关联规则中的基本概念，然后分析了算法的运行效率，提出了改进的方法。
例如：ｂｕｙｓ（ “牛奶”）＝〉ｂｕｙｓ（ “面包”）；这是个布尔型的关联规则。而性别（ “女”）＝〉工资（ “５０００”）则是数值型的关联规则。
３．２根据规则中涉及的数据维：如果关联规则中得项每个都只涉及一个维，则称为单维关联规则。如果涉及两个或多个维，则称为多维关联规则。ｂｕｙｓ（ “牛奶”）＝〉ｂｕｙｓ（ “面包”）是一个单维的关联规则，因为它只涉及一个维，ｂｕｙｓ．而性别（ “女 ”）＝〉工资（ “５０００”）则是一个多维的关联规则，因为它涉及两个维性别和工资。
或一次。
６挖掘实例
关联规则的应用非常普遍，因为其不受只能选择一个因变量的限制，能够在大型数据库中发现数据关系。让我们来考虑一个零售店系统的例子。假定某一个天销售表的数据如下表：
第一步：扫描Ｄ，对每个候选计数。
第二步：产生１频项集，假定支持度计数为３。
第三步：有Ｌ１产生候Ｃ２：
４挖掘的过程
数据挖掘主要主要是从大量数据中挖掘出对用户有意义的规则。它是一个两步的过程。
第一步：找出所有的频繁项集。在这里会用到频繁项集的一个性质。
性质１：频繁项集的所有非空子集都必须也是频繁的。即是说：如果｛Ａ｝或者｛Ｂ｝中有个不是频繁的，则｛ＡＢ｝一定不是频繁的。利用这个性质，我们可以减少计算中出现的候选项集的个数，如果一个项集有非频繁的子集，我们可以直接把它删掉。
关键词：数据挖掘；关联规则；频繁项集中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１００９－３０４４（２００６）０５－００３６－０２
ＴｈｅＳｕｍｍａｒｉｚａｔｉｏｎｏｆＭｉｎｉｎｇＡｓｓｏｃｉａｔｉｏｎＲｕｌｅｓＺＨＵＸｉ－ｍｅｉ
（ＳｏｆｔｗａｒｅＣｏｌｌｅｇｅｏｆＴｏｎｇｊｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１８０４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＭｉｎｉｎｇａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｉｓｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｂｒａｎｃｈｉｎＤａｔａＭｉｎｉｎｇ．Ｉｔｍａｉｎｌｙｄｉｓｃｕｓｓｅｓｔｈｅｆｕｎｎｙｏｒｒｅｌａｔｅｄｒｅｌａｔｉｏｎｓｂｅｔｗｅｅｎｉｔｅｍｓｅｔｓｉｎａｌｏｔｏｆｄａｔａ．ＡｃｌａｓｓｉｃｅｘａｍｐｌｅｉｓＭａｒｋｅｔＢａｓｋｅｔＡｎａｌｙｓｉｓ，ｗｈｉｃｈｃａｎｔｅｌｌｏｕｔｗｈａｔｋｉｎｄｓｏｆｇｏｏｄｓｍａｙｂｅｐｕｒｃｈａｓｅｄｔｏｇｅｔｈｅｒｂｙｏｕｒｃｕｓｔｏｍｅｒｓ，ｔｈｕｓｉｔｃａｎｏｆｆｅｒｔｈｅｍａｎａｇｅｒｗｉｔｈｂｅｔｔｅｒｌａｙｏｕｔ．Ｆｏｒｅｘａｍｐｌｅ，ｉｆｗｅｆｉｎｄｔｈａｔｔｈｅｃｕｓｔｏｍｅｒｔｅｎｄｓｔｏｂｕｙＢｕｄｇｅｔＭａｎａｇｅｍｅｎｔＳｏｆｔｗａｒｅａｆｔｅｒｔｈｅｙｂｕｙａｃｏｍｐｕｔｅｒｗｉｔｈａｎａｌｙｓｉｓ，ｔｈｅｎｗｅｃａｎｐｕｔｃｏｍｐｕｔｅｒｓｎｅｘｔｔｏＢｕｄｇｅｔＭａｎａｇｅｍｅｎｔＳｏｆｔｗａｒｅｔｏｉｎｃｒｅａｓｅｓａｌｅｓ．Ｔｈｅｐａｐｅｒｍａｉｎｌｙｄｉｓ－ｃｕｓｓｅｓａｃｌａｓｓｉｃａｒｉｔｈｍｅｔｉｃ－ｔｈｅＡｐｒｉｏｒｉａｒｉｔｈｍｅｔｉｃ．Ｉｔａｌｓｏｓｈｏｗｓｔｈｅｂａｓｉｃｃｏｎｃｅｐｔｓｉｎｍｉｎｉｎｇａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ，ａｌｏｎｇｗｉｔｈｔｈｅａｎａｌｙｓｉｓｏｆｔｈｅｅｆｆｉ－ｃｉｅｎｃｙｏｆｔｈｅａｒｉｔｈｍｅｔｉｃ．Ｉｔａｌｓｏｐｏｉｎｔｓｏｕｔｈｏｗｔｏｉｍｐｒｏｖｅｔｈｅａｒｉｔｈｍｅｔｉｃ．Ｋｅｙｗｏｒｄｓ：ＤａｔａＭｉｎｉｎｇ；ａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ；ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔ
１引言
数据挖掘（ＤａｔａＭｉｎｉｎｇ）简称ＤＭ，也叫数据开采，数据采掘等，是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这些知识或信息是隐含的、事先未知而潜在有用的，提取的知识表示为概念（Ｃｏｎｃｅｐｔｓ）、规则（Ｒｕｌｅｓ）、规律（Ｒｅｇｕｌａｒｉｔｉｅｓ），模式（Ｐａｔｔｅｒｎｓ）等形式。

e商务文档

关联规则挖掘综述

相关文档推荐：