当前位置：文档之家› 关联规则挖掘

关联规则挖掘

Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行了购物篮关联规则分析，从而知道顾客经常一起购买的商品有哪些。跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果，反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识？是否有利用价值？
交易（transaction）：定义I
T09
T10
B C M T
B M T
为所有商品的集合，在这个例子中I={B C M T}。每个非空的I子集都成为一个交易。所有交易构成交易数据库D。
关联规则
设
I={i1,i2,…,im}是项（Item）的集合。记D 为事务（Transaction）的集合（事务数据库），事务T是项的集合，并且TI。设A是I中一个项集，如果AT，那么称事务T 包含A。
的出现对物品集B 的出现有多大的影响。
定义4：兴趣度：
I ( A B)
P ( AB) P ( A) P ( B)
公式反映了项集A与项集B的相关程度。若
I ( A B) 1 即 P( AB) P( A) P( B)
表示项集A出现和项集B是相互独立的。
若 I(A B ) <1
B：bread C:cream M:milk T:tea
项目（item）：其中的B C M
T 都称作item。
项集（itemset）:item的集合，
例如{B C}、{C M T}等，每个顾客购买的都是一个项集。其中，项集中item的个数称为项集的长度，含有k个item的项集成为K-itemset.

4
美国折扣零售商塔吉特与怀孕预测
美国一名男子闯入他家附近的一家
美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议： “你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”
店铺经理立刻向来者承认错误，但
是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图所示。一个月后，这位父亲来道歉，因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
为弱关联规则。
数据挖掘主要就是对强规则的挖掘。
3. 关联规则挖掘过程
关联规则的挖掘一般分为两个过程：
（1）找出所有的频繁项集：找出支持度大于最小支持度的项集，即频繁项集。（2）由频繁项集产生（强）关联规则：根据定义，这些规则必须满足最小支持度和最小可信度。
中，物品集B 也同时出现的概率规则AB具有可信度C，表示C是条件概率P(B|A)，即： | AB |

C (A B) P( B | A) |A|
其中
| A|
表示数据库中包含项集A的事务
个数。
小结
可信度是对关联规则的准确度的衡量，支
持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。
买的人数占总人数的比例，即800/10000=8%，有8%的用户同时购买了A和B两个产品；
可信度
可信度指的是在购买了一个产品之后购买另外一个产品的可能
性，如购买了A产品之后购买B产品的可信度=800/1000=80%
作用度（兴趣度）
讨论两种事务的比较关系

AB
作用度是两种可能性的比较，描述物品集A
6
大数据分析核心手段、技术
数据处理数据挖掘模型预测
概念
数据挖掘(Data Mining) 是通过分析每个数据，从大量
数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
关联分析是指如果两个或多个事物之间存在一定的关联,
显然支持度越大，关联规则越重要。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因
此也不重要。
理解：关联分析中的三个重要的概念
支持度
举例：
10000个人购买了产品，其中购买A产品的人是1000个，购买 B产品的人是2000个，AB同时购买的人是800个。支持度指的是关联的产品（假定A产品和B产品关联）同时购
２关联规则挖掘
在关联规则的三个属性中，支持度和可信
度能够比较直接形容关联规则的性质
事实上，人们一般只对满足一定的支持度
和可信度的关联规则感兴趣。
因此，为了发现有意义的关联规则，需要由用户给定两个阈值：
最小支持度（min_sup）和最小可信度
（min_conf）
频繁项集
如果项集满足最小支持度，则它称之为
3
尿不湿和啤酒

经过大量实际调查和分析，他们揭示了一个隐藏在“尿不湿与啤酒” 背后的美国消费者的一种行为模式：在美国，到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作，而他们中有30%～40%的人同时也会为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿，而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任，又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多，那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起，结果是得到了尿不湿与啤酒的销售量双双增长。按常规思维，尿不湿与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内这一有价值的规律的。
频繁项集（Frequent Itemset）。
强规则
定义5：强关联规则。
同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为强关联规则，即 S (A B) min_sup 且C(A B) min_conf
成立时，规则称之为强关联规则，否则称
支持度描述了A 和B 这两个物品集在所有的事务中同时出现的概率有多大。
规则AB在数据库D中具有支持度S，即概
率P(AB)，即： S (A B) P(AB) | AB |
|D|
其中|D|表示事务数据库D的个数，表示A、
B两个项集同时发生的事务个数。
可信度
定义3：规则的可信度可信度就是指在出现了物品集A 的事务T
S
C
I
1 2 3 4 5 6 7 8
0.2 0.2 0.05 0.05 0.7 0.7 0.05 0.05
0.8 0.22 0.2 0.5 0.93 0.78 0.067 0.2
0.89 0.89 2 2 1.037 1.037 0.67 0.87
讨论I1﹑I2﹑I3﹑I6共4条规则：由于I1,I2<1, 在实际中它的价值不大； I3,I6>1,规则才有价值。
识模式。
更确切的说，关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响
现实中，这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数
据，这些数据是一条条的购买事务记录，每条记录存储了
事务处理时间，顾客购买的物品、物品的数量及金额等。

这些数据中常常隐含形式如下的关联规则：在购买铁锤的顾客当中，有70 ％的人同时购买了铁钉。这些关联规则很有价值，商场管理人员可以根据这些关联规则更好地规划商场，如把铁锤和铁钉这样的商品摆放在一起，能够促进销售。
5Leabharlann 美国折扣零售商塔吉特与怀孕预测
塔吉特公司能在不被清楚告知的情况下预测出一个女性
的怀孕情况该公司找出了大概20多种与怀孕的关联物，给顾客进行 “怀孕趋势”评分这些数据甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券 Target能够通过分析女性客户购买记录，“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品，制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右，大量购买无香味乳液。以此为依据推算出预产期后，就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。
兴趣度I不小于0。
例
设交易集D，经过对D的分析，得到表格:
买咖啡
买牛奶不买牛奶合计 20 70 90
不买咖啡
5 5 10
合计
25 75 100
所有可能的关联规则
Rules
买牛奶→买咖啡买咖啡→买牛奶买牛奶→不买咖啡不买咖啡→买牛奶不买牛奶→买咖啡买咖啡→不买牛奶不买牛奶→不买咖啡不买咖啡→不买牛奶
关联规则挖掘（Association Rule）
在数据挖掘的知识模式中，关联规则模式是比较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami
提出，是数据中一种简单但很实用的规则。
在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知
表示A出现和B出现是负相关的。
若 I(A B ) >1
表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。
一条规则的兴趣度越大于1说明我们对这条规
则越感兴趣（即其实际利用价值越大）；
一条规则的兴趣度越小于1说明我们对这条规
则的反面规则越感兴趣（即其反面规则的实际利用价值越大）；
关联规则分析拓展
1）商业销售上，如何通过交叉销售得到更大的收

入？ 2）保险方面，如何分析索赔要求发现潜在的欺诈行为？ 3）银行方面，如何分析顾客消费行业，以便有针对性地向其推荐感兴趣的服务？ 4）哪些制造零件和设备设置与故障事件关联？ 5）哪些病人和药物属性与结果关联？ 6）哪些商品是已经购买商品A的人最有可能购买的？

e商务文档

关联规则挖掘

相关文档推荐：