关联规则挖掘
Mart)拥有世上最大的数据仓库系统之一。为 了能够准确了解顾客在其门店的购买习惯,沃 尔玛对其顾客的购物行为进行了购物篮关联规 则分析,从而知道顾客经常一起购买的商品有 哪些。 跟尿不湿一起购买最多的商品竟是啤酒”!这 是数据挖掘技术对历史数据进行分析的结果, 反映的是数据的内在规律。 那么这个结果符合现实情况吗?是否是一个有 用的知识?是否有利用价值?
交易(transaction):定义I
T09
T10
B C M T
B M T
为所有商品的集合,在这个 例子中I={B C M T}。每个非 空的I子集都成为一个交易。 所有交易构成交易数据库D。
关联规则
设
I={i1,i2,…,im}是项(Item)的集合。记D 为事务(Transaction)的集合(事务数据库), 事务T是项的集合,并且TI。 设A是I中一个项集,如果AT,那么称事务T 包含A。
的出现对物品集B 的出现有多大的影响。
定义4:兴趣度:
I ( A B)
P ( AB) P ( A) P ( B)
公式反映了项集A与项集B的相关程度。 若
I ( A B) 1 即 P( AB) P( A) P( B)
表示项集A出现和项集B是相互独立的。
若 I(A B ) <1
B:bread C:cream M:milk T:tea
项目(item):其中的B C M
T 都称作item。
项集(itemset):item的集合,
例如{B C}、{C M T}等,每 个顾客购买的都是一个项集。 其中,项集中item的个数称为 项集的长度,含有k个item的 项集成为K-itemset.
4
美国折扣零售商塔吉特与怀孕预测
美国一名男子闯入他家附近的一家
美国零售连锁超市Target店铺(美国 第三大零售商塔吉特)进行抗议: “你们竟然给我17岁的女儿发婴儿尿 片和童车的优惠券。”
店铺经理立刻向来者承认错误,但
是其实该经理并不知道这一行为是 总公司运行数据挖掘的结果。如图 所示。一个月后,这位父亲来道歉, 因为这时他才知道他的女儿的确怀 孕了。Target比这位父亲知道他女儿 怀孕的时间足足早了一个月。
为弱关联规则。
数据挖掘主要就是对强规则的挖掘。
3. 关联规则挖掘过程
关联规则的挖掘一般分为两个过程:
(1)找出所有的频繁项集:找出支持度大 于最小支持度的项集,即频繁项集。 (2)由频繁项集产生(强)关联规则:根 据定义,这些规则必须满足最小支持度和 最小可信度。
中,物品集B 也同时出现的概率 规则AB具有可信度C,表示C是条件概 率P(B|A),即: | AB |
C (A B) P( B | A) |A|
其中
| A|
表示数据库中包含项集A的事务
个数。
小结
可信度是对关联规则的准确度的衡量,支
持度是对关联规则重要性的衡量。支持度 说明了这条规则在所有事务中有多大的代 表性。
买的人数占总人数的比例,即800/10000=8%,有8%的用户 同时购买了A和B两个产品;
可信度
可信度指的是在购买了一个产品之后购买另外一个产品的可能
性,如购买了A产品之后购买B产品的可信度=800/1000=80%
作用度(兴趣度)
讨论两种事务的比较关系
AB
作用度是两种可能性的比较,描述物品集A
6
大数据分析核心手段、技术
数据处理 数据挖掘 模型预测
概念
数据挖掘(Data Mining) 是通过分析每个数据,从大量
数据中寻找其规律的技术,主要有数据准备、规律寻找 和规律表示3个步骤。 数据挖掘的任务有关联分析、聚类分析、分类分析、异 常分析、特异群组分析和演变分析等。
关联分析是指如果两个或多个事物之间存在一定的关联,
显然支持度越大,关联规则越重要。有些 关联规则可信度虽然很高,但支持度却很 低,说明该关联规则实用的机会很小,因
此也不重要。
理解:关联分析中的三个重要的概念
支持度
举例:
10000个人购买了产品,其中购买A产品的人是1000个,购买 B产品的人是2000个,AB同时购买的人是800个。 支持度指的是关联的产品(假定A产品和B产品关联)同时购
2关联规则挖掘
在关联规则的三个属性中,支持度和可信
度能够比较直接形容关联规则的性质
事实上,人们一般只对满足一定的支持度
和可信度的关联规则感兴趣。
因此,为了发现有意义的关联规则,需要 由用户给定两个阈值:
最小支持度(min_sup)和最小可信度
(min_conf)
频繁项集
如果项集满足最小支持度,则它称之为
3
尿不湿和啤酒
经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒” 背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工 作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生 这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班 后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢 的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又 去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃 尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果 是得到了尿不湿与啤酒的销售量双双增长。 按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技 术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一 有价值的规律的。
频繁项集(Frequent Itemset)。
强规则
定义5:强关联规则。
同时满足最小支持度(min_sup)和最小可 信度(min_conf)的规则称之为强关联规 则,即 S (A B) min_sup 且C(A B) min_conf
成立时,规则称之为强关联规则,否则称
支持度描述了A 和B 这两个物品集在所有的 事务中同时出现的概率有多大。
规则AB在数据库D中具有支持度S,即概
率P(AB),即: S (A B) P(AB) | AB |
|D|
其中|D|表示事务数据库D的个数,表示A、
B两个项集同时发生的事务个数。
可信度
定义3:规则的可信度 可信度就是指在出现了物品集A 的事务T
S
C
I
1 2 3 4 5 6 7 8
0.2 0.2 0.05 0.05 0.7 0.7 0.05 0.05
0.8 0.22 0.2 0.5 0.93 0.78 0.067 0.2
0.89 0.89 2 2 1.037 1.037 0.67 0.87
讨论I1﹑I2﹑I3﹑I6共4条规则: 由于I1,I2<1, 在实际中它的价值不大; I3,I6>1,规则才有价值。
识模式。
更确切的说,关联规则通过量化的数字描述物 品甲的出现对物品乙的出现有多大的影响
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数
据,这些数据是一条条的购买事务记录,每条记录存储 了
事务处理时间, 顾客购买的物品、 物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:在购买铁 锤的顾客当中,有70 %的人同时购买了铁钉。 这些关联规则很有价值,商场管理人员可以根据这些 关联规则更好地规划商场,如把铁锤和铁钉这样的商品 摆放在一起,能够促进销售。
5Leabharlann 美国折扣零售商塔吉特与怀孕预测
塔吉特公司能在不被清楚告知的情况下预测出一个女性
的怀孕情况 该公司找出了大概20多种与怀孕的关联物,给顾客进行 “怀孕趋势”评分 这些数据甚至使得零售商能够比较准确地预测预产期, 这样就能够在孕期的每个阶段给客户寄送相应的优惠券 Target能够通过分析女性客户购买记录,“猜出”哪些 是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕 高度相关的商品,制作“怀孕预测”指数。比如他们发 现女性会在怀孕四个月左右,大量购买无香味乳液。以 此为依据推算出预产期后,就抢先一步将孕妇装、婴儿 床等折扣券寄给客户来吸引客户购买。
兴趣度I不小于0。
例
设交易集D,经过对D的分析,得到表格:
买咖啡
买牛奶 不买牛奶 合计 20 70 90
不买咖啡
5 5 10
合计
25 75 100
所有可能的关联规则
Rules
买牛奶→买咖啡 买咖啡→买牛奶 买牛奶→不买咖啡 不买咖啡→买牛奶 不买牛奶→买咖啡 买咖啡→不买牛奶 不买牛奶→不买咖啡 不买咖啡→不买牛奶
关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比 较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami
提出,是数据中一种简单但很实用的规则。
在数据库的知识发现中,关联规则就是描述这 种在一个事务中物品之间同时出现的规律的知
表示A出现和B出现是负相关的。
若 I(A B ) >1
表示A出现和B出现是正相关的。意味着A的出现 蕴含B的出现。
一条规则的兴趣度越大于1说明我们对这条规
则越感兴趣(即其实际利用价值越大);
一条规则的兴趣度越小于1说明我们对这条规
则的反面规则越感兴趣(即其反面规则的实际 利用价值越大);
关联规则分析拓展
1)商业销售上,如何通过交叉销售得到更大的收
入? 2)保险方面,如何分析索赔要求发现潜在的欺诈 行为? 3)银行方面,如何分析顾客消费行业,以便有针 对性地向其推荐感兴趣的服务? 4)哪些制造零件和设备设置与故障事件关联? 5)哪些病人和药物属性与结果关联? 6)哪些商品是已经购买商品A的人最有可能购买 的?