当前位置:文档之家› 关联规则挖掘

关联规则挖掘

▪ 兴趣度I不小于0。

▪ 设交易集D,经过对D的分析,得到表格:
买牛奶 不买牛奶
合计
买咖啡 20 70 90
不买咖啡
合计
5
25
5
75
10
100
所有可能的关联规则
Rules
S
C
1
买牛奶→买咖啡
0.2
0.8
2
买咖啡→买牛奶
0.2
0.22
3
买牛奶→不买咖啡
0.05
0.2
4
不买咖啡→买牛奶
0.05
0.5
▪ 定义2:规则的支持度。
Customer buys beer
▪ 支持度描述了A 和B 这两个物品集在所有的 事务中同时出现的概率有多大。
▪ 规则AB在数据库D中具有支持度S,即概
率P(AB),即:S(A B) P(AB) | AB |

|D|
▪ 其中|D|表示事务数据库D的个数,表示A、 B两个项集同时发生的事务个数。
2关联规则挖掘
▪ 在关联规则的三个属性中,支持度和可信 度能够比较直接形容关联规则的性质
▪ 事实上,人们一般只对满足一定的支持度 和可信度的关联规则感兴趣。
▪ 因此,为了发现有意义的关联规则,需要 由用户给定两个阈值:
最小支持度(min_sup)和最小可信度 (min_conf)
频繁项集
▪ 如果项集满足最小支持度,则它称之为 频繁项集(Frequent Itemset)。
▪ 更确切的说,关联规则通过量化的数字描述物 品甲的出现对物品乙的出现有多大的影响
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数 据,这些数据是一条条的购买事务记录,每条记录存储 了
事务处理时间, 顾客购买的物品、 物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:在购买铁 锤的顾客当中,有70 %的人同时购买了铁钉。
▪ 显然支持度越大,关联规则越重要。有些 关联规则可信度虽然很高,但支持度却很 低,说明该关联规则实用的机会很小,因 此也不重要。
支持度 可信度
理解:关联分析中的三个重要的概念
举例:
10000个人购买了产品,其中购买A产品的人是1000个,购买 B产品的人是2000个,AB同时购买的人是800个。
▪ 兴趣度也称为作用度(Lift),表示关联规 则A→B的“提升”。如果作用度(兴趣度) 不大于1,则此关联规则就没有意义了。
小结
▪ 作用度描述了物品集A 对物品集B 的影响力 的大小。
▪ 作用度越大,说明物品集B 受物品集A 的影 响越大。
▪ 一般情况,有用的关联规则的作用度都应 该大于1,说明A 的出现对B 的出现有促进 作用,也说明了它们之间某种程度的相关 性,如果作用度不大于1,则此关联规则也 就没有意义了。
▪ 设A是I中一个项集,如果AT,那么称事务T 包含A。
▪ 定义1:关联规则是形如AB的蕴涵式, 这里AI,BI,并且AB=。
度量规则的指标
▪ 支持度(support) ▪ 可信度(confidence) ▪ 作用度/兴趣度(Lift)
支持度
Customer buys both
Customer buys diaper
▪ 跟尿不湿一起购买最多的商品竟是啤酒”!这 是数据挖掘技术对历史数据进行分析的结果, 反映的是数据的内在规律。
▪ 那么这个结果符合现实情况吗?是否是一个有 用的知识?是否有利用价值?
3
尿不湿和啤酒
▪ 经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒” 背后的美国消费者的一种行为模式:
▪ 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工 作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生 这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班 后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢 的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又 去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃 尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果 是得到了尿不湿与啤酒的销售量双双增长。
可信度
▪ 定义3:规则的可信度
▪ 可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率
▪ 规则AB具有可信度C,表示C是条件概

率P(B|A),即:
C
(A
B)
P(B
|
AA|
▪ 其中 | A| 表示数据库中包含项集A的事务 个数。
小结
▪ 可信度是对关联规则的准确度的衡量,支 持度是对关联规则重要性的衡量。支持度 说明了这条规则在所有事务中有多大的代 表性。
▪ 4)哪些制造零件和设备设置与故障事件关联? ▪ 5)哪些病人和药物属性与结果关联? ▪ 6)哪些商品是已经购买商品A的人最有可能购买
的?
问题
如何从交易记录数据库或关系数据库的大量数 据中挖掘出关联规则知识?
什么样的关联规则才是最有意义的? 如何才能帮助挖掘过程尽快发现有价值的关联
知识?
1关联规则基本概念
5
不买牛奶→买咖啡
0.7
0.93
6
买咖啡→不买牛奶
0.7
0.78
7
不买牛奶→不买咖啡
0.05
0.067
8
不买咖啡→不买牛奶
0.05
0.2
I
0.89 0.89 2 2 1.037 1.037 0.67 0.87
▪ 讨论I1﹑I2﹑I3﹑I6共4条规则: ▪ 由于I1,I2<1, 在实际中它的价值不大; ▪ I3,I6>1,规则才有价值。
案例回顾
沃尔玛,请把蛋挞与飓风用品摆在一起
▪ 通过对历史交易记录这个庞大数据库进行 观察,沃尔玛注意到,每当季节性飓风来 临之前,不仅手电筒销量增加,而且美式 早餐含糖零食蛋挞销量也增加了。
▪ 因此每当季节性飓风来临时,沃尔玛就会 把蛋挞与飓风用品摆放在一起,从而增加 销量。
2
尿不湿和啤酒
▪ 超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。为 了能够准确了解顾客在其门店的购买习惯,沃 尔玛对其顾客的购物行为进行了购物篮关联规 则分析,从而知道顾客经常一起购买的商品有 哪些。
▪ 按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技 术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一 有价值的规律的。
4
美国折扣零售商塔吉特与怀孕预测
▪ 美国一名男子闯入他家附近的一家 美国零售连锁超市Target店铺(美国 第三大零售商塔吉特)进行抗议: “你们竟然给我17岁的女儿发婴儿尿 片和童车的优惠券。”
▪ 关联规则的挖掘一般分为两个过程: ▪ (1)找出所有的频繁项集:找出支持度大
于最小支持度的项集,即频繁项集。
▪ (2)由频繁项集产生(强)关联规则:根 据定义,这些规则必须满足最小支持度和 最小可信度。
Step one: 频繁项集
▪ 项集 –-- 任意项的集合 ▪ k-项集 –-- 包含k个项的项集 ▪ 频繁项集 –-- 满足最小支持度的项集 ▪ 若I包含m个项,那么可以产生多少个项集?
6
大数据分析核心手段、技术
▪ 数据处理 ▪ 数据挖掘 ▪ 模型预测
概念
数据挖掘(Data Mining) 是通过分析每个数据,从大量
数据中寻找其规律的技术,主要有数据准备、规律寻找 和规律表示3个步骤。 数据挖掘的任务有关联分析、聚类分析、分类分析、异 常分析、特异群组分析和演变分析等。
关联分析是指如果两个或多个事物之间存在一定的关联,
▪ 交易(transaction):定义I 为所有商品的集合,在这个 例子中I={B C M T}。每个非 空的I子集都成为一个交易。 所有交易构成交易数据库D。
关联规则
▪ 设 I={i1,i2,…,im}是项(Item)的集合。记D 为事务(Transaction)的集合(事务数据库), 事务T是项的集合,并且TI。
▪ 该公司找出了大概20多种与怀孕的关联物,给顾客进行 “怀孕趋势”评分
▪ 这些数据甚至使得零售商能够比较准确地预测预产期, 这样就能够在孕期的每个阶段给客户寄送相应的优惠券
▪ Target能够通过分析女性客户购买记录,“猜出”哪些 是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕 高度相关的商品,制作“怀孕预测”指数。比如他们发 现女性会在怀孕四个月左右,大量购买无香味乳液。以 此为依据推算出预产期后,就抢先一步将孕妇装、婴儿 床等折扣券寄给客户来吸引客户购买。
关联规则挖掘(Association Rule)
▪ 在数据挖掘的知识模式中,关联规则模式是比 较重要的一种。
▪ 关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。
▪ 在数据库的知识发现中,关联规则就是描述这 种在一个事务中物品之间同时出现的规律的知 识模式。
购物篮分析
“啤酒和尿布”的故事是营销届的神话, “啤酒”和“尿布”两个看上去没有关系的 商品摆放在一起进行销售、并获得了很好的 销售收益,这种现象就是卖场中商品之间的 关联性。
研究“啤酒与尿布”关联的方法就是购物 篮分析,购物篮分析是沃尔玛秘而不宣的独 门武器,购物篮分析可以帮助我们在门店的 销售过程中找到具有关联关系的商品,并以 此获得销售收益的增长!
这些关联规则很有价值,商场管理人员可以根据这些 关联规则更好地规划商场,如把铁锤和铁钉这样的商品 摆放在一起,能够促进销售。
关联规则分析拓展
▪ 1)商业销售上,如何通过交叉销售得到更大的收 入?
▪ 2)保险方面,如何分析索赔要求发现潜在的欺诈 行为?
▪ 3)银行方面,如何分析顾客消费行业,以便有针 对性地向其推荐感兴趣的服务?
相关主题