当前位置:
文档之家› 商务智能理论与应用7-关联规则
商务智能理论与应用7-关联规则
如,日本7-11相当著名的“七五三”规则。即是说 如果一天当中温度相差7度、今天和昨天的温度 差到5度、湿度差大于30%的话,代表感冒的人会 增加,药店就要考虑把感冒药、温度计和口罩之 类的用品上架。
2020/9/2
三、 关联规则的挖掘
2020/9/2
(一)关联规则挖掘的步骤
第一步:找出所有频繁项集:根据定义, 这些项集出现的频繁性(支持度)至少和 预定义的最小支持度一样。
2020/9/2
二、关联规则的分类与作用
1、关联规则的分类
2020/9/2
布尔型关联规则与数值型关联规则
布尔型关联规则处理的值都是离散的、种类化的,它 显示了这些变量之间的关系;
数值型关联规则可以和多维关联或多层关联规则结合 起来,对数值型字段进行处理,将其进行动态的分割 ,或者直接对原始的数据进行处理,当然数值型关联 规则中也可以包含种类变量。
买啤酒的 客户
买尿布的客户
A
A∩B B
二者都买 20的20/9客/2 户
1、置信度
置信度confidence(.):是指购物篮分析 中有了左边商品,同时又有右边商品的交 易次数百分比,也就是说在所有的购买了 左边商品的交易中,同时又购买了右边商 品的交易概率。
2020/9/2
2、支持度
支持度sup(.):表示在购物篮分析中同时 包含关联规则左右两边物品的交易次数百 分比,即支持这个规则的交易的次数百分 比。
最小支持度:规则必须符合的最小支持度阀 值。
最小置信度:计算规则所必须符合的最低置 信度阀值。
➢如果关联规则满足最小支持度和最小置信度 ,可以说该规则是有趣的。
2020/9/2
2、频繁项集
项的集合称为项集(itemset) 包含k个项的项集称为k-项集。集合{计算
机,金融管理软件}就是一个2-项集。 项集出现频数是包含项集的事务数,简称
2020/9/2
表3
运动鞋Y1
单独 购买
合计
球鞋Y11 慢跑鞋Y12
衬衣X1
10 10
上衣X 外套 夹克X21
1
X2 滑雪衫X22
1
0
0
1
898Leabharlann 0 899单独购买 合计0
90
0 90
2
988
10 1000
存在的问题:
1.高置信度,低支持度: 夹克球鞋”的置信度高达100%,但因
为只有一人买了球鞋,这条关联规则支持 度只有千分之一。 2.支持度、置信度都比较高,但几乎是没 有作用的规则。 “买方便面则买牛奶”,“买牙刷则买牛 奶”,“喜欢野外休闲则会买牛奶”。
第二步:由频繁项集产生强关联规则:根 据定义,这些规则必须满足最小支持度和 最小置信度。
2020/9/2
(二)Apriori演算法
➢ 对于一个给定的候选数据集,项集的数目呈指数增长 。
2020/9/2
1、算法所需要的前置统计量:
➢关联规则计算虽然容易但由于规则太多容易 形成“组合爆炸”,因此,需要对这些规则进 行筛选,筛选需要的统计量如下:
真正可取的规则具备的条件
并非所有的规则在符合阀值限制后都是有意义 的,这样的规则还分为: 有用的规则:包含高品质的有效情报 常识 无法解释的结果
关联规则真正可取的是具备以下两个条件的规 则: 人们常识之外、意料之外的关联 该规则必须具有潜在的作用
2020/9/2
5、案例
2020/9/2
2020/9/2
如果关联规则中的项或属性每个只涉及一个维,则 它是单维关联规则;反之,为多维关联规则。 如,计算机→财务软件; 年龄30~39岁、月收入4000元以上→高清电视
如果在给定的规则集中,规则不涉及不同抽象层的 项或属性,就称单层关联规则;反之,称多层。
2020/9/2
2、关联规则的作用
2020/9/2
例:
➢对于规则A C
➢support = support({A, C}) = 50% ➢confidence = support({A, C})/support({A}) = 66.6%
2020/9/2
表1
交易项目 夹克,球鞋 滑雪衫,球鞋 夹克,滑雪衫,球鞋 球鞋 慢跑鞋 夹克,慢跑鞋 滑雪衫,慢跑鞋 衬衣 夹克 滑雪衫 合计
关联规则与时序规则相结合(不能匿名,适合会员制)。
先找出来哪些事务总是同时发生的关联规则,再加入时间的 因素,找出哪些事务总是会先后发生的潜在规律。
2020/9/2
另外,只有同一个购物篮的商品信息能够分析的项 目也很有限,因此,可以将气象资讯(温度、湿度 、降雨)等转换为虚拟的商品项目,并入到购物篮 中进行关联规则的分析。
21001030个候选集
多次扫描数据库:
如果最长的模式是n的话,则需要(n+1)次数据库扫描
2020/9/2
(四)负关联规则挖掘
正确吗?
2020/9/2
为项集的频数、支持计数或计数。
2020/9/2
如果项集满足最小支持度或满足min_sup 与数据库中事务总数的乘积(即最小支持 计数),则称它为频繁项集(frequent itemset)。
频繁k-项集的集合通常记作Lk。
2020/9/2
例:
最小支持度 50% 最小可信度 50%
对于A C:
成交次数 300 100 100 50 40 100 200 10 40 60 1000
上衣 X
表2
衬衣X1 夹克X21
外套X2 滑雪衫 X22
单独购买
合计
运动鞋Y1
球鞋Y11
慢跑鞋 Y12
400
100
200
200
50
40
650
340
单独 购买
10 40 60
合计
10 540 460
1000
规则“夹克→球鞋”的计算
2020/9/2
(三)Apriori够快了吗? —性能瓶颈
Apriori算法的核心:
用频繁的(k– 1)-项集生成候选的频繁k-项集 用数据库扫描和模式匹配计算候选集的支持度
Apriori的瓶颈:候选集生成
巨大的候选集:
104个频繁1-项集要生成107个候选2-项集 要找尺寸为100的频繁模式,如{a1,a2, …,a100},你必须先产生
➢ 购物篮分析:关联规则就是要找出哪些产品总是会同时出 现在客户的购物篮中。
商品摆放,基于商店不同的经营理念,如果将会经常一起 购买的东西较近摆放,客户会比较方便购买,如果有意放 在购物通道的两端,顾客寻找的过程中可以增加其他物品 销售的可能性。
关联规则可以处理所谓的匿名消费。(一张发票就是一个 购物篮——与决策树和类神经网络不同。)
为什么只 有一项?
C3
扫描D L3
2020/9/2
Apriori——剪枝 频繁项集的任何子集也一定是频繁的。
例:L3={abc, abd, acd, ace, bcd} 连接: L3*L3
abcd from abc and abd
acde from acd and ace
修剪:
acde is removed because ade is not in L3
商务智能理论与应用7关联规则
2020/9/2
一、关联规则的定义
关联规则一般用以发现事务数据库中 不同商品(项)之间的联系,用这些 规则找出顾客的购买行为模式。
这种规则可以应用于超市商品货架设 计、货物摆放以及根据购买模式对用 户进行分类 。
2020/9/2
二、关联规则:基本概念
(一)支持度与置信度
它使用一种称作逐层搜索的迭代方法,k-项集用 于探索(k+1)-项集。首先,找出频繁1-项集的集合 。该集合记作L1。 L1用于找频繁2-项集的集合L2 ,而L2用于找L3,如此下去,直到不能找到频繁k项集。找每个Lk需要一次数据库扫描。
2020/9/2
例1
数据库D C1
L1
扫描D
C2
C2
L2
扫描D
2020/9/2
以例3为例,看其中一个频繁项集l={I1,I2,I5},可 以由l产生哪些关联规则?l的非空子集有 {I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。结果关联规则如 下,每个都列出了置信度。
如果最小置信度阀值为70%,则只有第2、3和最后 一个规则可以输出。
2020/9/2
C4={abcd}
2020/9/2
例3:
3、Apriori算法的实现过程
2020/9/2
4、由频繁项集产生关联规则
一旦找出频繁项集,再通过最小置信度产生关联 规则。
关联规则的产生步骤如下: 对于每个频繁项集l,产生l的所有非空子集。 对于l的每个非空子集s,如果
则输出规则“s→(l-s)”。
support = support({A、C}) = 50% confidence = support({A、C})/support({A}) = 66.6%
2020/9/2
4、Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则 频繁项集的算法。
算法的名字基于这样的事实:算法使用频繁项集 性质的先验知识。