当前位置:文档之家› 关联规则分析及应用 ppt课件

关联规则分析及应用 ppt课件


14
2020/11/13
二、关联规则挖掘过程
如果最小置信度阈值为70%,那么只有第2、3、6个规 则可以作为最终的结果输出,因为只有这些是产生的 强关联规则。
I1 I5 I2, I2 I5 I1,
I5 I1 I2,
confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%
In(n=1,2,…) 指具体项目,如 购物篮分析中:
I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒
Support-count(I1)=6
一、基本概念
❖关联规则:形如 A => B 的蕴涵式,其中A ⊂I , B⊂I,并且 A∩B =ф。
❖ 支持度:关联规则在D中的支持度(support)是D中事 务同时包含A、B的百分比,即概率。[规则代表性、 重要性衡量]
生成强关联规则
min_conf
用户
规则评价
11
2020/11/13
二、关联规则挖掘过程
关联规则挖掘举例:
假定数据包含频繁项集
M={I1,I2,I5}。可以由M
产生哪些关联规则?
12
2020/11/13
二、关联规则挖掘过程
❖ M 的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、
{I1}、{I2}和{I5}。则结果关联规则如下,每个都
17
2020/11/13
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型:布尔型关联规则处理的值都是离散的、种
15
2020/11/13
二、关联规则挖掘过程
对强关联规则的批评:
eg:
项目 喝麦片 不喝麦片 合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
列出置信度。
项集
支持度计

项集 支持度 {I1,I2}
4
计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I1,I3}
4
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
项集
支持度 计数
{I1,I2,I3} 2
{I1,I2,I5} 2
{I5}
2
{I2,I5}
2
13
2020/11/13
二、关联规则挖掘过程
5
2020/11/13
绪论
6
2020/11/13
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
• “不怕太阳晒,也不怕那风雨狂,只怕先生骂我 笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”
绪论
在购买铁锤的顾客当中,有70%的人同时 购买了铁钉。
年龄在40 岁以上,工作在A区的投保人当 中,有45%的人曾经向保险公司索赔过。
在超市购买面包的人有70%会购买牛奶
❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
10
2020/11/13
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
Data Mining
关联规则分析及应用
2020/11/13
1
目录
1
基本概念
2
关联规则挖掘过程
3
分类
4
关联规则的价值衡量
5
挖掘算法
6
关联规则的应用
2
2020/11/13
精品资料
• 你怎么称呼老师?
• 如果老师最后没有总结一节课的重点的难点,你 是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
9
2020/11/13
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
P(AB) I(A B)= P(A)P(B) ✓若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; ✓若I(A B)<1,表示A出现和B出现是负相关的。 ✓若I(A B)>1,表示A出现和B出现是正相关的。意味 着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。
数就是整个数据集中包含该项集的事务数。
7
2020/11/13
一、基本概念
TID
001
002
T
003
004
005
006
007
008
009
D
Items
I1、I2、I5 I2、I4
A I2、I3
I1、I2、I4 I1、I3
B I2、I3
I1、I3 I1、I2、I3、I5
I1、I2、I3
8
2020/11/13
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
➢ 打篮球 => 不喝麦片粥 [20%, 33.3%]这个规则远比上面 那个要精确,尽管支持度和置信度都要低的多。
16
2020/11/13
二、关联规则挖掘过程
兴趣度(作用度):I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %
相关主题