关联分析基本概念与算法
候选的产生与剪枝
Fk 1 Fk 1方法
– 这种方法合并一对频繁(k-1)-项集,仅当它们的前k2个项都相同。 如频繁项集{面包,尿布}和{面包,牛奶}合并,形成了 候选3-项集{面包,尿布,牛奶}。算法不会合并项集{啤 酒,尿布}和{尿布,牛奶},因为它们的第一个项不相 同。 – 然而,由于每个候选都由一对频繁(k-1)-项集合并而 成,因此,需要附加的候选剪枝步骤来确保该候选的 其余k-2个子集是频繁的。
Brute-force 方法:
– 把格结构中每个项集作为候选项集
– 将每个候选项集和每个事务进行比较,确定每个候选项集 的支持度计数。
Transactions
TID 1 2 3 4 5 Items Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
Hash Structure
N
k
枚举事务t的所有包含3个项的子集
|T|
务中出现的频繁程度
2 0.4 5
(Milk, Diaper, Beer ) 2 c 0.67 (Milk , Diaper ) 3
关联规则挖掘问题
关联规则挖掘问题:给定事务的集合 T, 关联规则 发现是指找出支持度大于等于 minsup并且置信度 大于等于minconf的所有规则, minsup和minconf是 对应的支持度和置信度阈值 挖掘关联规则的一种原始方法是:Brute-force approach:
定义: 关联规则(Association Rule)
关联规则 – 关联规则是形如 X Y的蕴含表达 式, 其中 X 和 Y 是不相交的项集
TID
Items
1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
先验原理( Apriori principle)
先验原理:
– 如果一个项集是频繁的,则它的所有子集一定也是频繁 的
相反,如果一个项集是非频繁的,则它的所有超集 也一定是非频繁的:
– 这种基于支持度度量修剪指数搜索空间的策略称为基于 支持度的剪枝(support-based pruning)
– 这种剪枝策略依赖于支持度度量的一个关键性质,即一 个项集的支持度决不会超过它的子集的支持度。这个性 质也称为支持度度量的反单调性(anti-monotone)。
候选的产生与剪枝
候选的产生与剪枝
– 避免产生重复的候选项集的一种方法是确保每 个频繁项集中的项以字典序存储,每个频繁( k-1)-项集X只用字典序比X中所有的项都大的 频繁项进行扩展 如:项集{面包,尿布}可以用项集{牛奶}扩展, 因为“牛奶”(milk)在字典序下比“面包” (Bread)和“尿布”(Diapers)都大。 – 尽管这种方法比蛮力方法有明显改进,但是仍 然产生大量不必要的候选。 例如,通过合并{啤酒,尿布}和{牛奶}而得到的 候选是不必要的。因为它的子集{啤酒,牛奶} 是非频繁的。
List of Candidates
N
M
w
– 时间复杂度 ~ O(NMw),这种方法的开销可能非常大。
降低产生频繁项集计算复杂度的方法
减少候选项集的数量 (M)
– 先验(apriori)原理
减少比较的次数 (NM)
– 替代将每个候选项集与每个事务相匹配,可以使用更高 级的数据结构,或存储候选项集或压缩数据集,来减少 比较次数
Transactions
TID 1 2 3 4 5 Items Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
Buckets
频繁项集产生(Frequent Itemset Generation)
格结构(lattice structure)
A B null
C
D
E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
频繁项集产生(Frequent Itemset Generation)
TID
1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
Rules Discovered:
{Diaper} --> {Beer}
1. 频繁项集产生(Frequent Itemset Generation)
–
其目标是发现满足最小支持度阈值的所有项集,这些项集称 作频繁项集。
2. 规则的产生(Rule Generation)
–
其目标是从上一步发现的频繁项集中提取所有高置信度的规 则,这些规则称作强规则(strong rule)。
候选的产生与剪枝
Fk 1 F1方法 – 这种方法用其他频繁项来扩展每个频繁(k-1)-项集
– 这种方法将产生 O(| Fk 1 | | F1 |) 个候选k-项集,其中|Fj|表 示频繁j-项集的个数。这种方法总复杂度是O(k k | Fk 1 || F1 |) – 这种方法是完全的,因为每一个频繁k-项集都是由一个 频繁(k-1)-项集和一个频繁1-项集组成的。因此,所 有的频繁k-项集是这种方法所产生的候选k-项集的一部 分。 – 然而,这种方法很难避免重复地产生候选项集。 如:{面包,尿布,牛奶}不仅可以由合并项集{面包, 尿布}和{牛奶}得到,而且还可以由合并{面包,牛奶}和 {尿布}得到,或由合并{尿布,牛奶}和{面包}得到。
例子
null
A
B
C
D
E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
非频繁项集
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD
ABCE
ABDE
ACDE
BCDE
被剪枝的 超集
ABCDE
Apriori算法的频繁项集产生
TID
Items
1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
Itemset {Bread,Milk} {Bread,Beer} {Bread,Diaper} {Milk,Beer} {Milk,Diaper} {Beer,Diaper}
Count 3 2 3 2 3 3
Pairs (2-itemsets)
Triplets (3-itemsets)
Itemset {Bread,Milk,Diaper} Count 3
– 例子: {Milk, Diaper} {Beer}
关联规则的强度 – 支持度 Support (s)
确定项集的频繁程度
Example:
{Milk, Diaper} Beer
s
– 置信度 Confidence (c)
确定Y在包含X的事
(Milk , Diaper, Beer )
定义: 频繁项集(Frequent Itemset)
项集(Itemset) – 包含0个或多个项的集合
例子: {Milk, Bread, Diaper}
TID Items
– k-项集
如果一个项集包含k个项
1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
关联分析: 基本概念和算法
第6章 关联分析: 基本概念和算法
定义:关联分析(association analysis)
关联分析用于发现隐藏在大型数据集中的令人感 兴趣的联系,所发现的模式通常用关联规则或频 繁项集的形式表示。 关联分析可以应用于生物信息学、医疗诊断、网 页ຫໍສະໝຸດ 掘、科学数据分析等Items
Apriori算法的频繁项集产生
Item Bread Coke Milk Beer Diaper Eggs Count 4 2 4 3 4 1
Items (1-itemsets)
支持度阈值=60% 最小支持度计数 = 3
枚举所有项集将产生 6C + 6C + 6C = 41个候选 1 2 3 而使用先验原理,将较少为 6 + 6 + 1 = 13
候选的产生与剪枝
支持度计数
支持度计数过程确定在apriori-gen函数的候选项剪 枝步骤保留下来的每个候选项集出现的频繁程度。 计算支持度的主要方法: