当前位置:
文档之家› 《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析:揭示数据
《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析:揭示数据
简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名,method="graph",control=list(main= 图形主标题))
可视化简单关联规则
plot(x=关联规则类对象名,method=图类型名,control=控制参 数)
Eclat算法
Eclat算法与Apriori算法的思路类似,特色在于:基于 对等类(equivalence class),采用上述自底向上的搜索策略, 只需访问很少次的数据集便可确定最大频繁项集 例:
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价 规则的提升度(Lift)定义为:规则置信度与后项支 持度之比
规则提升度反映了项目X的出现对项目Y(研究 项)出现的影响程度
有实用价值的简单关联规则应是规则提升度大 于1的规则,意味着X的出现对Y的出现有促进作 用。规则提升度越大越好
第十章
R的关联分析:揭示数据 关联性
学习目标
• 理论方面,理解简单关联和时序关联的含义,各种关 联算法的特点、核心原理和基本实现思路,掌握不同 方法的适用性和应用场景
• 实践方面,掌握R的各种关联算法实现、应用以及结 果解读,能够正确运用不同关联算法解决找到实际数 据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段 关联分析的目的就是基于已有数据,找到事物间的简
事务标识是确定一个事务的唯一标识;项目集合简 称项集,是一组项目的集合
简单关联规则及其测度
简单关联规则
例:面包牛奶(S=85%,C=90%) 例:性别(女) ∩ 收入(>5000)品牌(A)(S=80%,C=85%)
简单关联规则及其ቤተ መጻሕፍቲ ባይዱ度
简单关联规则的有效性评价 规则置信度:是对简单关联规则准确度的测量,定 义为包含项目X的事务中同时也包含项目Y项的概 率,反映X出现条件下Y出现的可能性
序列关联分析(也称时序关联分析)研究的目的是要 从所收集到的众多事务序列中,发现某个事务序列连 续出现的规律,找到事务发展的前后关联性。这种前 后关联性通常与时间有关
序列关联分析
序列关联中的基本概念 序列关联研究的对象事务序列
序列关联规则:(X)Y(S=s%,C=c%)
序列关联分析
生成序列关联规则 第一,搜索频繁事务序列 频繁事务序列是指,事务序列的支持度大于等 于用户指定的最小支持度的序列 第二,依据频繁事务序列生成序列关联规则
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类对项名
,confidence=0.8)
简单关联分析应用:商品推荐
发现连带销售商品 顾客选择性倾向对比
序列关联分析
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有实际意义 例:牛奶性别(男)(S=40%,C=40%)。 在最小置信度和支持度为20%时该规则是一条有 效规则
规则反映的是一种前后项无关联下的随机性 关联,没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有指导意义 例:成绩(优异)早餐(吃)(S=30%,C=60%), 在最小置信度和支持度为20%时该规则是一条有 效规则
单关联关系或序列关联关系 数据挖掘中,关联分析成果(即关联关系)的核心体
现形式是关联规则(Association Rule) 简单关联规则 序列关联规则
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集 简单关联分析的分析对象是事务(Transaction)。事务可理
解为一种商业行为,含义极为宽泛 事务通常由事务标识(TID)和项目集合X组成。
Apriori算法
Apriori算法包括 第一,搜索频繁项集,每次迭代均包含两个步骤 第一,产生候选集Ck 第二,修剪候选集Ck
Apriori算法
Apriori算法包括 第二,依据频繁项集合产生关联规则 从频繁项集中产生所有简单关联规则,选择置 信度大于用户指定最小置信度阈值的关联规则, 组成有效规则集合
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE, by=排
序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
Apriori算法的R实现步骤
建立事务数据集对象:事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式,cols=数
值或字符向量,sep=分割符)
Apriori算法的R实现步骤
搜索频繁项集,生成有效的简单关联规则
SPADE算法
SPADE算法采用纵向id列表(Vertical id-list)形式组织事务 序列,基于对等类的候选序列组合,只需很少次的数 据集扫描即可得到频繁k-序列
纵向id列表
Apriori算法
Apriori算法包括 第一,搜索频繁项集 频繁项集是指:对包含项目A的项集C,其支持 度大于等于用户指定的最小支持度,称C(A)为 频繁项集
频繁1-项集、频繁k-项集、最大频繁k-项集
Apriori算法
Apriori算法包括 第一,搜索频繁项集 搜索频繁项集:采用迭代方式逐层找到上层的 超级,并在超级中发现频繁项集。如此反复, 直到最顶层得到最大频繁项集为止
规则支持度:测度了简单关联规则应用的普适性, 定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价 一个有效的简单关联规则应具有较高的置信度和较 高的支持度 大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持 度与统计中的列联表密切相关