当前位置：文档之家› 《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析：揭示数据

《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析：揭示数据

简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名,method="graph",control=list(main= 图形主标题))
可视化简单关联规则
plot(x=关联规则类对象名,method=图类型名,control=控制参数)
Eclat算法
Eclat算法与Apriori算法的思路类似，特色在于：基于对等类（equivalence class），采用上述自底向上的搜索策略，只需访问很少次的数据集便可确定最大频繁项集例：
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价规则的提升度（Lift）定义为：规则置信度与后项支持度之比
规则提升度反映了项目X的出现对项目Y（研究项）出现的影响程度
有实用价值的简单关联规则应是规则提升度大于1的规则，意味着X的出现对Y的出现有促进作用。规则提升度越大越好
第十章
R的关联分析：揭示数据关联性
学习目标
• 理论方面，理解简单关联和时序关联的含义，各种关联算法的特点、核心原理和基本实现思路，掌握不同方法的适用性和应用场景
• 实践方面，掌握R的各种关联算法实现、应用以及结果解读，能够正确运用不同关联算法解决找到实际数据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段关联分析的目的就是基于已有数据，找到事物间的简
事务标识是确定一个事务的唯一标识；项目集合简称项集，是一组项目的集合
简单关联规则及其测度
简单关联规则
例：面包牛奶（S=85%，C=90%）例：性别(女) ∩ 收入(>5000)品牌(A)（S=80%，C=85%）
简单关联规则及其ቤተ መጻሕፍቲ ባይዱ度
简单关联规则的有效性评价规则置信度：是对简单关联规则准确度的测量，定义为包含项目X的事务中同时也包含项目Y项的概率，反映X出现条件下Y出现的可能性
序列关联分析（也称时序关联分析）研究的目的是要从所收集到的众多事务序列中，发现某个事务序列连续出现的规律，找到事务发展的前后关联性。这种前后关联性通常与时间有关
序列关联分析
序列关联中的基本概念序列关联研究的对象事务序列
序列关联规则：（X）Y（S=s%，C=c%）
序列关联分析
生成序列关联规则第一，搜索频繁事务序列频繁事务序列是指，事务序列的支持度大于等于用户指定的最小支持度的序列第二，依据频繁事务序列生成序列关联规则
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类对项名
,confidence=0.8)
简单关联分析应用：商品推荐
发现连带销售商品顾客选择性倾向对比
序列关联分析
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有实际意义例：牛奶性别（男）（S=40%，C=40%）。在最小置信度和支持度为20%时该规则是一条有效规则
规则反映的是一种前后项无关联下的随机性关联，没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有指导意义例：成绩(优异)早餐(吃)（S=30%，C=60%），在最小置信度和支持度为20%时该规则是一条有效规则
单关联关系或序列关联关系数据挖掘中，关联分析成果（即关联关系）的核心体
现形式是关联规则（Association Rule）简单关联规则序列关联规则
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集简单关联分析的分析对象是事务（Transaction）。事务可理
解为一种商业行为，含义极为宽泛事务通常由事务标识（TID）和项目集合X组成。
Apriori算法
Apriori算法包括第一，搜索频繁项集，每次迭代均包含两个步骤第一，产生候选集Ck 第二，修剪候选集Ck
Apriori算法
Apriori算法包括第二，依据频繁项集合产生关联规则从频繁项集中产生所有简单关联规则，选择置信度大于用户指定最小置信度阈值的关联规则，组成有效规则集合
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE, by=排
序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
Apriori算法的R实现步骤
建立事务数据集对象：事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式,cols=数
值或字符向量,sep=分割符)
Apriori算法的R实现步骤
搜索频繁项集，生成有效的简单关联规则
SPADE算法
SPADE算法采用纵向id列表（Vertical id-list）形式组织事务序列，基于对等类的候选序列组合，只需很少次的数据集扫描即可得到频繁k-序列
纵向id列表
Apriori算法
Apriori算法包括第一，搜索频繁项集频繁项集是指：对包含项目A的项集C，其支持度大于等于用户指定的最小支持度，称C(A)为频繁项集
频繁1-项集、频繁k-项集、最大频繁k-项集
Apriori算法
Apriori算法包括第一，搜索频繁项集搜索频繁项集：采用迭代方式逐层找到上层的超级，并在超级中发现频繁项集。如此反复，直到最顶层得到最大频繁项集为止
规则支持度：测度了简单关联规则应用的普适性，定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价一个有效的简单关联规则应具有较高的置信度和较高的支持度大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持度与统计中的列联表密切相关

e商务文档

《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析：揭示数据

相关文档推荐：