当前位置：文档之家› 发现数据中的关联特征

发现数据中的关联特征

《R语言数据挖掘方法及应用》
关联分析
关联分析是揭示数据内在结构特征的重要手段关联分析的目的就是基于已有数据，找到事物间的简
单关联关系或序列关联关系数据挖掘中，关联分析成果（即关联关系）的核心体
现形式是关联规则（Association Rule）简单关联规则序列关联规则
《R语言数据挖掘方法及应用》
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有实际意义例：牛奶性别（男）（S=40%，C=40%）。在最小置信度和支持度为20%时该规则是一条有效规则
规则反映的是一种前后项无关联下的随机性关联，没有提供更有意义的指导性信息
《R语言数据挖掘方法及应用》
频繁1-项集、频繁k-项集、最大频繁k-项集
《R语言数据挖掘方法及应用》
简单关联规则：Apriori算法
Apriori算法包括第一，搜索频繁项集搜索频繁项集：采用迭代方式逐层找到上层的超级，并在超级中发现频繁项集。如此反复，直到最顶层得到最大频繁项集为止
《R语言数据挖掘方法及应用》
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类
简单关联规则：Apriori算法
Apriori算法包括第一，搜索频繁项集，每次迭代均包含两个步骤第一，产生候选集Ck 第二，修剪候选集Ck
《R语言数据挖掘方法及应用》
简单关联规则：Apriori算法
Apriori算法包括第二，依据频繁项集合产生关联规则从频繁项集中产生所有简单关联规则，选择置信度大于用户指定最小置信度阈值的关联规则，组成有效规则集合
规则支持度：测度了简单关联规则应用的普适性，定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的有效性评价一个有效的简单关联规则应具有较高的置信度和较高的支持度大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持度与统计中的列联表密切相关
规则提升度反映了项目X的出现对项目Y（研究项）出现的影响程度
有实用价值的简单关联规则应是规则提升度大于1的规则，意味着X的出现对Y的出现有促进作用。规则提升度越大越好
《R语言数据挖掘方法及应用》
简单关联规则：Apriori算法
Apriori算法包括第一，搜索频繁项集频繁项集是指：对包含项目A的项集C，其支持度大于等于用户指定的最小支持度，称C(A)为频繁项集
《R语言数据挖掘方法及应用》
案例说明
• 案例二：有一份关于2000名网民浏览网页的历史记录数据。包括：网民ID，浏览时间的前后次序（如 1,2,3等），浏览的网页类型。 • 现希望利用该数据，研究网民网页浏览的规律或习惯，本质是发现网民浏览页面在时间上的前后关联性，是网页内容推送的重要依据之一
简单关联规则及其测度
简单关联规则
例：面包牛奶（S=85%，C=90%）例：性别(女) ∩ 收入(>5000)品牌(A)（S=80%，
C=85%）
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的有效性评价规则置信度：是对简单关联规则准确度的测量，定义为包含项目X的事务中同时也包含项目Y项的概率，反映X出现条件下Y出现的可能性
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有指导意义例：成绩(优异)早餐(吃)（S=30%， C=60%），在最小置信度和支持度为20%时该规则是一条有效规则
规则没有指导意义
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的实用性评价规则的提升度（Lift）定义为：规则置信度与后项支持度之比
《R语言数据挖掘方法及应用》
Apriori算法的R实现步骤
建立事务数据集对象：事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式
,cols=数值或字符向量,sep=分割符)
搜索频繁项集，生成有效的简单关联规则
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE,
by=排序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
《R语言数据挖掘方法及应用》
简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名 ,method="graph",control=list(mailot(x=关联规则类对象名,method=图类型名,control= 控制参数)
《R语言数据挖掘方法及应用》
Eclat算法
Eclat算法与Apriori算法的思路类似，特色在于：基于对等类（equivalence class），采用上述自底向上的搜索策略，只需访问很少次的数据集便可确定最大频繁项集例：
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集简单关联分析的分析对象是事务（Transaction）。事务可
理解为一种商业行为，含义极为宽泛事务通常由事务标识（TID）和项目集合X组成。
事务标识是确定一个事务的唯一标识；项目集合简称项集，是一组项目的集合
《R语言数据挖掘方法及应用》
案例说明
• 案例一：一份超市顾客的购物篮数据，有两部分内容。第一部分是1000名顾客的个人信息（共7个变量）第二部分是这1000名顾客一次购买商品的信息，均为二分类型变量，取值1表示购买，0表示未购买。基于该数据希望完成两项任务： • 第一，找到有较大可能连带销售的商品，本质是发现不同商品购买的关联性问题 • 第二，对比不同性别和年龄段顾客的啤酒选择性倾向，本质是发现顾客特征与商品购买间的关联性

e商务文档

发现数据中的关联特征

相关文档推荐：