当前位置:文档之家› 发现数据中的关联特征

发现数据中的关联特征

《R语言数据挖掘方法及应用》
关联分析
关联分析是揭示数据内在结构特征的重要手段 关联分析的目的就是基于已有数据,找到事物间的简
单关联关系或序列关联关系 数据挖掘中,关联分析成果(即关联关系)的核心体
现形式是关联规则(Association Rule) 简单关联规则 序列关联规则
《R语言数据挖掘方法及应用》
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有实际意义 例:牛奶性别(男)(S=40%,C=40%)。 在最小置信度和支持度为20%时该规则是一条 有效规则
规则反映的是一种前后项无关联下的随机性 关联,没有提供更有意义的指导性信息
《R语言数据挖掘方法及应用》
频繁1-项集、频繁k-项集、最大频繁k-项集
《R语言数据挖掘方法及应用》
简单关联规则:Apriori算法
Apriori算法包括 第一,搜索频繁项集 搜索频繁项集:采用迭代方式逐层找到上层的 超级,并在超级中发现频繁项集。如此反复, 直到最顶层得到最大频繁项集为止
《R语言数据挖掘方法及应用》
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类
简单关联规则:Apriori算法
Apriori算法包括 第一,搜索频繁项集,每次迭代均包含两个步骤 第一,产生候选集Ck 第二,修剪候选集Ck
《R语言数据挖掘方法及应用》
简单关联规则:Apriori算法
Apriori算法包括 第二,依据频繁项集合产生关联规则 从频繁项集中产生所有简单关联规则,选择置 信度大于用户指定最小置信度阈值的关联规则, 组成有效规则集合
规则支持度:测度了简单关联规则应用的普适性, 定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的有效性评价 一个有效的简单关联规则应具有较高的置信度和较 高的支持度 大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持 度与统计中的列联表密切相关
规则提升度反映了项目X的出现对项目Y(研究 项)出现的影响程度
有实用价值的简单关联规则应是规则提升度大 于1的规则,意味着X的出现对Y的出现有促进 作用。规则提升度越大越好
《R语言数据挖掘方法及应用》
简单关联规则:Apriori算法
Apriori算法包括 第一,搜索频繁项集 频繁项集是指:对包含项目A的项集C,其支持 度大于等于用户指定的最小支持度,称C(A)为 频繁项集
《R语言数据挖掘方法及应用》
案例说明
• 案例二:有一份关于2000名网民浏览网页的历史记 录数据。包括:网民ID,浏览时间的前后次序(如 1,2,3等),浏览的网页类型。 • 现希望利用该数据,研究网民网页浏览的规律或习 惯,本质是发现网民浏览页面在时间上的前后关联 性,是网页内容推送的重要依据之一
简单关联规则及其测度
简单关联规则
例:面包牛奶(S=85%,C=90%) 例:性别(女) ∩ 收入(>5000)品牌(A)(S=80%,
C=85%)
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的有效性评价 规则置信度:是对简单关联规则准确度的测量,定 义为包含项目X的事务中同时也包含项目Y项的概 率,反映X出现条件下Y出现的可能性
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有指导意义 例:成绩(优异)早餐(吃)(S=30%, C=60%),在最小置信度和支持度为20%时该 规则是一条有效规则
规则没有指导意义
《R语言数据挖掘方法及应用》
简单关联规则及其测度
简单关联规则的实用性评价 规则的提升度(Lift)定义为:规则置信度与后项支 持度之比
《R语言数据挖掘方法及应用》
Apriori算法的R实现步骤
建立事务数据集对象:事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式
,cols=数值或字符向量,sep=分割符)
搜索频繁项集,生成有效的简单关联规则
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE,
by=排序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
《R语言数据挖掘方法及应用》
简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名 ,method="graph",control=list(mailot(x=关联规则类对象名,method=图类型名,control= 控制参数)
《R语言数据挖掘方法及应用》
Eclat算法
Eclat算法与Apriori算法的思路类似,特色在于:基 于对等类(equivalence class),采用上述自底向上的搜索 策略, 只需访问很少次的数据集便可确定最大频繁项 集 例:
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集 简单关联分析的分析对象是事务(Transaction)。事务可
理解为一种商业行为,含义极为宽泛 事务通常由事务标识(TID)和项目集合X组成。
事务标识是确定一个事务的唯一标识;项目集合简 称项集,是一组项目的集合
《R语言数据挖掘方法及应用》
案例说明
• 案例一:一份超市顾客的购物篮数据,有两部分内容 。第一部分是1000名顾客的个人信息(共7个变量) 第二部分是这1000名顾客一次购买商品的信息,均 为二分类型变量,取值1表示购买,0表示未购买。基 于该数据希望完成两项任务: • 第一,找到有较大可能连带销售的商品,本质是发 现不同商品购买的关联性问题 • 第二,对比不同性别和年龄段顾客的啤酒选择性倾 向,本质是发现顾客特征与商品购买间的关联性
相关主题