当前位置:文档之家› 数据挖掘-基于关联的分类方法

数据挖掘-基于关联的分类方法


7.7.4 粗糙集方法
• 例子:
• 假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色 属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,蓝}三个大类,那么所有红颜色的积木 构成集合X1={x1,x2,x6},黄颜色的积木构成集合 X2={x3,x4},蓝颜色的积木是:X3={x5,x7,x8}。按 照颜色这个属性我们就把积木集合A进行了一个划 分(所谓A的划分就是指对于A中的任意一个元素必 然属于且仅属于一个分类),那么我们就说颜色属 性就是一种知识。
有最高置信度的规则作为可能规则(PR),代表该 集合
7.6 基于源于关联规则挖掘概念的分类
例如:
2挖.关掘联高支分持类度和高置Cyo信=uC度nd的se规t=则{a1,a2,a3,a4}
(1)找出所有频繁的,精确地可能规则(PR)集合。 算法使用迭代方法,类似于6.2.1小节介绍的Apriori 使用的方法,先验知识用于裁减规则搜索。 (2)使用一种启发式方法构造分类。这里,发现的 规则根据支持度和置信度按递减的优先次序组织。
繁殖(包括子代突变) 带有较高适应度值的那些染色体更可能产生后代( 后代产生后也将发生突变)。后代是父母的产物,他 们由来自父母的基因结合而成,这个过程被称为“杂 交”。
7.7.3 遗传算法
下一代 如果新的一代包含一个解,能产生一个充分接近或等
于期望答案的输出,那么问题就已经解决了。如果情况 并非如此,新的一代将重复他们父母所进行的繁衍过程 ,一代一代演化下去,直到达到期望的解为止。 并行计算
7.7.3 遗传算法
建初始状态 初始种群是从解中随机选择出来的,将这些解比喻
为染色体或基因,该种群被称为第一代,这和符号人 工智能系统的情况不一样,在那里问题的初始状态已 经给定了。 评估适应度
对每一个解(染色体)指定一个适应度的值,根据问 题求解的实际接近程度来指定(以便逼近求解问题的 答案)。不要把这些“解”与问题的“答案”混为一 谈,可以把它理解成为要得到答案,系统可能需要利 用的那些特性。 繁殖
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类)
• CAEP如何使用EP建立分类法?
• 在对一个新样本X分类时,对于每个类C,对出现在X 中的类C的EP的区分能力聚集,得到C的得分,然后 对得分规格化。具有最大规格化得分的类决定X的类 标号。
7.6基于源于关联规则挖掘概念的分 类
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则(ARCS)
• (1)ARCS挖掘形如Aquant1∧Aquant2=>Acat的 关联规则
• (2)用ARCS产生的聚类关联规则用于分类
age(X,”34”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (1)
• 如果案例用图描绘 • 这涉及搜索类似于新案例的子图。基于案例的推理
试图组合临近的训练案例,提出新案例的解。如
• 果解之间出现不相容,可能需要退回搜索其它解。 基于案例的推理可能使用背景知识和 Nhomakorabea题求解策
• 略,以便提出可行的组合解。 • 基于案例的推理存在的挑战包括找到一个好的相似
矩阵(例如,为匹配子图),开发对训练案 • 例索引的有效技术和组合解的方法。
(3)对一个新的样本进行分类时,满足该样本的第一 个规则用于对它分类。分类法也包含省缺规则,它具 有最低的优先次序,用来为不被分类法中其它规则满 足的新样本指定一个省缺的类。
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类) • 使用项集支持度挖掘显露模式(EP)构造分类。
非常容易将遗传算法用到并行计算和群集环境中。一 种方法是直接把每个节点当成一个并行的种群看待。然 后有机体根据不同的繁殖方法从一个节点迁移到另一个 节点。另一种方法是“农场主/劳工”体系结构,指定 一个节点为“农场主”节点,负责选择有机体和分派适 应度的值,另外的节点作为“劳工”节点,负责重新组 合、变异和适应度函数的评估。
7.7.5 模糊集方法
• 基于规则的分类系统有一个缺点:对于连续属性,它 们有陡峭的截断。
• IF(year_employed>=2)∧(income>=50K)THEN credit=“approved”(7.21)
• 根据规则(7.21),一个至少工作两年的顾客将得到信 用卡,如果他的收入是$50K;但是,如果他的收入是 $49K,他将得不到。这种苛刻的阈值看来可能不公平 。替换地,可以将模糊逻辑引入系
7.7.3 遗传算法
• 遗传算法(Generation Algorithm GA):基于类似于 生物进化的思想
• 每个规则用一个二进位串表示 • 创建一个由随机产生的规则组成的初始群体 • 例如.,IF A1and Not A2then C2可以用“100” • 编码
根据适者生存的原则,形成由当前群体中最合适的 规则组成的新的群体,以及这些规则的后代规则的适 合度用它对训练本集的分类准确率评估 • 通过交叉和变异来产生后代
2020/8/3
2020/8/3
7.6 基于源于关联规则挖掘概念的分类
• 基于关联规则分类: (1)关联规则聚类系统(ARCS): 量化关联规 则挖掘和关联规则聚类
• (2)关联分类:它挖掘形如“cond_set=>y”具有高 支持度和高置信度的规则,这里y是一个类标号
• 挖掘关联规则使用的支持度概念分类: • (3)通过聚集显露模式分类( CAEP ) • 基于最小支持度和增长率挖掘显露模式(Eps)
age(X,”35”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (2)
age(X,”34”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (3)
age(X,”34-35”) income(X,”30K - 50K”) buys(X,”high resolution TV”) (5)
• 针对连续值,返回计算k个最近邻居的平均值 • 对于离散值,返回最近的k个训练样例的最公共的值
2020/8/3
7.7.2 基于案例的推理(case-based
reasoning CBR)
待分类案例
基于案例的推理
找到
NO YES
训练样本集:CBR存放的样本或返回“类案似例案例”是复返杂回的该案符例号的描解 述。
7.7.4 粗糙集方法
• 一种对集合A的划分就对应着关于A中元素的 一个知识,假如还有其他的属性,比如还有 形状R2={三角,方块,圆形},大小R3={大,中, 小},这样加上R1属性对A构成的划分分别为 : A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7, x8}} (颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6, x7}} (形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4, x7}} (大小分类)
7.7.4 粗糙集方法
• 选择了“蓝色的大方块或 者蓝色的小圆形”这个概 念:{x5,x7}作为X的下近 似。选择“三角形或者蓝 色的”{x1,x2,x5,x7,x8}作 为它的上近似,值得注意 的是,下近似集是在那些 所有的包含于X的知识库 中的集合中求并得到的, 而上近似则是将那些包含 X的知识库中的集合求交 得到的。
• 统,允许定义“模糊”阈值或边界。
7.7.5 模糊集方法
• 模糊逻辑使用0.0和 1.0之间的真值表示 一个特定的值是一个 给定类成员的程度, 而不是用类或集合的 精确截断。因而,使 用模糊逻辑,我们可 以断言:在某种程度 上,$49K的收入是高 的,尽管没有$50K的 收入高。
7.7.5 模糊集方法
将属性值转换成模糊值。图7.14展示 如何将连续属性income的值映射到离 散分类{low,mediu,high}上,以及如 何计算模糊成员关系或真值。通常, 模糊逻辑系统在这一步提供图形工具 ,支持用户。 对于给定的新样本,可以使用多个模 糊规则。每个可用规则为分类的成员 关系贡献一票。通常对每个预测分类 的真值进行求和。组合上面得到的和 ,得到一个系统返回的值。这一过程 可以这样做:用每个分类的真值和加 权并乘以每个分类的平均真值。所涉 及的计算可能更复杂,这取决于模糊 成员关系图的复杂性。
7.7其它分类方法 -7.7.1 k-最临近分类 -7.7.2基于案例的推理 -7.7.3遗传算法 -7.7.4粗糙集方法 -7.7.5模糊集方法
7.7.1 k-最临近分类
训练样本集:n维空间向量
未知样本:k-最临近分类法搜索n维空间,找出最 接近未知样本的k个训练样本。这k个训练样本是未 知样本的k个“近邻”。
• 显露模式(EP):是一个项集(项的集合),其支 持度由一个类到另一个类显著增加。两个支持度的 比称作EP的增长率。
• 例如,假定我们有顾客数据集,包含类 buys_computer=“yes”或C1和 buys_computer=“no”或C2。
• 项集{age=“<=30”,students=“no”}是一个典型 的EP,其支持度由在C1中的0.2%增长到在C2中的 57.6%,增长率57.6%/0.2%=288.如果一个新样本X 包含在上面的EP中,我们可以说X属于C2的几率为 57.6%/(0.2+57.6%)=99.6%。
age(X,”35”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (4)
7.6 基于源于关联规则挖掘概念的分类
相关主题