概念格
概念格的理论研究方向与现状
• 概念是人类进行知识表达的一种手 段,知识是人类认识客观世界的结 果,同时也是人们指导自己行为的 准则,人们可以从不同的途径获取 知识和发现知识。 • 概念格是知识的一种表达模型,依 据知识体在内涵和外延上的依赖或 者因果关系,建立概念层次模型。
• 在哲学中,概念被理解为由外延和 内涵所组成的思想单元。基于概念 的这一哲学理解,德国数学家 Wille R.于1982年首先提出了形式 概念分析用于概念的发现,排序和 显示。形式概念分析,也称为概念 格。形式概念分析理论是一种基于 概念和概念层次的数学化表达。
(5) 应用
概念格已成功的应用于数字图书馆及文献检索,软件 工程,知识发现等领域,而且已取得了良好的经济效益和 社会效益。如,Cole R.等将概念格方法应用于分析和可 视化具有1962个属性和4000个处方摘要的医药数据库; Eklund P.W.等展示了概念格层次进行WEB文档索引和导航 的能力;Cole R.等的CEM电子邮件管理系统通过将Email 存储在概念格中,而不是常用的树状结构中,从而在检索 电子邮件时获得了更大的灵活性。 Y.Y.Yao提出了面向对象概念格,Duntsch和Gediga 构造了另外一种新的概念格——面向属性概念格.得到了 两种新的概念格:面向对象概念格和面向属性概念格. 随着概念格理论与方法的进一步完善和发展,以及与 其他知识发现理论与方法的交叉与融合,概念格理论与方 法将成为一种知识发现的有力工具。
谢谢!
• 渐进式生成概念格的求解过程中, 要着重解决三类问题:如何生成新 节点、如何避免重复节点的产生和 如何更新连接节点的边。对于上述 三类问题,谢志鹏等较为详尽的论 述了如何快速构造概念格。 • 下面是一个渐进式算法建造概念格 的简要过程
• 基本思想是先求属性(对象)基本概 念,再由基本概念生成其它概念, 由于在生成新的概念进行集合的交 运算时,对象集(属性集)会不断变 小,而对象集(属性集)是有限,故 当对象集或属性集交为空时,算法 结束空.
•
对于新插入的实例,对格内的节点 会产生以下三种不同的影响:(1): 更新节点,该类节点内涵包含在新的 对象内涵之中,仅仅需要将新对象的 外延加入到外延中即可;(2):不变 节点,这种借点的内涵与新对象的内 涵关系,没有任何交集,不做任何修 改;(3):新增节点,新节点对象的 内涵与格内节点内涵的交集首次出现, 即原格内所没有的新概念需要添加的 节点。
• 形式概念分析的基础是形式背景 (U,A,I),一个由对象集U,属性集 A,以及U与A间的二元关系I构成的 三元组。在形式背景的基础上,获 得形式概念(X,B),其中X称为概念 的外延,是属于这个概念的所有对 象的集合;B称为内涵,是所有这 些对象所具有的属性(特征)集。 概念是外延与内涵的统一体。这种 实现了对概念的哲学理解的形式化。
• 自底而上算法关键在于如何完成 下一个层次的对个序对到上一个层 次的合并,并且要对生成的节点进 行重复性判断。如果在上层中出现 过,要予以标记并在完成此层操作 之前删除该节点。问题是:合并过 程中会产生大量的重复性节点,效 率不高,不能生成相应的Hasse图, 不具备直观性。
•
枚举算法则按照一定的顺序枚举 出格内的节点,在生成Hasse图的 同时,表达出各个节点之间的关系。 • 增量算法或者说是渐进算法的主 要思想是将待插入的对象与格内已 存在的概念节点进行交运算,根据 结果的不同使用相应的过程
• step 4:计算各基本概念{124,a}, {123,b},{135,c},{246,d},{34, e},{7,h}的交,直到对象集的交为 空. • step 5:由上得所有概念: • {124,a},{123,b},{135,c}, {246,d},{34,e},{24,adg},{1, abc},{2,abdg},{3,bce},{4, adeg},{5,cf},{7,h},{12,ab}, {13,bc}
• 所有的概念同它们之间的泛化/例 化关系构成一个概念格。概念格的 每一个节点是一个形式概念。概念 格结构模型是形式概念分析理论中 的核心数据结构。它本质上描述了 对象和特征之间的联系,表明了概 念之间的泛化关系和例化关系,对 应的Hasse图实现了对数据的可视 化。因此,概念格被认为是进行数 据分析的有力工具。
• 知识发现是从数据集中识别正确、 新颖、有潜在应用价值以及最终可 以为人们理解的模式的方法,数据 库知识发现的过程就是将数据库中 蕴含的知识形式化成有用概念的过 程,是人工智能的核心问题。概念 格作为一种具有极大潜力的有效的 知识发现工具,因此备受关注。
• 概念格主要用于机器学习,模式识 别,专家系统,计算机网络,数据 分析,决策分析,数据挖掘,信息 检索等领域。 • 研究概念格的价值在于解决知识发 现领域中所涉及的关联规则、蕴含 规则、分类规则的提取,和实现对 信息的有机组织,减少冗余度,简 化信息表等。
•
形式概念分析与粗糙集都可以用来进行数据挖掘,具有 某些共同的特点。粗糙集着重利用等价关系进行等价类的 划分。概念格内的每个节点也是一个包含最大共同属性集 的等价类。并且两者均是以表述对象集和属性集所构成的 二元关系为基础。基于上述特点.可以利用粗糙集中处理 不可定义概念的方法,在概念格中利用粗糙集的上近似 (upper approximation)和下近似(10wer proximation), 提出上近似格与下近似格。可以取得比单一理论更高效的 约简。 • 神经网络不能简化信息空间维数,当输入信息空间维数 较大时,网络结构复杂、训练时间过长;另一方面神经网 络预测效果也受样本质量的影响.属性约简是概念格的核 心内容之一.借助于概念格的属性约简方法,实现对形式 背景的预处理,去除冗余信息,压缩信息空间维数,精简 形式背景.二者结合也能有效改善上述问题。
• 节点概念与节点概念之间存在着偏 序关系,若有概念C1=(X1,Y1), C2=(X2,Y2),并且X1>X2<=> Y1<Y2,称C1为C2的父节点。概念格 的实行背景通常是由如下表所示的 二维数组来表示,横向维表示属性, 纵向维表示对象,第i行j列的数值 为一表示存在改属性,为0表示不 存在该属性。
• 并行算法是针对数据规模较大时, 概念格求解在时间复杂度和空间复 杂度上计算量日益突出而提出。问 题的主要矛盾在于如何协调集中式 的数据存储方式与串行式的算法设 计。并行算法思想的提出依赖于高 性能计算机与网格并行计算的能力, 综合了批处理算法的并行性和渐进 式算法的高性能性。
(2) 概念格的约简。
概念格的约简能够有效地提高概念格 的维护效率。使形式背景中所蕴含的知识 易于发现,简化知识的表示方式。约简概 念格实际上是在保持对象集不变的条件 下.如何求得最小的属性集的过程。国内 的研究主要是以张文修等提出的理论为基 础。给出概念格属性约简的判定定理,引 入形式背景的可辨识属性矩阵。并依此为 基础求得属性约简的方法
(4)模糊概念格和基于神经网络的概念格
由于各个应用领域中存在的信息具有复杂性和不确定 性,在处理以上问题时。传统的形式概念分析很难们将模 糊理论与形式概念分析结合起来,由此产生了模糊形式概 念分析。 粗糙集理论是一种新的处理模糊和不确定性知识的数学 工具。其理论的主要思想是在保持基本分类能力不变的前 提下。利用不可分辨关系来描述等价关系上不可定义的知 识。即粗糙集(Rough set)。该理论能够利用已有的知识 库,对知识进行近似的或者不确定的描述。最大的特点在 于不需要提供处理该问题所需的数据集合之外的任何先验 信息,对问题处理的不确定性比较客观。
•
批处理算法根据去构造格的不同方 式,可以分为三类:从顶向下算法, 自底向上算法,枚举算法。 从顶向下算法是先构造全概念,也 就是最上层的节点,然后依次生成该 节点的所有可能的子节点,并且对每 个子节点做上述操作,最后将所有存 在父子关系的节点相连,算法的关键 在于如何生成子节点,虽然简洁直观 且较易实现,但存在生成许多冗余节 点的问题。
(3) 规则提取
概念格上的规则提取具有广泛的应用前景。规 则挖掘是近年来数据挖掘的研究课题,每个概念 格节点本质上就是一个最大项目集.为关联规则 挖掘提供了平台,体现了概念之间的包含与分类 关系。更加易于理解和表示。由于规则本身是由 内涵间的关系来描述的。而表现的却是外延之间 的包含与被包含关系,正是由于概念节点统一了 内涵与外延之间的关系,基于概念格的分类规则 的提取在知识发现等方面有着广泛的应用。目前。 对于概念格上分类规则的研究主要集中在优化概 念格的构建和求解算法上。
• 概念格理论的研究主要集中在一下 几个方面: (1) 概念格的建造。 从数据集(在概念格中称为形 式背景)中生成概念格的过程实质 上是一种概念聚类过程。对于同一 批数据,所生成的格是唯一的。 建格算法可以分为:批处理算法、 渐进式算法(或称增量算法)、并 行算法。
• 对于给定的形式背景(U,A,I) (其 中对象集U,属性集A,以及U与A间 的二元关系I),存在唯一一个偏序 集合与之相对应。由偏序集构成一 种格结构,并且此偏序集满足自反 性,反对称性和传递性。若 u∈U,a∈A,uIa表示对象U具有a属 性。格中的每一个节点称之为概念, 记作C(X,Y),X∈U是概念C(X,Y)的 外延,Y∈A是概念中对象的共有属 性(内涵)。
在最坏的情况下,概念格中的 节点是按指数增长的,所以在非常 大的数据集的情况下,控制概念格 中的节点的增长是必须的。概念格 的简化就是对概念格的修剪以控制 概念格中节点的增长。一般建格的 方法的不同采用的修剪方法也不同。
比如,建格的批处理算法 Bordat是通过引入一个支持度门 限,在建格过程中对于支持度小于 门限的节点不予继续展开而达到修 剪的目的。增量算法情形复杂一些, 由于维护格的特性,修剪只能从格 的底部开始进行。