语义网和语义网格中的本体研究综述余一娇1,2(1 华中师范大学语言学系,武汉,430079)(2 华中科技大学计算机学院 武汉 430074)E-mail: yjyu@摘要:本体是语义网和语义网格研究中的一种重要方法。
文中首先介绍本体的定义、本体的四元素表示法和六元组表示方法,以及本体的设计分析生命周期;然后回顾语义网研究中曾产生过巨大影响的七种本体语言。
通过分析众多文献的观点,文中提出在将来我们应重点针对 DAML+OIL 和OWL两种本体语言进行深入研究。
文中还列举出了本体在生物信息计算和网络管理领域应用的两个实例。
最后根据语义网格和本体研究现状,提出了利用本体研究语义网格服务质量的基本思路和研究方法。
关键词:本体 本体语言 DAML+OIL OWL 语义网 语义网格 服务质量1.前 言Ontology在哲学领域常译为“存在论”,是指关于事物是否存在思考的学科。
在计算机科学和人工智能领域则译为“本体”,其词义与哲学中的“存在论”大相径邻。
1993年美国Stanford大学知识系统实验室的Gruber博士在文献[1]中定义:本体是用来帮助程序和人共享知识的概念的规范描述 (An ontology is the specification of conceptualizations, used to help programs and humans share knowledge.),后来该定义得到了进一步发展和完善[2]。
文献[1]还指出:概念化是关于世界上的实体,如:事物、事物之间的关系和约束条件的知识表达。
而规范一词是强调这种表达是用一种固定的形式来描述。
从我们已经阅读的多篇相关文献来看,几乎所有论文都接受了上述关于本体的定义。
迅速增加的Web页面数量、丰富的页面内容和时新的消息,为知识工程领域的科学家实现面向终端用户的应用研究、开发带来了极好的机会。
在Internet上实现基于语义的信息检索和情报收集,无疑是广大因特网用户的迫切需求。
2001年5月,Web之父Tim Berners-Lee和合作者在《Scientific American》杂志上发表了“The Semantic Web”一文。
文中正式提出了语义网的概念,鉴于Tim Berners-Lee在Web领域的巨大影响,该文后来一直被公认为是开辟语义网研究的源头文献。
为了实现知识的共享和重用,语义网研究中引入本体技术是最近几年来的发展趋势,且正在被不断的实践。
知识工程和人工智能学科针对本体技术进行研究已有多年历史,其中最有影响的科学研究组织是美国Stanford大学的知识系统实验室。
该实验室的Gruber博士以及Deborah L. McGuiinness博士都对本体和语义网本体研究作出了巨大的贡献。
本文的结构安排如下:第二部分介绍本体的表示方法和本体开发的生命周期;第三部分介绍语义网研究中的本体语言发展过程以及多种本体语言之间的关系;第四部分介绍本体在语义网研究中的应用实例;第五部分讨论我们今后一年的研究思路和研究目标。
2. 本体的表示与本体开发关于本体的定义如今在计算机科学领域已比较统一,但在具体的应用环境中如何规范化描述本体至今还缺乏统一的标准。
目前有两种本体表示方法应用比较广泛,第一是传统的四元素表示方法、第二是较新的六元组表示法。
前者源于Gruber博士的观点,后者则是2002年由新加坡南洋理工大学的Myo Myo Naing博士在一篇国际会议论文中提出。
前者在世界范围内得到了比较高的认同,但是形式过于灵活,不易掌握。
后者因为定义规范,可操作性强,得到了广大国内研究者的欢迎。
2.1 四元素的本体表示方法四元素表示方法的基本思想是:一个本体中的四个主要元素是:概念(concepts)、关系(relations)、实例(instances)和公理(axioms)[3]。
四元素表示法在IEEE Intelligent System 等杂志上发表的论文中比较常见,但遗憾的是我还没有找到讨论四元素形式化描述本体的源头性论文。
以下介绍是根据文献[3]中的介绍翻译而成。
由于该文作者来自生物信息计算领域,文中所举例子都是生物和化学领域的一些领域知识。
为了更好的介绍本体,在一些自己已彻底明白的地方使用了自己举的例子。
有些重要的定义附了原文,避免误解。
概念表示某个领域中一类实体或事物的集合。
通常概念可以分成两大类,一类是简单概念(primitive concepts),另一类是定义的概念(defined concepts)。
简单概念是那些只有必要条件的类成员关系 (primitive concepts are those which only have necessary conditions (in terms of their properties) for membership of the class.)。
例如:正方形是四个角都是直角的四边形。
因此所有的正方形的四个角都是直角,但允许一些四个角都是直角的四边形不是正方形。
定义的概念是指关于一个事物是另一个类成员的既充分、又必要的描述(Defined concepts are those whose description is both necessary and sufficient for a thing to be a member of the class.)。
例如:“三好学生”是学习好、身体好、思想好的学生。
三好学生一定是学习好、身体好、思想好,而学习好、身体好、思想好的学生就是三好学生。
关系描述概念和概念的属性的交互(Relations describe the interactions between concepts or a concept's properties.)。
关系也可以分为两大类:一种是树状分类学关系;另一种是联合关系。
分类学将概念组织成子类-超类状的概念树结构(Taxonomies that organize concepts into sub- super-concept tree structures.)。
最常见的分类形式是:专门化关系(Specialization relationships)通常被认为是“××是一种××”的关系。
例如:博士生是研究生,而研究生是学生。
部分关系(Partitive relationships)是描述一个概念部分的是另一个概念。
例如:部分博士研究生是在职的工作人员。
联合关系是指树状结构概念之间的横向关系。
常见的联合关系如下所示。
主格关系描述概念的名称(Nominative relationships describe the names of concepts)。
位置关系描述一个概念与其他概念的的相互位置关系(Locative relationships describe the location of one concept with respect to another)。
结合的关系表示功能,处理概念(Associative relationships that represent, for example, the functions, processes a concept has or is involved in, and other properties of the concept)。
还有一些其它的关系类型,如因果关系(causative' relationships)等。
与概念一样,关系也可以被组织成分类树状的结构。
关系也有属性,这些属性可深入刻画、描述概念之间的关系。
它们包括:一个关系必须抓住(hold on)一个概念是否具有普遍的必要性;一个关系是否可以随意或者可选的抓住一个概念;一个概念关系链是否严格的遵守确定的概念;关系的势;关系是否是可传递的。
实例是概念表示的具体的事物,如:华中师范大学是概念“大学”的一个实例。
严格的说,一个本体不应该包括任何实例,因为它被假设为一个具体领域的概念化。
一个本体与相关的实例的组合就是我们如今所称呼的知识库(knowledge base)。
然而判断一个东西是否是某个概念的实例实际上是很困难的,通常它依赖于具体的应用。
例如:化学元素是个概念,钾是化学元素的一个实例。
但是关于钾是化学元素的一个实例的判定却是有争议的,因为钾本身是一个概念,它表示不同的钾和钾的同位素。
上述问题是知识管理研究中的一个公开问题。
最后,公理是用来限制类和实例的取值范围,公理中包括许多具体的规则和约束。
2.2 本体的六元组表示方法新加坡南洋理工大学的Myo Myo Naing 博士定义的六元组本体表示方法被国内研究者的接受程度比较高。
以下是六元组表示方法的具体介绍[4]。
{}log ,,,,,C R An Onto y C A R A H X =其中C 表示概念的集合。
A C表示多个属性集合组成的集合,其中每个属性集合对应于一个概念。
R 是一个关系集合。
A R 是由多个属性集合组成的集合,其中每个属性集合对应于R 中的一个关系。
H表示概念之间的层次结构关系,X 表示公理集合[1]。
C 中的每个元素C i 表示同质、并且能够用相同属性集A C (c i )描述的对象。
关系集R 中的每个元素r i (c p , c q )是一个二元组,表示概念c p 与c q 之间的二元关系。
关系r i 的属性可以用A R (r i )来表示。
序偶(c p , c q )是H 中的元素,它表示c p 与c q 是父子关系或者超集-子集的关系。
X 中的元素实际上是概念、关系属性之间的一些约束条件[4]。
为了深入描述本体的表示方法,以下列出了一个大学本体描述实例[4]。
学校里有学生、博士生、教授等多种不同身份的人,只要把这些关于人的身份的名词归纳起来,就得到了概念集合C univ 中的元素。
每一类事物都有自己的属性,把这些属性都列出来就是A C 中的内容,从例一中不难验证A C是一个关于集合的集合。
根据实际领域中的客观事实,不难找出两个不同的概念之间的相互关系,从而生成R。
其它三个元素的生成,也很类似。
从该例可见,如何找出不同概念之间的关系,其实主要是依赖领域专家的观点,而不是计算机工作者的想当然。
从以上大学本体的描述实例不难发现,只要有一定的离散数学基础,根据实际需求,形式化定义、描述应用系统所必需的本体从方法上来看并不是十分困难。
从大学中的人物身份和关系的本体实例来看,写一个本体,与我们过去做面向对象的程序设计或者关系数据库分析与设计依然有相通之处。
也就是说过去的经验,在本体设计中可以应用。
比较四元素本体表示法与六元组表示法,我觉得它们在本质上是大同小异。