当前位置:文档之家› 本体论的研究和应用现状

本体论的研究和应用现状

本体论的研究和应用现状刘红阁 郑丽萍 张少方摘要 “本体论”原是哲学研究中发展出来的一个概念。

近年来,本体论的研究和应用受到了知识工程及相关应用领域的广泛关注。

本文对目前本体论的研究和应用现状进行了综述,主要内容包括:本体的定义、发展本体的原因、本体的设计原则和方法论、本体的描述语言和国内本体的研究现状。

最后本文指出了当前本体论研究中存在的一些问题和未来本体论研究的主要方向。

关键字 本体论、知识工程、语义Web1引言“本体论” (Ontology,大写O)原是哲学研究中发展出来的一个概念,研究客观事物存在的本质和组成。

本体论在哲学定义上的主要特点在于本体论是关于世界某个方面的一个特定的分类体系,这个体系不依赖任何特定的语言。

近年来,随着信息科学的飞速发展,本体论逐渐用于知识工程和信息科学等领域之中。

本文就目前本体论的研究和应用现状进行了系统介绍和综合评述。

首先就本体的定义和内涵进行了深入的讨论(第2节),其次给出了发展本体的原因以及本体的具体应用领域(第三节),介绍了本体的设计原则和方法论(第4节)、当前主流的本体描述语言(第5节),讨论了国内本体论研究和应用状况(第6节),最后本文指出了当前本体论研究中存在的一些问题和未来本体论研究的主要方向(第7节)。

2本体是什么?本体论(Ontology)和本体(ontology)在英文表示是不一样的,即一个用大写的“O”开头,另一个则用小写的“o”开头。

本体论这个术语诞生于17世纪,派生于希腊语的onto 和logia,是一个哲学的分支。

从哲学上来说,本体论是研究客观事物存在的本质,所以本体论在哲学上的真正内涵是对世界上任何领域内的真实存在所做出的客观描述。

对本体论的理解,人们不存在什么疑问。

但是对本体(ontology)的理解,哲学界和计算机科学界存在着不同的观点。

在哲学界,本体作为表述哲学理论的术语,是指形成现象的根本实体。

近十多年来,本体论的研究日益成熟,也已经远远超过了哲学的范畴,和信息技术(例如:面向对象系统)、知识工程及人工智能都有着密切的关系。

尤其本体论最近在Web上的应用直接导致了语义Web的诞生,企图解决Web信息共享中的语义问题,给Web带来了勃勃生机和无限遐想。

知识工程界认为本体是一种engineering artifact(工程人造物)。

尽管本体论的研究日益成熟,但“本体究竟是什么”仍是一个争论中的话题。

本文根据时间顺序就部分研究者对本体做出的定义列出如下,以供参考:首先, Neches et al.(1991)指出:“一个本体定义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和关系以定义词汇的外延的规则。

” 该定义只是给出了建立一个本体的基本要素,即:要建立一个本体,首先要识别所处理领域的基本术语和这些术语之间的关系,而后识别组合这些术语和关系的规则,并提供这些术语和关系的定义。

Gruber(1993)指出本体是概念化(Conceptualization)的一个显式的规格说明; Borst (1997)对该定义进行了修改,提出:“本体是被共享的概念化的一个显式的规格说明。

” 这两个定义后来成为人们经常引用的定义,它们都特别强调了给出显式解释的可能性。

William和Austin(1999)指出,本体是用于描述或表达某一领域知识的一组概念或术语,可用于组织知识库较高层次的知识抽象,也可用来描述特定领域的知识。

Chandrasekaran等人(1999)认为本体是属于人工智能领域中的内容理论,它研究特定领域知识的对象分类、对象属性和对象间的关系,为领域知识的描述提供术语。

从以上不同研究者的定义,可以看出本体涉及到的概念为:术语(词汇)、术语关系、规则、概念化、形式化的规格说明、领域知识、表达和共享。

其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。

3为什么要研究和发展本体?当前的计算机正在从单一的设备向进行信息交换和事务处理的世界范围网络转变。

因此,支持数据、信息和知识的交换、重用和共享成了当今计算机技术要迫切面临的任务。

我们之所以在知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息交换和软件工程等等领域研究和发展本体,是因为本体有以下突出的特点: (1) 本体可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和继承。

(2) 从功能上来讲,本体和数据库有些相似。

但是本体比数据库表达的知识丰富得多。

首先,定义本体的语言,在词法和语义上都比数据库所能表示的信息丰富得多;最重要的,本体提供的是一个领域严谨丰富的理论,而不单单是一个存放数据的结构。

(3) 本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。

这种形式化的描述可成为软件系统中可重用和共享的组件。

(4) 本体可以为知识库的构建提供一个基本的结构。

以描述对象的类型而言:有简单事实及抽象概念,这些可以描述成一个本体的静态实体部分,它们主要描述的是事物或概念的各个组成部分以及这些组成部分之间的静态联系;本体也可以描述事物或概念的运动和变化。

应用本体,知识库就可以运用这类结构去表达现实世界中浩如烟海的知识和常识,这点在中科院数学所陆汝钤[Lu,2000]研究员建立的Pangu知识库中得到了很好的体现。

(5) 对于知识管理系统来说,本体就是一个正式的词汇表。

本体可以将对象知识的概念和相互间的关系进行较为精确的定义。

在这样一系列概念的支持下进行知识搜索、知识积累、知识共享的效率将大大提高,真正意义上的知识重用和知识共享也能成为现实。

(6) 本体适合表示抽象的描述。

而企业模型是人们对企业或者企业的某些模型的抽象描述,因此在企业逻辑建模中,本体的使用可以帮助我们清楚地理解企业特定领域的相关元素、关系和概念,让知识表达更加准确便捷,帮助人们进行更好的企业决策[金芝,2001]。

本体在语义Web和其它很多领域都有着广泛的应用。

本体的最大贡献在于它可以将某个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的实际应用提供便利。

4本体的设计原则和方法学Gruber(1993)指出了本体的5点设计原则:明确/客观、一致、可扩展性、最小编码误差及最小本体承诺。

Arpirez(1998)则认为应遵守标准术语,同层次间保持最小语义距离及使用多种层次概念。

由于本体工程到目前为止仍处于相对不成熟的阶段,每一个工程拥有自己独立的方法。

通常参照IEEE1074-1995标准(软件开发生命周期法)建立不同的工程方法。

下面是知识工程界所承认的几种本体开发方法:(1) Uschold的“骨架”法[Uschold, 1998]这个模式是从爱丁堡大学的经验中产生的。

采用这个模式目前已开发出Enterprise Ontology[Uschold, 1998]。

它由一组与企业相关的术语和定义组成,主要用于企业模拟。

下面是Uschold的本体构建流程图:(2) Grüninger和Fox的“评价法” [Grüninger & Fox,1995]:这个方法用于构造多伦多虚拟企业本体工程(TOVE1),由多伦多大学企业集成实验室研制,使用一阶逻辑进行集成。

TOVE本体包括企业设计本体、工程本体、计划本体和服务本体。

具体的本体开发过程如下:定义直接可能的应用和所有解决方案:他们认为开发本体的动机来自实际的应用,一旦存在现有本体不能回答的问题,就需要开发新的本体。

非形式化的本体能力问题的形成:提供潜在的非形式化的对象和关系的语义表示。

术语的抽取和定义:从非形式化能力问题中提取出非形式化的术语,然后用一种形式语言(如KIF2)定义这些词汇。

问题形式化。

形式化公理:这些公理用来定义本体词汇的语义和约束,在TOVE中,所有公理用一阶谓词逻辑表示。

(3) Berneras方法[15]该方法用于欧洲的ESPRIT项目KACTUS,KACTUS的主要表达方法是CML3,具体开发过程为:应用的说明:提供应用的上下文和应用模型所需的组件;1 Toronto Virtual Enterprise2 Knowledge Interchange Format3 Conceptual Modeling Language相关本体论范畴的初步设计:搜索已存在的本体,进行提炼、扩充。

本体的构造:最小关联原则用来确保模型既相互依赖,又尽可能一致,以至得到最大同构。

(4) Methontology方法[Gómez-Pérez, 1998]这种本体开发模式是由西班牙马德里理工大学提出的。

他们使用本体生命周期的概念来管理整个本体的开发过程,使本体的开发过程更接近于软件工程中的软件开发过程。

具体分为三个阶段:管理阶段、开发阶段和维护阶段。

管理阶段主要包括本体开发的计划、控制和质量保证。

开发阶段包括规格说明、概念化、形式化和执行等步骤。

维护阶段和开发阶段是同时展开的,包括知识获取、系统集成、知识评价、产生文档和配置管理等。

目前的本体构建方法论还未能像软件工程那样成为“科学”或“工程过程”的完整方法论。

因此,只有总结和发展现有的各种方法论,结合具体应用,再配合领域专家的支持,才能提出适合具体项目的优秀本体构建方法。

5本体描述语言目前为止,已经实现的本体主要有:CYC[13]、TOVE[17]、Enterprise[6]、KACTUS[15]、SENSUS[14]、Pangu[14]、NKI[15]。

本体描述语言是用来描述本体的,它让用户可以为领域模型编写清晰、形式化的概念描述。

事实上,本体描述语言起源于人工智能领域对知识表示的研究,因此本体的描述语言不仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要有效的推理支持(包括计算复杂性和可判定性等)。

目前,经常被使用的本体表示语言大都以框架模型或谓词演算4或两者相结合为基础,最具有代表性的有KIF,Ontolingua,CycL,Loom,OIL等。

还有另外一种本体的表示方法就是用图来表示本体,一个典型例子是WordNet。

它采用语义网络作为词汇本体的基本表示形式。

另外,Sowa提出概念图5的表示方法,它来源于Charles Sanders Peirce的存在图思想。

简单说,概念图是一个有向连通的二分有向图,包含两类结点:概念结点和概念关联结点,每个概念关联结点存在一条或多条弧,每条弧都与一个概念结点相连。

Sowa曾经用一些典型实例说明概念图与谓词演算以及与KIF之间表示的等价性。

5.1 CycL[13]CycL是CYC的知识表示语言,它是一种表达能力和灵活性都很强大的描述性语言。

CYC 是位于美国德州奥斯汀的MCC6公司的研究项目,在Lenat指导下历时十多年建立的包含1600000多条知识和几百个微理论的常识知识库,其目的是通过本体开发为常识推理7提供基础。

相关主题