当前位置:文档之家› 本体理论与领域本体的构建

本体理论与领域本体的构建

第二章本体理论与领域本体的构建2.1 本体理论2.1.1 本体的基本概念本体论(Ontology)的概念最初起源于哲学领域,是形而上学理论研究的一个分支,与认识论相对。

认识论研究人类知识的本质和来源,即研究主观认知,而本体论研究的则是客观存在。

Ontology一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。

现在哲学领域较多翻译为“本体论”。

经过多年的演进,到今天,经过人们对“本体”这一概念的重新理解和定位,本体的理论与方法早已被信息领域采用,用于知识的组织、表示、共享和重用。

本体在计算机学科的使用可以追溯到上个世纪80年代,Alxenader在1986年发表的文章被视为本体在计算机领域获得不同于哲学领域的新的研究的起点。

随后Ontolgoy在人工智能领域界获得稳步的发展,并被逐渐赋予了新的含义[8-9]。

1991年,在人工智能领域,Neches等人最早给出Ontology定义,Neches认为[10]“An ontology defines the basic terms and relations comprising the vocabulary of a topic area,as well as the rules for combining termsand relations to define extensions to the vocabulary.”即“一个本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规则定义这些词汇的外延规则。

”本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[11]。

1993年美国斯坦福大学知识系统实验室(Knowledge System Laborary,简称KSL)的Gruber给出了本体在信息科学领域被广泛接受的定义:“An ontology is an explicit specification of a conceptualization”[12]。

即“本体是概念化的明确的规范化说明”。

这也是最著名并被引用最为广泛的定义。

1995年Guarino和Giaretta 将本体定义为[13]“本体是概念化的明确部分的说明一种逻辑语言的模型。

”这个定义与Gruber的理解有异曲同工之妙。

随后在1997年W.N.Borst对Gruber的定义进行了引申,提出了“本体是共享概念模型的形式化规范说明”,以及1998年J.Studer的“本体是共享概念模型的明确的形式化的规范说明”。

本体的定义随着时间的推移也在进行着不断的变化发展,为明确起见,现将本体发展史中较有代表性的定义列表如下:表2.1 本体发展史中的定义列表时间/提出人定义1991/Neches 一个本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规则定义这些词汇的外延规则1993/Gruber 本体是概念化的明确的规范化说明1995/Guarino和Giaretta 本体是概念化的明确部分的说明一种逻辑语言的模型1996/ Bernaras等本体提供了一种用来显式地描述概念化的方式1997/W.N.Borst 本体是共享概念模型的形式化规范说明1997/ Swartout 本体是一个为描述某个领域而按继承关系组织起来作为一个知识库骨架的一系列术语1998/J.Studer 本体是共享概念模型的明确的形式化的规范说明2000/ Fensel 本体是对一个特定领域中重要概念的共享形式化的描述2001/ Noy F.N. 本体是对某个领域中的概念形式化的明确表示,每个概念的特性描述了这个概念的各个方面及其约束的特征和属性2002/ Fonseca 本体是以某一观点用详细明确的词汇表描述实体,概念,特性和相关功能的理论2003/Starlab 本体必需包括所使用术语的规范说明,决定这些术语含义的协议,以及术语之间的联系,来表达概念由上述列表可见,人们对本体的定义和理解是有一个逐步认识的过程的。

尽管本体的定义有很多不同的方式和不同的侧重点,但从内涵上来讲,本体的概念有下面四层含义:(1)概念化(conceputalization):通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。

(2) 明确(explicit):概念与概念之间的联系及使用这些概念的约束都被明确定义。

(3) 形式化(formal):有精确的数学描述,是计算机可读的。

(4)共享(Share):本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体[14]。

可见这些不同的研究者虽然各执己见,但对本体的内涵却认识一致,都把本体当作某个领域内不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的语义基础。

其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识和描述语言,是一个已经得到公认的形式化的知识表示体系,包含词表(或名称表/术语表),词表中的术语全是与某一专业领域相关的,而逻辑声明全部用来描述术语的含义及关系。

2.1.2 本体的分类1、按照领域依赖程度:(1)顶层(top-level)本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。

(2)领域(domain)本体:描述的是特定领域(医学、地理等)中的概念及概念之间的关系。

(3)任务 (task)本体:描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。

在这个分类当中,领域本体和任务本体是处于同一个研发层次的,它们都能应用顶层本体中定义的词汇来描述自己的词汇。

应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。

2、按照细化程度Guarino从两种不同的维度对本体进行划分。

除了依据对领域的依赖程度分类,还提出了以详细程度分类。

详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。

参考(reference)本体:详细程度高。

共享(shareable)本体:详细程度低。

3、按照形式化程度(1)高度非形式化:用自然语言松散表示。

(2)结构非形式化:用限制的结构化的自然语言表示。

(3)半形式记:用半形式化(人工定义的)语言表示。

(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。

4、按照是否具备推理功能(1)轻量级本体(Lightweight ontology):轻量级本体不具备逻辑推理功能,例如叙词表和WordNet。

(2)中级本体(Middle ontology):中级本体具有简单的逻辑推理功能,系统可以识别一阶谓词逻辑的表达式。

(3)重量级本体(Heavyweight ontology):重量级本体具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,如Cyc本体系统[9]。

5、按本体描述对象的不同,Uschold把本体分为特殊领域本体(如医药、地理、金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。

6、按不同的研究主题[15]:(1)知识表示本体(Knowledge Representation ontologies),如Frame Ontology 和斯坦福大学知识系统实验室提出的知识描述语言KIF(Knowledge Interchange Format)。

(2)通用或常识本体(General/Common ontologies),如Cyc本体系统。

到2000年为止,Cyc的常识库已有了1,600,000条知识和几百个微理论(micro-theory)。

(3)领域本体(Domain ontologies),如基因本体GO(Gene ontologies)、爱丁堡大学企业本体。

(4)语言学本体(linguistic ontologies),关于语言、词汇等的本体,典型实例有GUM(Generalized Upper Model),WordNet和MindNet等。

(5)任务本体(Task ontologies),主要研究如Chandrasekaran等人的关于任务和问题求解方法本体的研究。

除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语一言本体、任务本体、领域一任务本体、方法本体和应用本体。

这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。

2.1.3 本体的功能与作用1、本体为人和主体之间的沟通和交流提供了共享的基础,也方便了不同领域的系统开发人员和研究人员之间的沟通,它是人机在语义上交互的最好的基础。

而开发领域本体的主要目的之一就是在人们和软件智能之间对信息结构的理解提供一种可共享的、共同的理解机制。

2、本体支持对于知识的重用。

本体提供了独立于应用的描述方法使之可在不同系统间重用。

例如在基于构件的软件开发过程中,开发知识系统时知识工程师可以将本体论概念引入知识工程,详细说明模型中的概念、实例、关系和公理等实体,并以此建立领域本体。

然后针对属性提出本体建模概念化分析的形式化方法,解决知识共享中的问题。

此举有效的提高了工作效率,促进了来自不同领域的研究人员和组织间的交流。

3、本体提供了一种结构化的表示领域知识的形式化方法。

在本体中,明确说明了领域概念及概念之间的关系,并且支持对领域规则的描述,是领域知识的形式化表示。

4、知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知。

5、本体有助于知识的标准化。

本体为人们描述目标世界提供了一组通用词汇,而这种通用的词汇正是实现知识系统化的基础。

通用词汇和知识的系统化有利于实现知识的标准化。

2.1.4 本体的应用目前本体已经广泛应用于人工智能、知识工程及其相关领域。

本体的功能及其应用领域大致可以概括为三类:作为知识表示方法,应用于知识工程和知识管理;作为系统分析方法,应用于信息建模、面向对象分析和数据库设计;作为信息语义的形式化表示方法,应用于异构信息集成、多智能体系统、语义Web等。

具体来说可以分为以下几个方面:1、信息检索本体具有的良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。

基于本体的信息检索的基本设计思想可以总结如下:(1)在领域专家的帮助下,建立相关领域的本体;(2)收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库(RDB(关系数据库),KDB(知识数据库)等)中;(3)对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理返回给用户。

相关主题