本体理论研究背景现状和应用本体理论研究背景现状和应用1 背景和现状1.1 下一代互联网---语义网1.2本体论的概念1.3 语义网中的本体.2 研究现状1 背景和现状1.1 下一代互联网---语义网Internet上几乎有我们所需要的任何信息,但我们往往很难从这些海量的信息中得到我们所需要的.目前网上的信息搜索技术主要是采用关键字匹配的方式进行的,考虑的只是字面上的匹配,还不能对语义进行处理,这样返回给用户的查询结果要么是大量的无关内容,要么是什么也查不到.例如,假设一个用户希望搜索引擎为他找出所有海边的大学,因此他输入查询条件”university near the beach”搜索引擎首先通过相应的关键词处理技术得到关键词.例如“university,near, beach”,然后用这三个关键词与建立了索引的各个网页进行匹配,如果某个网页含有这些关键词,那么就认为符合用户的查询要求:最后利用rank技术对满足条件的所有网页根据匹配的权重进行排序,提供给用户.通过这种关键词匹配的方法,计算机既不理解用户的意图,也不理解网页的语义,只是简单的搜索加匹配,没有任何智能.最后用户得到的是大量的包含”university”,”near'’,”beach”这些词的网页.要得到“海滩边的大学”,用户得自己判断,甚至需要访问相应的网页,而其中真正符合条件的可能非常之少.假设有一所大学:UCLA大学的主页上提到了它邻近太平洋(near the Pacific Ocean),但是并没有提到它在海边.那么,搜索引擎无法找出UCLA这样实际上满足查询条件的大学,因为它无法理解”near the Pacific Ocean'’的语义,造成这种情况的原因是计算机无法理解信息的真正意义.一方面计算机直接处理自然语言在处理质量和速度上都还有很长的一段路要走:另一方面,目前的网页是设计给人看的,它们是用自然语言加简单的显示标记(HTML的标记)表示的,没有对所要表达的语义进行描述和标记;XML在HTML的基础上提供了语法上的互操作性,但仍然不能进行语义上的互操作.“语义互联网”‘Semantic Web)的提出就是为了实现Web上信息语义的互操作性这一目标。
“Semantic Web"这个概念最初由“Web之父”Tim Berners.Lee 于1998年提出,并在他的《Weaving the Web》一书中进一步阐述.Tim Berners.Lee 等人给Semantic Web下的定义是:Semantic web不是一个独立的Web,而是目前Web的一个扩充.在Semantic Web中-信息被赋予了定义良好的意义,使计算机和人可以更好地协作。
它被称为“二次信息革命”,“下一代的Internet”,因为它将使Internet上无数的信息资源真正地变为知识,使计算机能智能地自动地处理和交换Web上的信息,从而为人类提供智能、准确的服务。
它的基本思想是引入人工智能中的知识表示方法以及ontology技术(ontology是指某一领域中大家公认的一些术语’概念及其相互之间的关系),通过定义ontology和知识标记来描述网页所包含的语义,以及相互之间的语义关系,从而使得计算机能够理解网页的语义,并进行相应的语义操作.我们可以假设语义互联网用这样的方法来处理前面的例子:UCLA大学的主页用某种知识标记语言表示出它邻近Pacific Ocean这一事实,并标明Pacific Ocean是一个Ocean例如:<Geology:Ocean>Pacific Ocean</Geology:Ocean>.该主页同时标明它所提到的概念或术语是基于一个地理的ontology:Geology J 而这个ontology用特定的ontology标记语言定义了一套关于地理知识的术语,术语之间的关系以及一些简单的推理规则.例如:这个ontology中有这样一条规则:Ocean(x)-->hasBeaches(x)。
搜索引擎可以解析这个网页,装载这个ontology,推理出UCLA大学是邻近海滩的,从而将这个满足查询的页面返回给用户.1.2本体论的概念本体论(ontology)是哲学概念,它是研究存在的本质的哲学问题。
但近几十年里,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来越重要的作用。
然而,到目前为止,对于本体论,还没有统一的定义和固定的应用领域。
斯坦福大学的 Gruber给出的定义得到了许多同行的认可,即本体论是对概念化的精确描述(Gruber,1995),本体论用于描述事物的本质。
在实现上,本体论是概念化的详细说明,一个ontology往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内专业词汇的还以及他们之间的关系。
这一系列的基本概念如同构成一座大厦的基石,为交流各方提供了一个统一的认识。
在这一系列概念的支持下,知识的搜索、积累和共享的效率将大大提高,真正意义上的知识重用和共享也成为可能。
本体论可以分为四种类型:领域、通用、应用和表示。
领域本体包含着特定类型领域(如电子、机械、医药、教学)等的相关知识,或者是某个学科、某门课程中的相关知识;通用本体则覆盖了若干个领域,通常也称为核心本体;应用本体包含特定领域建模所需的全部知识;表示本体不只局限于某个特定的领域,还提供了用于描述事物的实体,如“框架本体”,其中定义了框架、槽的概念。
可见,本体论的建立具有一定的层次性,在教学领域而言,如果说某门课程中的概念、术语及其关系看成是特定的应用本体,那么所有课程中的共同的概念和特征则具有一定的通用性。
Ontology 这个哲学范畴,被人工智能界赋予了新的定义,从而被引入信息科学中。
然而信息科学界对 Ontology 的理解也是逐步发展才走向成熟的。
1991 年 Neches 等人最早给出 Ontology 在信息科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义。
”后来在信息系统、知识系统等领域,随着越来越多的人研究 Ontology,产生了不同的定义。
1993 年 Gruber 定义 Ontology 为“概念模型的明确的规范说明”。
1997 年 Borst 进一步完善为“共享概念模型的形式化规范说明”。
Studer 等人对上述两个定义进行了深入研究,认为 Ontology 是共享概念模型的明确的形式化规范说明,这也是目前对 Ontology 概念的统一看法。
Studer等人的Ontology 定义包含四层含义:概念模型(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。
“概念模型”是指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明确”是指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”是指 Ontology 是计算机可读的,也就是计算机可处理的;“共享”是指 Ontology 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。
Ontology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。
尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于 Ontology 的认识是统一的,都把它当作是领域(领域的范围可以是特定应用中,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由 Ontology 提供一种共识。
而且 Ontology 提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。
因此,在计算机领域讨论 Ontology,就要讨论如何表达共识,也就是概念的形式化问题。
1.3 语义网中的本体为了实现语义网的功能,需要提供一种计算机能够理解的、结构化的语义描述机制,以及一系列的推理规则以实现自动化推理。
Semantic Web 的挑战在于提供一种语言,它能够表述数据和在数据中进行推理的规则,而且需要这种语言能够将目前存在于知识表述系统之中的规则能够被应用到 Web 上。
在 Tim Berners-Lee 的 Semantic Web 框架中,有几个关键的组成元素。
它们分别是 XML,RDF(S) 和 Ontology。
XML 允许用户定义自己的文件类型,允许用户定义任意复杂的信息结构,但是 XML 只具有语法性,它不能说明所定义的结构的语义。
XML之所以在语义网中处于重要的地位与 XML是一种载体语言、XML 命名机制等有很大的关系。
在 Tim Berners-Lee看来,语义的描述是通过 RDF 进行的。
RDF 的两个特性对此有着特殊的贡献:(1)RDF 是一种由资源、属性、属性值组成的三元结构。
这种三元结构形似句子中的主语、谓语、宾语之间的关系。
一个描述资源的 RDF 语句,就如同“某件事具有什么样的属性”这样的句子一样有效。
它能够表明一种对事物存在状态的断言,可以表述大多数情况下计算机需要处理的知识。
(2)RDF 的另一个重要特点就是组成 RDF 的资源、属性、属性值这三个元素都必须是被 URI(统一资源标识)所标识的。
由于 RDF 利用 URI 来对信息进行编码,它意味着被 RDF 所引用的任何资源、属性和属性值都是经过预先定义的、不具二意性的概念。
由于 RDF 能够表示陈述句,并且主语、谓语和宾语的三个组成元素都是通过 URI 所标识的,所以它具有语义表述的特性。
但语义网的要求还远不止于此,语义网还需要加入逻辑功能:语义网需要能够利用规则进行推理、选择行动路线和回答相关问题。
Ontology 是语义网实现逻辑推理的基础。
语义网研究者也认为,Ontology 是一个形式化定义语词关系的规范化文件。
对于语义网而言,最典型的 Ontology 具有一个分类体系和一系列的推理原则。
其中,分类体系定义对象的类别和类目之间的关系。
实体之间的类/子类关系对于 Web 应用具有重要的价值。
在 Ontology 中,还可以为某个类添加属性来定义更多的类目关系。
这些类目关系提供了的推理的基础。
借助 Ontology 中的推理规则,语义网应用系统可以提供更强的推理能力,例如可以在一个地理 Ontology 中加入这样一条规则,“如果一个城市代码与一个省代码相关,并且一个地址利用了城市代码,那么这个地址与就与相应的省代码相关”。