当前位置:文档之家› 语义网

语义网

【转载】自Tim Berners-Lee于1998年提出了语义网(the Semantic Web)的概念之后,就一直成为人们讨论与研究的热点。

当前国际上关于语义网的研究刚刚处于起步阶段,而我国对语义网的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、具体应用方面都相对落后。

另人欣慰的是,我国学者已经认识到了语义网及其相关技术对未来互联网发展的影响,并开始着手研究语义网及其相关的关键技术与应用。

本文将从以下四个方面对我国语义网研究作综合述评: (1)基本情况,对当前国内语义网的研究情况做一总体介绍;(2)体系结构,即对语义网体系结构研究的情况;(3)关键技术,讨论对 RDF(Resource Description Framework,即资源描述框架)和Ontology(本体或本体论)的研究情况;(4)试验与应用,即当前针对语义网或利用其中的关键技术所做的具体试验与应用。

最后,在对以上四个方面的情况进行综合述评的基础上总结当前国内语义网研究的特点和存在的主要问题并指出今后主要的研究方向与重点。

1 基本概况当前对语义网的概念还没有形成统一的定义,对语义网的理解表述不一。

如语义网是“第三代Web,其目标是实现机器自动处理信息,它提供诸如信息代理、搜索代理、信息过滤等智能服务”[1];语义网“不同于现存的万维网,其数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能”[2];语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理”[3]。

语义网的创始人Tim Berners-Lee对语义网的定义如下:“语义网是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理”[4]。

尽管对语义网的理解与描述不同,但仍能从这些描述与理解中看出语义网的一些基本特征:(1)语义网不同于现在WWW,它是现有WWW的扩展与延伸;(2) 现有的WWW是面向文档而语义网则面向文档所表示的数据;(3) 语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。

语义网的实现依赖于三大关键技术:XML、RDF和Ontology。

本文将在第3小节对它们进行讨论。

虽然语义网给我们展示了WWW的美好前景以及由此而带来的互联网的革命,但语义网的实现仍面临着巨大的挑战[2]: (1)内容的可获取性,即基于Ontology 而构建的语义网网页目前还很少;(2)本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题;(3)内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等;(4)多语种支持;(5)本体语言的标准化。

虽然与国外相比我国对语义网的研究相对落后,但从1999年至2004年4月发表的论文来看, (1)论文数量逐年递增。

2002年发表相关论文22篇,分别是2000年(6篇)和2001年(4篇)年论文数量的3.7倍和5.5倍,2003年发表论文38篇,是2002年的1.7倍,这说明随着时间的推移,对语义网的研究已经引起了我国学者的高度重视;(2)研究内容越来越广泛而深入,大致可分为三个层次:第一层次,即对语义网及其关键技术的描述与介绍,主要包括语义网的含义[2][5][6][7]、体系结构[8][9]、关键技术(RDF、Ontology) [10][11][12][13][14][15][16][17][18][19]、面临的挑战等[2];第二层次是关于语义网及其关键技术对相关学科或研究领域的影响与启示,包括信息管理[20][21][22][23]、信息检索[3][20][24][25][26][27][28][29][30][31][32][33][34]、知识库系统[35][36][37][38]、数字图书馆[39][40][41][42]、数据挖掘[43]、电子商务[44][45]、机器翻译[46]、智能代理[47][48][49]、需求分析[50][51]、元数据描述与交换[52][53][54]、网络信息资源和知识的表达[55][56]等;第三个层次则是针对语义网及其关键技术所做的具体试验与应用,包括RDF的应用与存储[57][58]、基于RDF/XML的搜索引擎的设计与实现[59]、语义网的试探性实现[60][61][62][63][64]、Ontology的构建[65][66][67][68][69][70]、基于Ontology的查询系统设计[71][72]、Ontology在图书服务网络、知识图书馆和数字图书馆中的应用[73][74][75]、Ontology与主题词表相结合实现对元数据的查询[76]等。

2 体系结构Berners-Lee于2000年提出了语义网的体系结构(见图一),并对此做了简单的介绍。

该体系结构共有七层,自下而上其各层功能逐渐增强。

图一语义网体系结构第一层:Unicode和URI。

Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。

数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。

URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。

在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识[77]。

第二层:XML+NS+xmlschema。

XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。

NS (Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。

XML Schema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制[21]。

正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。

该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离[55]。

第三层:RDF+rdfschema。

RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。

该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。

RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。

如果把 XML看作为一种标准化的元数据语法规范的话,那么RDF 就可以看作为一种标准化的元数据语义描述规范。

Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述[55]。

第四层:Ontology vocabulary。

该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识[78],描述各类资源及资源之间的关系[77],实现对词汇表的扩展。

在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系[60]。

第五至七层:Logic、Proof、Trust。

Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。

通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。

语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个另人满意的严密的逻辑描述与理论体系,我国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。

3 关键技术语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。

XML(eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。

它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。

目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。

3.1 RDFRDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点[79]。

值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。

RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax[80]。

RDF Data Model提供了一个简单但功能强大的模型,通过资源、属性及其相应值来描述特定资源。

模型定义为:(1)它包含一系列的节点 N;(2)它包含一系列属性类 P;(3)每一属性都有一定的取值V;(4)模型是一个三元组:{节点,属性类,节点或原始值V};(5)每一个Data Model 可以看成是由节点和弧构成的有向图。

模型中所有被描述的资源以及用来描述资源的属性值都可以看成是“节点”(Node)。

由资源节点、属性类和属性值组成的一个三元组叫做RDF Statement (或RDF陈述)。

在模型中,陈述既可以作为资源节点,同时也可以作为值节点出现,所以一个模型中的节点有时不止一个。

这时,用来描述资源节点的值节点本身还具有属性类和值,并可以继续细化。

RDF Schema 使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范[80]。

RDF Schema的作用是:(1)定义资源以及属性的类别;(2)定义属性所应用的资源类以及属性值的类型;(3)定义上述类别声明的语法;(4)申明一些由其它机构或组织定义的元数据标准的属性类。

RDF Schema 定义了三个核心类:rdf:Resource、rdfs:Property、rdfs:Class;五个核心属性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;四个核心约束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。

相关主题