1 互联网技术——浅谈语义web
World Wide Web(www)的诞生只不过是十几年前的事情,但是Web技术的成长和对社会的作用却是惊人的,Web已经成为人们日常生活、电子政务和电子商务等领域不可或缺的部分。随着Web技术的不断发展,互联网上的信息飞速增长,但信息格式的异构性、信息语义的多重性以及信息之间关系的匮乏和非统一,给人们在信息搜索、抽取、表示、解释和维护造成极大的不便。Web2.0的出现使Web摆脱了主要供人进行阅读的局限,更深层次的应用开始涌现,电子商务、电子政务的智能化服务也得到了一定发展。然而,这仅仅是真正智能化Web的初级阶段。万维网之父Tim Berners Lee 等人于2001年在《科学美国人》杂志上提出了“语义Web”的概念,预见了未来智能化Web时代的到来。
一、 语义Web概念解析
什么是语义Web并没有一个严格的定义,Tim.Berners-Lee对语义Web做了如下的描述:语义Web并不是一个孤立的Web,而是对当前Web的扩展,语义Web上的信息具有定义良好的含义,使得计算机之间以及人类能够更好地彼此合作。根据上面的描述,人们可以给语义Web做出这样的定义:机器可以理解数据含义的下一代Web,称之为语义Web,语义Web中的语义表示计算机对某一个概念、术语或者符号可以理解的“含义”。
1) 元数据角度:
我们对MIS比较熟悉, 所以可以考虑用MIS系统的例子图书管理系统做比较,从元数据的角度出发。图书管理系统可以按作者,书名,出版社查询,是因为有元数据,即在数据库中,每个数据都有所属的字段名和表名。而Web上只能按关键词查询,是因为网页上的内容没有元数据,例如,网页上一个数字“15”,程序没法知道这个数字是年龄呢,还是个数呢,等等,当然人能够根据上下文判断出来。语义Web的基本思想就是让网页上的数据都有元数据描述它,说明它的含义,这样计算机程序能够理解网页上的数据,也能更好地为大家服务。如提供类似MIS的那种查询界面,而不是关键词查询。语义Web提供了一种统一的元数据描述语言,和其所用的词汇定义语言。
2)数据交换角度: 2 如果不同的图书管理系统要实现互操作,如馆际互借,由于不同系统的数据格式都是私有的,很难实现数据交换和共享。先讨论不同时期的数据交换方式:
Web 技术的发展
上述的应用交换数据问题可以这样解决:每个应用把他的数据导出为RDF数据,需要数据输入的应用则只要写一个RDF数据抽取程序,这个程序对任意输入的RDF文件,在其中查询其需要的数据。当然,一个前提是基于同一个词汇表,如大家都用“Student”这个词表示学生,这个词汇表就是RDF Schema。它和XML
Schema的区别在它不是约束XML数据的格式,而是描述RDF数据中词汇的含义。这样,就屏蔽了同一含义不同XML语法的问题。也就是说,RDF Schema比XML
Schema更容易为大家达成一致,因为它只关心领域的概念模型,而不关心这个概念模型用XML表示出来的格式(XML Schema可以看成是概念模型的XML表示方式)。
3)Web搜索角度:
目前的网页是让人看的,如查找信息,(如查找人口超过1000万的城市),网 第一阶段 第二阶段 第三阶段
主要的信息描述格式 HTML XML 和在此基础上建立的领域标准化格式,如 ebXML 等。 RDF DAML
信息描述特
点 非格式化或半 格式化。 信息格式化、标准化。
信息定义缺乏关联, 有可能有多重含基于本体的信息定义与表达,实现语义
动态交互模式与技术 处理人机交互的 CGI 技术和类
似的动态脚本语言 CGI、ASP、 JSP 等。 Web 服务、SOAP 、
UDDI 、WSDL。 语义 Web 服务具体模式和技术有待发展。
动态交互特点 处理人——机基于 Internet
的 交互,但计算机
与计算机之间
难以交互。 可处理计算机——计算机的交互,交互过 程自动化,但难以构建个性化、智能化的 服务。 协调处理人——机交互与计算机对计算机 的交互,交互过程智能 化,可提供智能化、个 性化的服务。
发展现状 应用广泛 技术已日益成熟,已有大量相关技术规 范从具体模式、相应理论
到实现技术、行业应用 都有待发展。 3 上购物,语义Web上的网页是让计算机看的,但并不是通过NLP技术,而是制定一个Web上数据表示语言的规范,用以描述Web内容,且让计算机能够理解。
二、语义web的语言标准和体系结构
Web技术标准化组织W3C极大地推动了语义Web的标准化进程。在其努力下,先后推出了RDF(S),DAML+OIL和OWL等本体描述语言。而且围绕着RDF(S)和OWL,形成了由一系列规范和标准构成的多层次语义Web体系结构。这一体系结构能够通过本体描述语言实现对数据的清晰语义描述,同时也正努力通过SPARQL和RIF等标准实现对Web信息的“理解”和智能化处理。
语言标准:
RDF是一个建立在XML基础上获取信息(知识)的描述标准。RDF数据层用于描述资源、链接及其类型,允许对结构元数据进行译码、交换和重用。它的文档是一个由主谓宾结构的断言的集合且包 括一个数据模型 (RDFMS)和一个 schema
(RDFS)。
DAML(DARPA Agent Markup Language)发布于 2000 年 8 月,它的目的是 为本体层提供语言和工具。它属于军方 DARPA(Internet 就是源自该组织的研究 项目)的计划。DAML 是在W3C 的 XML 与 RDF 标准基础上建立的。DAML 是 通过自己表达本体,同时对原有 Web 页面进行注解,链接到相关的本体上的。
OWL(Web Ontology Language)是 W3C 网络本体工作组设计一种的网络本体语言。它包含一个高层的抽象语法,它充分利用了 DAML,可以看成是 DAML 的一个升级。并且一个有理论模型的语义形式化表示。可以对 OWL 本体进行形式化表示,并且可以映射到 RDF 的语法。
语义Web体系结构: 4
第一层:Unicode和URI。
Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义Web体系结构中,该层是整个语义Web的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层:XML+NS+xmlschema。
XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义Web体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。
第三层:RDF+rdfschema。
RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对5 象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层:Ontology vocabulary。
该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
第五至七层:Logic、Proof、Trust。
Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义Web输出的可靠性以及其是否符合用户的要求。
三.语义Web研究中的关键技术
语义Web的发展和成功主要取决于支持它的一些关键技术的发展与成功应用。语义Web的主要技术为:
1.元数据获取
目前,Web内容是按照让人读懂而不是让机器读懂的方式组织的,Web语言主要是HTML,HTML只负责数据的显示方式而不关心数据的内容。元数据是关于数据的数据,它的作用是以一种机器可以处理的方式来描述Web的内容。比如Web中一篇文章的标题用<标题>标记,文章的作者用<作者>标记,文章的内容用<段落>标记,那么标记<标题>、<作者>、<段落>就是Web中这篇文章的元数据。XML是目前使用最多的元数据表示语言,它允许各组织、个人建立适合自己需要的标记集合(元数据集合),并且这些标记可以迅速地投入使用。
2.本体
用XML表示的元数据可以由各组织和个人建立,在Web中就存在同一个元数据表示不同的含义和不同的元数据表示相同含义的问题,语义Web采用本体技术来解决这一问题。本体是领域共享概念的明确的形式化规范说明。
不同的领域和应用根据领域知识建立起自己的本体,即用本体描述语言描述共享概念及概念之间的关系,使这些概念表示明确的语义。
本体中的主要元素包括概念(也称类)、属性、实例、关系和公理。概念是共享概念的定义,属性用来描述概念所具备的性质,实例是概念的具体化,是符合某个概念属性的对象,关系用来描述不同概念之间的相互联系,公理是领域中的规则。 6 本体的研究是人工智能长期进行的一项难题,其中本体的自动构建、不同本体之间的匹配、本体的自动演化问题是近几年本体研究的热点,也是语义Web研究中的热点问题。
3、逻辑
逻辑提供了知识的形式化表示方法,也提供了从已知的知识推出未知知识的推理机制。利用逻辑推理,我们可以知道本体所表示的知识库中隐含的知识,隐含的关系,以及判断本体中的知识是否互相冲突,检验本体的一致性。描述逻辑(Description Logic)是本体描述语言OWL的逻辑基础,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且具有语义特征。在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具。但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。动态逻辑最开始是用来进行程序正确性验证的,后来人们也用它来对动态世界进行表示与推理,有的也用在逻辑程序设计上。它们能对动作、状态、动态关系进行较好的刻画,在静态知识上的表达力却很弱,且推理较为复杂。如何将动态与静态结合起来,这是需要研究的关键问题。
4、智能主体
智能主体是分布式环境下软件智能化的重要技术。自20世纪50年代就已经提出,但真正的发展是20世纪80年代之后,在20世纪90年代成为研究的高潮,直到现在为止仍然是人工智能研究的热点。现在关于智能主体的研究主要侧重在以下几个方面: 主体的认知模型和理论、多主体系统的体系结构、主体的协作与协商、面向主体的软件方法学以及主体技术的应用等。经过近二十多年的研究,主体的理论与技术有了长足的发展,已经在很多领域中得到了应用。而对于用户来讲,语义网应该提供一种丰富完善的服务,一种在知识表示与推理之上的服务,这些服务由具有智能的主体来提供。
四、语义web的应用
语义web主要应用在搜索引擎和一些依靠语义的自动化服务。
搜索引擎是互联网一种主要的应用,根据2007中国互联网报告,有四分之三使用互联网的人要使用到搜索引擎。搜索引擎技术从第一代的目录检索,到第二代基于关键字的检索,走向如今发展中的第三代搜索引擎的技术研究。对第三代搜索引擎,不同的研究人员具有不同的观点,还没有统一的认识,但大家一致认为,第三代搜索引擎会或多或少地采纳语义机制来提高检索的效果和用户满意度。所以,一定程度可以认为第三代搜索引擎是基于语义的搜索引擎。语义搜索将通过准确理解用户的意图和搜索内容的含义,返回给用户更加准确有用的搜索