当前位置:文档之家› 语义检索

语义检索

在数字图书馆中,信息检索存在明显不足。

在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。

在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。

在用户交互界面上,用户的检索意图难以被机器理解,采用自然语言输入的检索关键词与机器的交互存在障碍。

现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题,语义网技术的出现,为数字图书馆的发展注入了新的活力,为信息检索质量的提高带来了新的生机。

运用语义网技术,使解决信息检索中现存的问题,完善信息检索流程成为了可能。

3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高,基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。

图3.1 数字图书馆信息检索模型用户通过检索界面,输入关键词,文本操作系统对用户的关键词进行简单的语法层次的处理整合,与数字图书馆资源进行匹配检索,最终将检索的结果,再通过用户界面返回给用户。

而数字图书资源,专业数据库等都是数字图书馆信息检索的范畴,这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。

24 基于语义网的数字图书馆信息检索模型研究3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。

查询服务智能化水平低,无法对用户请求进行语义分析;信息资源的共享程度低,仅仅采用题名、文摘或全文中出现的关键词标识文献内容,难以揭示文献资料所反映的知识信息,易形成信息孤岛;对用户输入的关键词进行句法匹配,查准率不高;片面追求查全率,返回大量无关结果等。

这些问题最终造成用户的真正检索意图难以实现。

人们希望有突破性的信息检索技术出现,能够支持更为强大的信息检索功能,具备理解语义和自动扩展、联想的能力,并为用户提供个性化服务。

在这样的需求下,本节深入探讨了现存问题的解决方法,结合语义网技术,提出了以下基于语义网的数字图书馆信息检索模型的设计思想。

3.2.1 机器理解与人机交互人们通过信息的交流和沟通,表达一定的思想、意思和内容,因此,自然语言和表达的信息中蕴含着丰富的语义。

尤其是自然语言中,一词多义、一义多词现象十分常见,在不同的语境中,同样的词汇还可以表达出不同的意义。

在人与人的交流中,近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义,而计算机要做到这点却有难度。

随着网络的不断发展,网络信息充斥着人们的视野。

如何在浩如烟海的信息资源中,以最短的时间查找出相关资源,成为人们所关注的问题之一。

通常,检索系统总会返回相关度不高,甚至完全无关的信息,而有些相关的信息却往往被遗漏了。

一方面,检索工具没能把已经存在的、对用户有价值的信息检索出来,另一方面,信息资源没有很好的被归纳,提炼成知识。

利用语义网技术,将语义丰富的描述信息和资源关联起来,通过机器理解和人机交互,对信息资源进行深层次的分析和挖掘。

从本质上讲,人机交互是认知的过程,主要通过系统建模、形式化语言描述等信息技术,最终实现和应用人机交互系统。

3.2.2 语义知识与描述逻辑从语义学的角度讲,语义是语言形式表达的内容,是思维的体现者,是客观事物在人们头脑中的反映[72]。

人们在进行信息交流和沟通时,通过词语、符号来表达思想。

当人们看到或听到语境中的一个词语或符号时,能够准确、迅速的对应到相关的事物、事件,这是由于借助了人类头脑中已有的相关概念。

当人们在第三章基于语义网的数字图书馆检索模型研究25语言交流中提到词语、符号时,往往先在头脑中寻找出相关的概念。

这些概念是人们在学习生活中不断积累得到的,对已有事物的认识和认知。

当相关的概念被找到,凭借这些相关概念的帮助,人们可以迅速链接到对应的事物,从而准确获知相应的信息。

词语、符号正是代表了相应的事物、事件,而人们的获知却是需要经过概念语义上的理解,最终准确地锁定事物、事件,这样就构成了语义知识图。

图 3.2 语义知识图知识是建立在逻辑的基础上。

逻辑是在形象思维和直觉顿悟思维基础上对客观世界的进一步的抽象,所谓抽象是认识客观世界时,舍弃个别的、非本质的属性,抽象出共同的、本质的属性的过程,是形成概念的必要手段。

逻辑可分为命题逻辑、一阶逻辑、框架逻辑和描述逻辑[32]:命题逻辑,其原子公式仅仅是真或假,如,露西是女的。

这是一个原子命题。

而复合命题就是在原子命题上加上逻辑连接词组成的表达式。

一阶逻辑的原子公式是对对象之间关系的陈述。

一阶逻辑使用谓词,参数采用常量或者变量。

如上例原子命题可表示为一阶逻辑,Female(Lucy) 经过推理,可得,?x Female(x)∨Male(x) ?x表示“对所有人x”,∨表示“或”,即对所有人x,要么是女的,要么是男的。

框架逻辑主要用于将概念建模集成到一致的逻辑框架中,包括类、性质、定义域和取值范围限制等。

描述逻辑,又称术语逻辑,是基于对象的知识表示的形式化,采用结构化的和易理解的形式来表示领域知识,拥有基于逻辑的正式语义。

它的基本组成成分有概念、角色和实例,通过对简单概念和角色的复合,以达到对复杂概念和角色的表示。

描述逻辑是一阶谓词逻辑的一个可判定子集。

它与一阶谓词逻辑不同的是,描述逻辑的推理问题是可判定的,很大程度上改善了推理问题的复杂性。

同时,描述逻辑的知识表示方式继承了语义网络和框架的特点,比一阶谓词更26 基于语义网的数字图书馆信息检索模型研究具灵活性与可理解性。

除了知识表示以外,描述逻辑还用在其它许多领域,它被认为是以对象为中心的表示语言的最为重要的归一形式。

描述逻辑的重要特征是具有很强的表达能力和可判定性,它能保证推理算法总能停止,并返回正确的结果。

在众多知识表示的形式化方法中,描述逻辑在十多年来受到人们的特别关注,主要原因在于:它们有清晰的模型-理论机制;很适合于通过概念分类学来表示应用领域;并提供了有用的多种推理服务,使系统能从明确表达的知识中得到隐含的知识。

描述逻辑能够满足本体语言在语义表达能力的需求,还能形式化描述较为复杂的本体结构,具有正式的基于逻辑的语义和很强的表达能力。

描述逻辑基于概念和关系,概念就是对象集,关系则描述了对象之间的联系。

图 3.3 描述逻辑概念系统图在描述逻辑概念系统图中,TBox(模式集)是描述领域的公理集,也称为术语集,即应用领域的词汇表,ABox(数据集)则是描述具体情形的公理集,即采用这些词汇表对个体的断言或陈述的集合。

描述逻辑不仅包括术语和断言,还提供对术语和断言推理的功能。

对于ABox的一个重要问题是判定其中的断言能否相容。

有了概念间的包含关系,就能把术语所代表的概念组织成层次结构。

3.2.3 知识管理知识管理,也称为内容管理,是指运用信息技术,对存在于数据库中、被印刷于纸上或者是存在于人们头脑中的各种不同来源的知识内容,进行分析整合,实现知识的生产、共享、应用及创新,从而产生价值并形成知识体系,作用于实践中。

内容管理系统的基本思想是分离内容的管理和设计。

页面设计存储在模板里,而内容存储在数据库或独立的文件中。

当一个用户请求页面时,各部分联合生成一个标准的HTML页面。

内容管理系统能够使用模板和通用的设计元素以确保整个网站的协调。

编程人员只需在他们的文档中采用少量的模板代码,然后即可把精力集中在设计之上的内容了。

要改变网站的外观,管理员只需修改模板而不是一个个单独的页面。

同时,内容管理系统也简化了网站的内容供给和内容管理的责任委托。

第三章基于语义网的数字图书馆检索模型研究27基于本体的内容管理能够为领域知识的描述提供术语,描述特定领域知识的对象分类、对象属性和对象间的关系。

领域本体通过本体中的术语, 分别描述与通用领域或者普通工作相关的词汇,而图书馆资源本体就是用于描述该领域中相关概念和这些概念之间关系的概念,因此,非常适用于内容管理[73]。

依赖特定的任务来表达一定的内容知识,只需要考虑相关的领域内容,再依赖于领域的内容管理分析进行大规模的模型共享、系统集成、内容获取和重用。

基于本体的知识管理允许文档的机构化和语义定义,能用智能检索代替关键词匹配,还能够定义文档的不同视图,通过格式转换来进行部门间的文档转换,揭示内容之间的内在关系, 建立有效的内容管理模式来实现多方式数据存储,并采用自动的搜索索引技术,来扫描信息,实现管理的自动化。

3.2.4 概念语义检索概念是人们在长期的生活中,对客观存在的事物,将其抽象到人脑中的反映,通过字、词、词组等形式表达。

同一个客观存在可以有多个概念对其进行描述,从而形成同义词、近义词关系。

而概念语义检索,就是突破机械的字面匹配,从词所蕴含的概念语义层次来认识用户的检索请求,从而获知用户的确切检索意图。

如用户输入关键词“计算机”,传统关键词检索只能进行字面匹配,对包含“计算机”的文档和网页信息进行查找。

“电脑”跟“计算机”在人们的语言习惯中,基本含义大致相同,检索系统却不能查找出包含“电脑”的文档和网页信息。

概念语义检索能够帮助系统实现对用户输入的关键词进行语义分析,提高查全率和查准率。

而达到此目的,就要实现蕴含语义拓展、语义相关联想、相关概念检索等。

如何来实现概念语义检索,可以构建一个知识库,对知识库进行管理、维护,并根据信息的变化而动态发展。

建立知识库,可运用专家的知识,从而将概念语义检索架构于此知识库基础之上。

知识库一旦建立,并非一劳永逸。

这只是一个基础的语义概念库,由于信息资源不断发展,知识库也需要不断更新,以适应新的需求。

因此,知识库应该具备可扩展、具有增量的管理维护的功能。

在专家意见的指导下,进行必要的扩展和更新,增加新的语义概念,删除不再使用的,修改不再适用的语义概念。

一个适用于语义检索的知识库,应该具备:达到一定规模的足够丰富的知识,并尽量延伸至所有领域;知识表示准确到位、简洁明了、清晰、无歧义,便于机器识别;知识能够反映客观存在;可扩充、学习型变化,信息时代的信息产生速度快,信息量大,知识库的动态变化才能适应不断变化的需求;结构合理,不存在重复、冗余,不消耗不必要的存储空间,并避免不一致想象出现。

28 基于语义网的数字图书馆信息检索模型研究概念语义检索的原理可分为三个映射和两个整合的过程:用户输入检索请求,由于用户的知识领域的差异,输入的关键词的准确性有差别,需要系统对检索需求进行分析,整合出用户的检索意图,同时这也是用户需求到检索系统表达的一个映射过程;概念语义检索系统须对检索对象,即信息资源进行描述和表示,为检索服务,而这个从外界数量巨大的信息资源到对它描述和表示,经过语义整合的过程,是信息资源到数字化整序的映射过程;检索系统对用户真正的检索意图的认知表达式与概念语义检索系统中的整合后的资源匹配,检索出所需的信息资源,又是一个映射过程。

相关主题