当前位置:文档之家› 计算机基础信息检索

计算机基础信息检索

青岛大学公共计算. 机基础教学中心
第7章 信息检索
7.1 信息检索概述 7.1.2 信息检索的类型 1. 根据检索对象划分 根据检索对象的不同,信息检索分为文献检索、事实检索和数 据检索三种。 (1)文献检索。文献检索以文献为检索对象,查找含有用户 所需信息的文献。文献检索是一种相关性检索而非确定性检索 ,系统不直接回答用户所提出的问题本身,它提供的是与用户 信息需求相关文献的线索或原文。 (2)事实检索。事实检索以特定的事实为检索对象,是存储 有关课题(如机构、人物等)的指示性描述,或关于某一事件 发生的时间、地点、经过等信息,并将其查找出来的检索,属 于确定性检索。 (3)数据检索。数据检索以数据为检索对象,属于确定性检 索,它是将经过选择、整理、鉴定的数据存入数据库中,根据 需要查出可回答某一问题的数据的检索。例如,查找公式、数 据、图表、成分、性能等都属于数据检索的范畴。
第7章 信息检索
7.1 信息检索概述
7.1.1 信息检索的概念 信息检索(Information Retrieval)是指信息按一定的方
式组织和存储起来,并根据信息用户的需要找出有关 信息的过程和技术。信息检索的全称是信息存储与检 索(Information Storage Retrieval),其过程如图7.1所 示。20世纪50年代以前,信息的存储和传播主要是以 纸介质为载体,信息检索活动主要围绕着相关文献的 获取和利用展开,因此“文献检索”成为信息检索的 同义词而被广泛地使用。20世纪50年代以后,信息传 播与存储呈多元化发展,人们不再拘泥于载体研究信 息检索,开始更多地使用“情报检索”这一术语。近 年来,由于英文词汇“Information”既可以翻译为信 息,又可以翻译为情报,而汉语中信息一词要比情报 的含义更为丰富,因此人们更倾向于使用信息检索这 一术语。
青岛大学公共计算. 机基础教学中心
第7章 信息检索
7.1 信息检索概述
7.1.3 信息检索模型 2. 向量空间模型 向量空间模型是一种基于代数理论的检索模型。在向量空间模型中,一个
文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空 间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一 个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以 用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相 似度,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项 的部分匹配,于是查询结果集中文档的排列顺序要合理的多。 与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略 允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似 度对文档进行排序。但在向量空间模型中,各索引项之间是互相独立的, 无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项 之间的相关性才能得到满意的查询结果。 向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈 ,可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即 使不是最优的,其性能也相当好的,因此该模型是目前普遍采用的信息检 索模型。
青岛大学公共计算. 机基础教学中心
第7章 信息检索
7.1 信息检索概述
7.1.2 信息检索的类型 2. 按检索方式划分 按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索
三种方式。 (1)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用
各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。 手工检索直观,不需要辅助设备,但速度慢、漏检严重。 (2)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光 电感应设备等进行的检索。机械检索过分依赖设备,成本较高,检索效果 和质量都不太理想。 (3)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整 理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检 索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受 时空限制、检索结果输出方式多样。 除上述两种主要的分类方式外,信息检索还有另外多种分类方式。例如按 照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索 ;按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分 为强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检 索。
.
7.1 信息检索概述
第7章 信息检索
7.1.1 信息检索的概念
青岛大学公共计算. 机基础教学中心
第7章 信息检索
7.1 信息检索概述
7.1.1 信息检索的概念 信息检索包括两个层次的含义:广义的信息检索和狭义
的信息检索。广义的信息检索包括信息的存储和查找 两个过程,如图7.1所示的全部过程就是广义的信息检 索。信息的存储就是将大量无序的文献信息进行搜集 、整理、归类,采用规范的方法进行编排,编制出各 种检索系统。信息查找必须先有信息存储,而信息存 储就是为了更快捷地查找信息。信息查找则是信息存 储的逆向过程,是人们根据特定需要,运用已有的检 索系统,有序查询并找出符合要求的信息。狭义的信 息检索是指信息的查找过程,只包括图7.1中的后半部 分,本书中讨论 机基础教学中心
第7章 信息检索
7.1 信息检索概述 7.1.3 信息检索模型 1. 布尔检索模型 布尔检索模型是基于集合论和布尔代数的一种简单检索模型。 由于集合是一个相当直观的概念,所以布尔检索模型为信息检 索系统的普通用户提供了一种易于掌握的框架。在布尔检索模 型中,查询被描述为具有精确语义的布尔表达式。因为该模型 的简单性和易于表示的形式方法,在很长一段时间内都受到重 视。 然而,布尔检索模型的缺点也是相当明显的。首先,该模型的 检索策略是基于二值决策准则,即一个文档只被判别为相关的 或无关的,而没有任何等级变化,难以提高检索性能,因此布 尔检索模型主要用于实现数据检索模型,而不是信息检索模型 ;其次,这种方法将构造一个合适的查询的责任推到用户身上 ,用户必须详细规划自己的查询,其复杂程度不亚于编写程序 ,普通用户无法用布尔表达式描述他们的查询请求。于是一些 研究人员改进了布尔模型,提出了向量空间模型。
相关主题