信息检索 第三章
浏览式检索一般用于网络信息资源的超文 本或超媒体查询。浏览式检索通过跟踪信息节 点之间的链路,在网络系统中查找与检索概念 相关的信息资源。 Internet 互联网与 Web 都具 有导航浏览式检索的功能。这种检索方式的缺 陷是用户在漫游中可能会“迷航”。
25
4. 提问—回答式检索(Quiz & Answer Search)
1954年,美国海军军械中心(NOTS)利用IBM-701型电子计算机建
立了世界上第一个计算机信息检索系统,实现了单元词组配检索功 能。
1964年,美国国立医学图书馆(NLM)建立了以医学为主的信息检索 系统,这一时期可称为脱机检索时期。
1967年美国洛克希德公司的DLALOG系统研制成功 。
2014-3-4
32
4.2 选择合适的检索工具
4.21 依据 课题内容范围、检索工具的特点
2014-3-4
33
4.2选择合适的检索工具 4.22 方法
1、检索工具指南 2、浏览检索工具 3、熟悉的检索工具 4、向工作人员请教 5、网络在线选择
2014-3-4
34
4.2选择合适的检索工具 4.23 原则
信息检索系统中凡可供检索的字段都有倒排文档
19
数据库类型(按其内容分四种)
(1)题录、文摘型数据库(bibliographic database)它是一种 二次文献数据库。主要存贮相关主题领域的各类文献资料信 息,包括机读版的文摘、题录、目录、索引等。用户可从该 库的文献记录中筛选出所需文献,并依据记录提供的来源指 示获取一次文献。 如:Ei、ISTP、《中文期刊数据库(文摘题录)》等。 (2)全文数据库(full-text database)它是将一个完整的信息源 的全部内容转化为计算机可识别和处理的信息单元而形成的 数据集合,即机读化完整的一次文献,用户可直接检索出原 始文献,也可检索全文中的段、节、章等内容。 如:《中国学术期刊数据库(全文版)》、Elsevier、IEEE、 ASME等。
字段
记录
数据库
2014-3-4
14
每条记录由3种字段构成:
检索系统存取号:计算机识别码(AN) 基本索引字段:表达文献内容特征的字段 辅助索引字段:表达文献外表特征的字段
2014-3-4
15
检索系统的存取号(AN)
检索系统规定的能计算机被识别的记录号码 同一数据库中每篇文献记录只有一个存取号 存取号一般由6—9位数字组成
(3)事实型数据库(fact database) 该类数据库能直接向用户提供可用的数据(包括文字、图 形、图象、声音、计算机程序等)。如:百科全书、辞 典、手册、指南、地图集、人名录、企事业名录、计算 机程序、音乐等。 如:新华社多媒体数据库(新增)、中国资讯行等。 (4)数值型数据库(numeric database) 这类数据库主要提供来自原始文献的统计数据、调查数据 或经过处理的各种数据、数值表格。主要以数据形式记 录物质或材料的各种特性、参数、常数、价格等, 如:气象数据、地质资料、化学或物理化合物特性的文献 数据、财务数据、人口统计资料、市场调研数据等。
1971年美国国立医学图书馆建立了MEDLINE系统,计算机检索进 入联机检索期。
20世纪80年代中期光盘(CD-ROM)产品开始投放市场。
20世纪90年代,计算机信息检索系统跨入互联网新的阶段。
3
二、计算机信息检索技术的特征
速度快、效率高。
检索范围广
不受时空的限制
数据更新频率高
分类途径:分类目录/分类索引/族性检索 主题途径:主题索引/主题目录/主题词表/特征检索
2014-3-4
38
4.3 确定检索途径 4.32 以文献内容特征为检索途径 确定检索词的方法:
规范化词;国际上通用的词;隐性概念;核心概 念;联机选词; 注意检索词的缩写词、词形变化、英美不同拼法
23
2. 指令检索(Command Search)
指令检索是一种依靠各种指令来完成 操作的检索方法。检索指令包括检索过程 中所使用的功能键。指令检索一般适用于 有经验的用户。应用各种指令有助于用户 表达检索提问和进行各种方案的检索比较, 以获取比较理想的检索结果。
24
3. 浏览式检索 (Browsing Search)
28
二、计算机检索策略的制定
检索策略的制定是确定检索系统、检索文档、 检索途径和检索词,并科学安排各检索词之 间的位置关系和逻辑关系以及查找步骤。
制定检索策略之前,对目标数据库必须有比 较清醒的认识和了解,弄清检索课题的内容 要求和检索目的。
29
三、计算机检索策略的应用与调整
广泛地浏览数据库 选择合适的数据库试查
10
(二) 计算机信息检索系统的基本结构
1. 硬件部分 硬件是指以计算机主机为中心的一 系列机器设备,包括主机、外围设备 以及与数据处理或数据传送有关的其 他设备。
11
2. 软件部分
软件部分是信息检索系统中的有关程序和 各种文件资料的总称 。存取系统的软件一般包 括操作系统、数据库管理程序、编译程序与汇 编程序、自动标引程序、文件管理程序、词表 管理程序、SDI程序、回溯检索程序、记账统计 程序、通讯管理程序、总控程序等。
调整检索策略
利用检出文献的信息,拓宽检索
充分利用各种资源
30
第四节
信息检索步骤
1.分析检索课题明确检索需求(检索 准备) 2.选择合适的检索工具 3.选择(确定)检索途径 4.编制检索式 5.实施检索 6.筛选结果,索取原文
2014-3-4 31
4.1 分析检索课题明确检索需求 不同的检索课题,同一课题的不同研究 阶段的信息需求不一样。 检索目的、学科范围、主题概念、语种 范围、时间范围、文献类型、文献数量
2014-3-4
39
4.4 编制检索(提问)式
检索式是既能反映检索课题需求又能为计算机识 别的表达式 最简单的检索式由一个检索词构成 检索式 = 检索词 + 关系算符
2014-3-4
40
4.4.1布尔逻辑检索算符 4.4.2位臵检索算符 4.4.3截词检索算符 4.4.4字段揭示及限制算符 4.4.5其它符号
6
2. 信息组织管理
信息组织管理主要是指信息 标引的方法、组织方式和更新周 期。信息组织管理科学、实用、 合理与否,会直接关系到信息检 索的效果。
7
3. 系统功能
信息检索系统的功能取决于系 统所能提供的检索途径、检索方法。 信息检索系统功能的状况会在很大 程度上影响到检索的结果,例如词 表管理。
2014-3-4
16
基本索引字段
表达文献记录的内容特征的字段 篇名字段(Title Field,TI) 文摘字段(Abstract Field,AB) 叙词字段(Descriptor Field,DE) 自由标引词字段(Identifier Field,ID)
2014-3-4
2014-3-4
36
4.3 确定检索途径 4.31 以文献外部特征为检索途径
题名途径:书名/刊名/篇名 责任者途径:作者/编者/译者/专利权人/出版机构 号码途径:标准号/专利号/报告号/索取号
优点:以字顺或数字排列和检索,不易漏检
2014-3-4
37
4.3 确定检索途径 4.32 以文献内容特征为检索途径
计算机信息检索的策略 计算机检索策略的制定 计算机检索策略的应用与调整
27
一、计算机信息检索的策略
所谓检索策略,就是在分析课题内容具有哪些概念单元 的基础上,确定检索系统、检索文档、检索途径和检索 词,并科学安排各检索词之间的位置关系和逻辑关系以 及查找步骤等。
对一个检索课题来说,要达到什么目标,要求什么范围, 选择什么检索系统,通过什么途径、选用什么检索词和 逻辑组配方法以及需要哪些反馈等一系列问题的考虑与 安排,都属于检索策略的研究范畴。
2.逻辑“或”
用“or”、“+”或逗号表示。 在网络搜索引擎中习惯用逗号代替 “OR”。 它连接的检索词只要其中任何一个出现在结果中就能满足检索条件, 用来组配具有并列关系、概念相同或者相近的词。 【实例】在搜索引擎中输入“计算机,多媒体,Windows98”则查 询至少包含“计算机”、“多媒体”、“Windows 98”三者之一 的信息。
提问检索目标明确,技术规范,不仅检索速度 快,而且“查全率”和“查准率”比较高,适用 于大型检索系统,可以广泛应用与光盘数据库和 Web 网上的各类搜索引擎。提问 — 回答式检索可 以划分为基本检索、二次检索、词组检索、索引 词典检索、高级检索和综合检索等几种方式。
26
第三节 计算机检索的策略
计算机检索的策略主要内容为:
17
辅助索引字段
表达文献外表特征的字段
作者(AU)、 出版年份(PY)、语种(LA) 期刊名称(JN)、存取号(AN) 更新周期(UD)、文献类型(DT)
2014-3-4
18
一个数据库应至少包括一个顺排文档和一个倒排文档
顺排文档:数据库的全记录按存取号大小排列而成的文 档,相当于印刷型检索工具的正文部分。 倒排文档:以信息外表特征或内容特征标识而建立的有 序文档,相当于印刷型检索工具的索引部分。
1、收录的文献信息需含盖检索课题的主题内容 2、就近原则 3、质量高、信息量大、报道及时、索引齐全、使用方便 4、记录来源、文献类型、文种尽量满足课题要求 5、数据库是否有对应的印刷型版本 6、经济条件