第六章 信息检索
特性:
信息检索的相关性 相关性表明用户是否认为一文献与一提问吻合。 信息检索的不确定性 标引的不确定性是指不同标引员在给同一篇信 息对象进行标引时会选用不同的标引词,即标 引词选用的不一致性。检索词选用的不确定性 是指候选检索词集不止一个,检索过程具有试 探性。 信息检索的逻辑性
检索语言、检索策略(处理信息检索提问的逻 辑与查找步骤的科学安排)
(3)手工信息检索方法
顺查法:时间上,远近 查全率高 费时费力
倒查法:时间上,近远 查准率高 漏检率高
抽查法:学科的兴旺阶段 检索效率高
追溯法(引文法) : A.一次文献参考文献一次信息参考文献 …… 近远 B.一次文献引用越查文献越新
机械信息检索阶段
机械信息检索两种基本类型 机电信息检索系统 光电信息检索系统
机械信息检索并没有发展信息检索语言,只 是采用单一的方法对固定的存贮形式进行检 索,而且过分依赖于设备,检索复杂,成本 较高,检索效率和质量都不理想。
计算机信息检索系统三个阶段:
1971年以前建立的信息检索系统,是传统的批处 理检索方式。 1971年以后,产生并发展的联机信息检索系统, 如OCLC、Dialog在线数据库联机检索系统。
缺陷:①主机负担重,一旦出现故障,则整个网 络都将瘫痪;②信息组织方式以线性为主,不够 灵活;③联机检索不像Internet是面向最终用户 的,操作也没有后者方便。
由检索服务机构(联机存取中心) 、国际通讯 网络及终端三部分构成。
终端设备用于输入检索程序、显示检索过程、控
制打印检索结果。
通讯网络用于实现远程人机对话。
(2)选择检索工具,了解检索系统
信息检索工具是人们为了充分、准确、有效 地利用已有的信息资源而加工编制的用来报道、 揭示、存贮和查找信息资源的卡片、表册、计算 机信息系统和特定出版物。
(3)确定检索途经,选定检索方法 每一种信息检索方法都有自己的特点, 在实践中可以根据信息检索要求选择使用或 配合使用,以快速、准确地完成信息检索任 务,实现预期的目标。
6.3.3 计算机信息检索的技术与方法
(1) 信息用户利用终端设备,通过通讯网络与世界各 地的信息检索系统联机,进行人机对话,从检索 系统的数据库中查找出用户所需信息的全过程。
优点:①检索速度快;②检索范围广而全面;③ 检索途径多、质量高;④检索内容新、实时性强; ⑤检索辅助功能完善、使用方便,检索结果输出 方式灵活、实用。
我国联机存取服务始于1974年,比较有影响的联 机存取系统有: (1)万方数据资源系统 / (2)CNKI数据资源系统 (3)维普数据资讯系统
/
(2)光盘信息检索 特点: 光盘存贮容量大、耐用 检索成本低。一次购买可多次使用,节省了电讯 费和联机系统使用费。 操作简单,检索效果好。用户按提示或帮助功能 使用检索系统。 运行速度快。单机检索,不受线路影响。 安全性能高。只读光盘,一般局域网用户使用。
6.2.3 信息检索效率的评价
检索效率是指全、准、快、便、省(检全率、检准 率、检索速度、检索方便性、检索成本与效益), 最主要的是全和准。 在评价信息检索效率过程中,主要通过检全率、 检准率、漏检率和误检率四个评价指标进行评价, 其中重点是检全率和检准率。
检全率=检出的相关文献量/系统中的相关文 献总量 检准率=检出的相关文献量/检出的文献总量 漏检率=未检出的相关文献量/系统中的相关 文献总量 误检率=检出的非相关文献量/检出的文献总 量
如果光盘数据库量不够多,则信息资源就显得有 限,购买大量光盘数据库,又要受到经费限制 更新周期长。一般的光盘数据库更新要1个月或更 长,而网络数据库的更新周期一般是1周或更短。 检索时需不断换盘。一个大型数据库,一般都是 几张光盘,特别是全文数据库,如中国学术期刊 全文光盘数据库,每年都有一百多张光盘,检索 时需要不断更换光盘。
6.1.2 信息检索的类型与特性
文献信息检索
依检索结果内容 划分 信 息 检 索 类 型 依信息存储与 检索方式划分 计算机检索 数据信息检索 事实信息检索
手工检索
手工检索工具 主要指,如印刷版的《全国报刊索引》。 计算机检索系统 主要指,如《中国期刊全文数据库 》
数据信息和事实信息检索是确定性的检索, 检索结果可以直接利用。 文献信息检索是一种相关性检索,检索结 果是文献信息的线索,一般通过二次信息 来实现。 全文数据库:是一次信息和二次信息的综合 体。在检索结果中,有直接的全文链接。
6.1.3信息检索的模型
布尔逻辑检索模型 (BooleanRetrieval Model,简称BRM) 概率检索模型 (Probability Retrieval Model,简 称PRM) 向量空间检索模型 (Vector Retrieval Model,简称VRM) 模糊检索模型 (Fuzzy Retrieval Model ,简称FRM)
光盘检索系统的功能和指令与联机检索没有很大区别,但 更方便。
功能键:Help(帮助)、Index(索引)、History(查阅历史)、 Display(显示)、Print(打印)、Select Database(选择数 据库)、Format Window(格式窗)、Quit(退出)等
检索信息时可用单元词、多元词(短语)、数字及布尔运算 符和位置运算符把几个检索术语组配成一个提问逻辑式。 用户可以在任何时刻回顾其查找的历史,重新使用或修改 以前的任何提问。
扩大信息源 效率低 检全率低 漏检率高
循环法:先利用检索工具查出一批有用文献,然 后再利用这些文献末尾所附参考文献的线索进行 追溯查找。
6.3.2 机械信息检索的技术与方法
机电信息检索系统
继手检穿孔卡片之后,出现了机检穿孔卡片 和选卡机。这就形成了机电信息检索系统。
光电信息检索系统
主要是以缩微胶卷(片)检索方式出现的。缩微胶 卷 (片 ) ①寻址检索方式 ②编码检索方式
6.3 信息检索的发展历程
三个阶段
手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段
手工信息检索阶段
信息检索起源于参考咨询工作,参考咨询工作产生的标志是 1876年召开的美国图书馆协会第一届大会。1883年,波士顿 公共图书馆首次设置了专职参考馆员和参考阅览室; 20世纪初,多数图书馆成立了参考咨询部门,主要利用图书 馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐 发展到从多种文献源中查找、分析、评价和重新组织信息; “索引”突破了以前的狭隘范畴,成为独立的检索工具; 40年代进一步包括回答事实性咨询,编制书目、文摘,进行 专题文献检索,提供文献代译等。“信息检索”从此成为一 项独立的用户服务工作,并逐渐从单纯的经验工作向专业化 方向发展。
检 全 100 率 % 80 R 60
40
20
20
40
60
80 100
检准率% P
检全率与检准率的互逆相互曲线
6.2.4 信息检索的程序
(1)分析检索课题,明确信息需求
明确信息检索课题所涉及的领域和范围; 明确所需信息的类型,包括文献媒体、出版类型、 所需文献量、年代范围、涉及的语种、有关著者 明确信息检索课题对查新、查准和查全的指标要 求。
从检索手段看,信息检索分为: 手工信息检索 机械信息检索 计算机信息检索
6.3.1 手工信息检索的技术与方法 (1)手工信息检索工具
手工信息检索工具主要是各种类型的工具书
工具书是根据一定的需要,比较完备地汇集某一 方面的资料,并按特定的方法加以编排,专供读 者查考检索有关知识、资料、事实的书籍。据工 具书的体例和功能,可分为检索型工具书、参考 性工具书、词语性工具书、表谱性工具书、图录 性工具书和边缘性工具书6种类型。
(4)实施检索策略,浏览初步结果 在获取信息线索时要仔细阅读,判断所检出的 信息是否符合检索的要求,不仅看篇名,还要阅读 整个著录格式,进行综合分析。
(5)调整检索策略,获取所需信息
判断文献的出版类型。根据文献出处中已有的信 息,判断其出版类型。 整理文献出处。将文献出处中有缩写语、有音译 刊名的还原成全称或原刊名。 根据出版类型在图书馆或信息机构查找馆藏目录 或联合目录确定馆藏,原则上说应该按“由近及 远”的顺序逐步扩大查找馆藏的范围。 尽可能多渠道、多方式地获取原始信息。
能够指示计算机执行查询与检索
6.2.2 信息检索策略
信息检索策略是针对检索提问、运用检索方法和 技术而设计的信息检索方案,其目的是要达到一 定的检准率和检全率。 常用信息检索策略包括:分块概念组配检索策略、 逐步组配检索策略、对偶组配检索策略、增长组 配检索策略等。
目前在以下三方面取得进展: (1)以检全为目标的检索策略的调节与控制; (2)以检准为目标的检索策略的调节与控制; (3)以最小投入为目标的检索策略的调节与控制。 对特定系统、特定数据以及某一类型课题的检索 策略的研究具体表现在以下两方面: (1)某一系统、某一数据库检索策略; (2)某一类型课题检索策略。
需求概述 或疑问式
信息组织和检索系统
游戏规则=主题 索引规则+辞典 (包括词汇表和 索引语言)
信息或数据
规范化的 疑问式 检 索 流 程 概述的存贮
索引(描述性的、 受限制的) 信息的组织 组 织 流 程
存贮1:概述 /搜索请求
比较/匹 配
存贮2:信 息的表示
潜在的相 关信息