当前位置:文档之家› 第二章 信息检索

第二章 信息检索


2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。
除这种减少结果方法外还有另: ①输入计算机 检索 ②点“在结果中查找”,输入“机械工业” 果中检索
在结
(3)“逻辑非”:表示它连接的两个检索词应该包含第一个 检索词而不包含第二个检索词才满足检索条件。
一般用符号“NOT”或“—”表示
特点:“逻辑非”操作排斥某些检索词的出现,因此也起到了 缩小检索范围的作用。 • 例如:运用“逻辑非”运算符号“NOT” • 检索式:(计算机AND机械工业)NOT理论
运用“逻辑或”,检索式为:计算机OR机械工业
结果较少 结果较多 逐条查找我们需要的信息 需要减少检索结果
(2)“逻辑与”:表示它连接的两个检索词必须同 时出现在结果中才满足检索条件。
一般用符号“AND”或“*”表示,来减少检索结果。
• 运用“逻辑与”运算符号“AND” 检索式为:计算机AND机械工业

“引文珠形增长”策略具有很强的人机交互性, 可以使检索式以比较生动的方式生成并得到不断丰富 ,产生“滚雪球”般的效应。
• (3)逐次分馏 • 这种检索策略的含义是:先确定一个相当 大的、范围较广的检索初始对象集合,然后提 高检索的专指度,得到一个较小的命中结果集 合;继续提高检索式的专指度,得到一个较小 的命中结果集合;继续提高检索式的专指度, 一步一步缩小命中结果集合,直到得到数量适 宜、用户满意的结果。整个检索过程像剥竹笋 一样,逐步逼近核心部分。 “逐次分馏”策略的特点是:检索操作比较 主动、漏检较少。
一、百科全书
百科全书(Encyclopaedia)汇集人类 知识的精华,是既完备又概括的工 具书它不仅能提供释疑解惑的事实 而且具有扩大人们知识视野和帮人 们系统学习的作用。它不仅告诉人 们“what”,而且告诉人们“when”、 "where“和“why”等。 百科全书由专家撰写、审定,具有 较高的可靠性和权威性、内容丰富 精确、新颍。但它难以及时反映最 新科技研究动向及发展,为此,不 少百科全书出版社出版相应的百科 年鉴来作补充。百科全书正文或按 条目的字顺、或按其分类、或按两 者相结合的方式编排,外文的百科 全书多按字母顺序编排。

(四)限制检索
• 限制检索的目的主要也是为了提高检索的 准确率。

除以上几种主要检索技术与方法外,还有 加权检索、聚类检索、全文检索等。
三、检索策略和检索步骤
1.检索策略 是指为实现检索目标而制定的全盘计划 和方案,是对整个检索进程的谋划和指导。 常用的联机检索策略主要有:积木型、引文 珠型增长、逐次分馏。
• 当运算过程中用到两个以上的布尔算符时,其运算 次序一般是:
有括号的情况下先执行括号内的逻辑运算;在没 有括号的情况下,运算次序是先执行NOT,在执行 AND,最后执行OR。
例如:(纺织OR机械)AND计算机NOT理论 • 计算机执行顺序为: ①查找“纺织OR机械”方面文献 ②在①结果中排除含“理论”的文献 ③在②结果中选出含有“计算机”方面文献
表达检索要求。主要的布尔逻辑运算符号有以下三种: “逻辑或”、“逻辑与”、“逻辑非”。
(1)“逻辑或”:表示它所连接的两个检索词只要其中任何 一个出现在结果中就满足检索条件。
一般用符号“OR”或“+”表示 特点:“逻辑或”操作使检索范围扩大,提高检索结果数量 ,保证较高的查全率。 例如:要查找“计算机在机械工业中的应用”方面的文献

对同一个布尔逻辑提问式,不同的运算次序 会有不用的检索结果。
• 注意事项: (1)关键词的选用。(2)逻辑语言的选择。(3)逻辑式的 组配。
例如:酸奶、酸乳;大豆、黄豆。尽可能选“全、准、新”。
• 逻辑或:适用于连接那些具有并列关系、同义关系、近义关 系的词。 例如:股票OR期货 命中的是有检索词“股票”或“期货”的文献。 • 逻辑与:适用于连接那些具有限定关系、交叉关系的词。 例如:计算机AND文献检索 命中的是即有”计算机“又有”文献检索“词的文献。 • 逻辑非:适用于某一主题的文献中排除那些含有某些指定检 索词的文献。 例如:高等教育NOT成人教育 命中的是除成人教育以外其他有关高等教育的文献。
为了实现计算机信息检索,必须事先将大量的原始信息加工处 理,存储在计算机中备用。所以,计算机信息检索从广义上讲,包 括信息的存储和检索两个方面。
二、计算机信息检索技术 对于不同的计算机检索系统,其检索方法基本 相似,下面介绍几种常用的检索方法。 (一)布尔逻辑检索 布尔逻辑检索是各类检索工具提供的一种最基本的检 索方法。通常,用户在检索时,需要使用不同的布尔逻 辑运算符号把检索词与检索词连接起来,以较为准确地

2.检索步骤
1. 计算机检索步骤 (1)检索课题分析
检索课题的分析,即主题分析,以明确课题所 包含的概念成份及其相互关系。这是检索策略制定的 根本出发点,也是检索效率高低或成败的关键。要明确以下问题: a) 分析课题的主要内容其所涉及的学科范围。 b) 所需文献的类型、语种、年代及文献量的范围。

• 子检索式: ┇
cigarette

• S1=(cancer OR carcinoma ) AND(lung OR lungs )
• S2= smoker OR smokers OR cigar OR cigarette OR ┅
• 总检这种检索策略的含义是:从已知的关于检索课题 的少数几个专指词开始检索,以便至少检出一篇命中 文献或一个相关信息,然后审阅这批文献或信息条目 ,从中选出一些新的相关检索词,补充到检索式中去 。这些词加入到检索式之后,就能查出其他新的命中 结果。不断重复上述过程,直到找不到其他适合包含 于检索式的附加词为止,或者已经得到了数量适宜的 命中结果。
(2) 选择合适的数据库试查
进入数据库后, 认真阅读数据库使用说明,注解、 样例( help, tip, hint, example…),因为每个数据库检索都有它 自己的表达方式,对此要把握好。最常用的检索方式是首
先从主题入手,以主题词为检索点, 试查找到相关文献。
(3)调整策略的考虑
确定较为恰当的检索词,这时可借助索引词表的提示,同时再附加其他必 须的检索条件(如:作者名、出版物名、机构名等), 选定检索范围(如:年代、文献类型、学科范围、语种等), 如果检出文献量过多,则要紧缩检索限定,如:限定检索词出现的字段, 增加检索词或限定,或拉近检索词的位置,或使用下位词等方式。 如果检出文献量过少,则要放宽检索限定,如:不/少限定检索词出现的字 段,减少检索词或限定,或拉远检索词的位置,或使用上位词等方式。
(5)检索方案的调整
由于计算机检索的实时性和互动性,给用户及时分析检索结果、调整检索方 案的可能。为了得到比较满意的最终结果,检索往往需要经过多次判断、多次 修改,哪一步不恰当就返回到哪一步去重新执行。
(6)检索结果的输出
检索结果的输出有多种,输出方式,包括 显示、复制、打印、传输、下载、E-mil邮件等, 输出形式包括目录、题录、文摘、全文或自定义形式等, 还可以对检索结果作出选择,加以输出。
第二章 信息检索
第一部分计算机信息检索
原来我们利用书目、卡片式等传统的手工检索方法。随着计算机 技术、通信技术的迅速发展,计算机信息检索技术成为当前的主 要检索工具。集中讨论计算机检索技术及其实现, 检索的策略和 检索步骤。综合介绍计算机检索的各种类型及其检索的一般方法。
一、计算机信息检索的概念
计算机信息检索就是指人们在计算机或计算机检索网络的终端 机上,使用特定的检索指令、检索词或检索策略,从计算机检索系 统的数据库中检索出所需信息,再由终端设备显示或打印出的过程。
(4)利用检出文献的信息,拓宽检索 考察检出相关文献的出处,从被检索出文献较多的期刊、 会议录、作者以及年代等为检索点出发,找到一批相关文献。 利用引文检索, 根据相关文献(全文)的“引用文献”或“参考目录” 条目 中所列出文献的出处又可找到一批相关文献。 (5)充分利用各种资源 使用各种导航工具、虚拟图书馆(网络专题资源的有序集合),进行全方 位的网络资源搜寻。 直接检索网上能获得的全文数据库。
相关主题