第4讲文献检索策略
2.选择检索工具
1)选择检索工具 不同类型的科技文献,其检索工具往往也不同。在检索文 献信息时,要确定利用哪些检索工具,以哪种检索工具为 重点来查找文献。检索工具选择恰当与否,直接影响检索 效果。选择检索工具时,要根据具体情况,考虑到以下几 个方面的因素: a.检索工具报道文献的学科专业范围。 b.检索工具所报道的文献类型。 c.检索工具所收录文献的语种。 d.检索工具提供的检索途径。 同时,还应从本单位本地区现有检索工具的实际情况出发 选择检索工具。
5.其他检索技术
三、文献信息资源的检索策略 即在分析检索课题内容实质基础上, 选择检索系统、检索途径、确定 检索词及其相互间的逻辑关系等 的信息检索方案。
检索策略
1
分析课题,明确文献需求
选择检索工具 确定检索途径和检索词,构造检索式 调整检索策略,查找文献线索,获取全文
2
3
4
1.分析课题,明确文献需求
查全率
查全率:是指检出的相关文献量与检索系 统中文献总量的比率。可用下面的公式 表示:
检出的相关文献量 系统中相关文献总量
查全率=
*100%
例如,要利用某个检索系统查某课题。假设在该系统文献库中共 有相关文献为40篇,而只检索出来30篇,那么查全率就等于 75% 。
查准率
查准率:是指检出的相关文献量与检出的文 献总量的比率。可用下面的公式表示: 查准率=
再如:
检索1994年以后出版的有关计算机文 献检索的论文: 检索式:计算机/SUBJECT*文献检 索/SUBJECT|250a﹥1994 250a是出版年字段标识。该检索式先 进行主题词“计算机”和“文献检索” 的逻辑乘运算,在命中的文献集合中再 用出版年条件进行限制检索。
大小写敏感:指西文检索系统中对用户检索式 包含的大小写的处理方式。有些检索系统严格 按照用户输入的大小写来处理。 禁用词表:在西文数据库中,系统对信息进行 标引时,不能做标引词或检索词的语词,包括 介词、冠词、代词、连接词、某些形容词或副 词等。这部分词语由于使用频率过高,不能反 映信息的实际内容,即使用户输入,系统也不 会对其进行检索。不同系统的禁用词表略有不 同。
一、文献检索的原理
文献检索(Literature Retrieval)
从狭义来讲是指利用检索工具查找文献的 过程,而从广义来讲则包括文献存贮 (Storage)和检索(Search)两个方面, 存贮和检索构成检索系统,检索系统的具 体体现是检索工具。
检索系统
检索系统最终是以检索工具的形式表现出来的。在建立检索工 具时,最关键的是检索语言和检索标识,在检索系统中存贮和 检索都需要它,也是掌握检索工具最关键所在。
文献检索的效果评价
判定一个检索系统的优劣,主要从质量、费 用和时间三方面来衡量。 质量标准主要通过查全率与查准率进行评价。 费用标准即检索费用是指用户为检索课题所投入 的费用。 时间标准是指花费时间,包括检索准备时间、检 索过程时间、获取文献时间等。 查全率和查准率是判定检索效果的主要标准。
3.确定检索途径、检索词, 构造检索式
数据库所设的检索途径不同,比较常用的检 索途径有分类、题名、关键词、作者等, 选择不同的检索途径可以实现文献的不同 角度归类检索。
主题途径为主,多种检索途径 综合运用的原则
4.调整检索策略查找线索,
获取全文
根据反馈的检索结果,反复对检索式进行 调整,直到得到满意的结果。 对检索结果数量比较少的,可以进行扩检, 提高查全率。 对检索结果过多的,进行缩检,提高查准 率。 “检索就是不断试错的过程。”
逻辑“与”—“AND”
也叫逻辑乘,表示它所连 接的两个检索词必须同时 出现在结果中。 可以缩小命中范围,起到 缩检作用。 检索式可写为:A AND B。含义为A与B的重合部 分。 还有些数据库中用“*” 或其他符号表示逻辑
逻辑“与”—“AND”举例:
逻辑“或” —“OR”
也叫逻辑和,表示它所连接 的两个检索词中任意一个出 现在结果中就满足检索条件。 检索式可写为:A OR B。 它表示概念并列关系的一种 组配,用来扩大检索范围和 保证查全率。 还有些数据库中用“+” 表示 逻辑“或”。
(W)、( nW) (N)、(nN)
(W)算符是 “With”的缩写,表示连 接的两个检索词相邻,并且先后顺序不 能颠倒。检索表达式为: A(W)B。 N(W)表示连接的两个检索词之间最多 可以插入n个词(在中文方式下表示n个 字),而且前后顺序不能颠倒。检索式 可表达为:A(nW)B。
例如:
二.常用文献检索技术
1.布尔逻辑检索 2.截词检索 3.词位限定检索 4.字段限定检索 5.其他检索技术:大小写敏感、禁用词表
1.布尔逻辑检索
即运用布尔逻辑组配符对检索词进行逻 辑组配,表达两个概念之间的逻辑关系。 常用的组配符有: “AND”(并且) 、 “OR” (或者) 、“NOT”(不包含)三 种。 在中文数据库中,布尔逻辑算符有时用 AND、OR、NOT下拉菜单表示。 “与”、“或”、“非”
(N)
表示连接的两个检索词相邻,先后顺序可以 颠倒.
4.字段限定检索
限制检索,也称字段检索。
限制检索表达式指用限制符限定检
索词出现范围的检索式。 常用的字段限定代码有:标题(TI, title)、作者(AU,author)、主题词 (SU, subject)、年代(PY, publication year)、关键词 (keyword)等。
文献信息 检索与利用
上节课重点回顾
1.文献检索语言
2.文献检索途径 3. 文献检索方法
1、文献检索语言
1、分类检索语言
按照一定的分类体系,对文献信息进行编排组织
2、主题检索语言
以词语作为表达主题概念的标识,按字顺编排的检 索语言
3、代码语言
指对事物的某方面特征,用某种代码系统来表示和 排列事物概念的检索语言。
提高检索效果的措施 提高查全率的方法
1、降低检索词的专指度,换用一些上位词或相关词, 重新组成检索式。如使用“赤字财政政策”这一专 指度较高的主题词作为检索词,其查全率就很低, 宜选用“赤字财政”、“财政政策”等词编制成逻 辑提问式。 2、增加同义词、近义词或相关词的逻辑或运算。如 需要检索有关“社会主义市场经济下财政体制改革” 的资料,如果只用“经济体制改革”与其他主题词 进行逻辑乘匹配,则标引为“税制改革”、“财税 改革”等词的信息就会漏检,造成查全率下降。
2、文献检索途径
所谓检索途径就是检索时切入信息群体 的路径。
文献检索途径包括题名途径、著者途径、 分类途径、主题途径、号码途径和其他途径等。
3、文献检索方法
(1)顺查法
(2)倒查法 (3)抽查法
(4)追溯法
(5)综合法
本节课重点
1.文献检索的原理
2. 信息检索技术
3. 信息检索策略 4.文献检索的效果评价
(2) 影响查准率的因素
影响查准率的因素主要有:索引 词不能准确描述文献主题和检索要求; 组配规则不严密;选词及词间关系不正 确;标引过于详尽;组配错误;检索时 所用检索词(或检索式)专指度不够, 检索面宽于检索要求;检索系统不具备 逻辑"非"功能和反馈功能;检索式中允许 容纳的词数量有限;截词部位不当,检 索式中使用逻辑"或"不当等等
例如:
ቤተ መጻሕፍቲ ባይዱ
要查询在期刊《经济研究》发表的政治经济学研 究的文献,就可以在主题词逻辑检索式中增加一 个母体文献名字段限制检索。其检索式: 政治经济学/SUBJECT*理论研究 /SUBJECT|经济研究/463 “|”是限制检索符,“/”的左方是检索词,右方 是索引标识或字段标识。SUBJECT是主题词索 引标识,463是母体文献字段标识,“*”是 “逻辑与”运算符。
检出相关文献量 检出文献总量
*100%
影响检索效果的因素
查全率与查准率是评价检索效果的两项 重要指标,查全率和查准率与文献的存 储与信息检索两个方面是直接相关的, 也就是说,与系统的收录范围、索引语 言、标引工作和检索工作等有着非常密 切的关系。
(1) 影响查全率的因素
影响查全率的因素从文献存储来看,主要有: 文献库收录文献不全;索引词汇缺乏控制和专指 性;词表结构不完整;词间关系模糊或不正确; 标引不详;标引前后不一致;标引人员遗漏了原 文的重要概念或用词不当等。 从检索来看,主要有:检索策略过于简单;选 词和进行逻辑组配不当;检索途径和方法太少; 检索人员业务不熟练和缺乏耐心;检索系统不具 备截词功能和反馈功能,检索时不能全面地描述 检索要求等。
socialist(1W)economy 可能检出的有: socialist commodity economy socialist planned economy socialist national economy等 等。
再如:
如果检索式为“文献(2W)检索”, 则“文献信息检索”、“文献资源检索” 均为命中文献; 如果检索式为“文献(W)检索”,则 “文献信息检索”、“文献资源检索” 均为非命中文献。
四、文献检索的效果评价
检索效果(retrieval effectiveness)是指检索系统 检索的有效程度。 检索效果包括技术效果和经济效果两方面。 技术效果主要指系统的性能和服务质量,它是由 检索系统实现其功能的能力所确定的; 经济效果主要指检索系统服务所花费的成本和时 间,它是由检索系统完成其检索服务的代价所确 定的。