关键词检索技巧
文中,对描述文献主题内容具有实质意义的语词(可以作为检索“入 口”的)(张琪玉 , 1997)。例如Wood一词出现在了题名、摘要及
非控制词中:
• • Title: Wood-polymer composites prepared by the in situ polymerization of monomers within wood Abstract: Wood-polymer composites (WPCs) were prepared from poplar wood (P. ussuriensis Komarov) in a two-step procedure. Maleic anhydride (MAN) was first dissolved in acetone and impregnated into wood; • Uncontrolled terms: Wood cell wall Wood substrates
词的全称与缩写: Uranium-238、Uranium238 、U238、U-238、
如果考虑不周,就会蒙受损失!我必须复 杂地考虑如何才能查得全?找到同义词!
关键词检索之得与失--甄繁就简
三、关键词的检索
3、数据库简便直观的甄别功能
在52864条检索 结果中,与受控 词“Wood”相关 的记录有14562 条
文章用全称标 引时,用简称 是无法检索到 该文献;反之, 亦然。
关键词检索之得与失--甄繁就简
三、关键词的检索
1、随意性带来的方便与风险
我们随意地想到一个词 “wood”,就可以检索到一 定量的结果!惊喜之时,可 能落入“陷阱”!
关键词检索之得与失--甄繁就简
三、关键词的检索
当我们继续探究后,发现检索结果其 实数量远不止于此!
中国科学院国家科学图书馆
关键词检索的得与失 --甄繁就简
学科馆员: 吕俊生
主要内容
一.关键词及其特征 二.关键词的规范处理 三.关键词的检索 四.关键词检索效率的影响因素 五.参考文献
关键词检索之得与失--甄繁就简
一、关键词及其征
1、关键词及其构成原理
关键词是那些出现在文献的标题(篇名、章节名)以致摘要、正
文本作为关键词的载体可分为题名、小标题、章节名、摘要和正文等。
查准率考虑:由于题名最具有概括性,从针对文献整体的检准率来看,文献
题名中的词最为有效,其次为小标题、章节名、摘要、正文。 查全率考虑:由于题名对文献整体描述的针对性与概括性的要求较高,文献 中有意义的内容不可能被题名包揽无遗,造成查全率低。当对查全率有较高 的要求时,需要将检索扩展到摘要、正文。
1. 张琪玉,1997,情报语言学基础(增订二版)
关键词检索之得与失--甄繁就简
课件类别:数据库 制 作 人:吕俊生 联系方式:lvjs@
制作日期:2011-2-28
关键词检索之得与失--甄繁就简
中国科学院国家科学图书馆
谢谢!
请批评指正!
关键词检索之得与失--甄繁就简
四、关键词检索效率的影响因素
• 2、关键词检索系统中,查全率与查准率是反向关系,检
索策略要有倾向性:侧重点与平衡性。检索过程是一个不 断调整关键词或关键词组配调整的过程 :
增词 加义 趋限 势定
文献检索结果
查全率走势 查准率走势
关键词检索之得与失--甄繁就简
参考文献
组合检索之前,它们没有任何关系。
数个关键词可组成一个检索式 “农业”+ “化学物质” + “污染控制”
关键词检索之得与失--甄繁就简
二、关键词的规范处理
1、关键词的确定与范围
在数据库中,关键词不是逐个选定的,多数数据库也 没有一个关键词词表。相反,是用“排除法”来控制关键
词的范围,这个方法就是建立一个“非关键词表”:
关键词检索之得与失--甄繁就简
一、关键词及其特征
有一文献,题名是《农用化学物质的利用与污染控制 》,其中 “农用”、“化学物质”、“污染控制”三个词可作为关键词;而 “的”、“利用”、“与”在文中不起重要作用,属于次要词,不作
为关键词;而“化学”、“物质”、“污染”和“控制”不宜拆分,
因为这些词太“泛指”了,不能较准确地描述文献的意义。
关键词检索之得与失--甄繁就简
三、关键词的检索
我们用同义词“Pulp materials—Wood”检索到768条; 用相关词“Lumber”检索到2536条;、、、、、、就是 说,在当初的检索结果中,我们可能已经漏掉了许多相 关的文献!
关键词检索之得与失--甄繁就简
三、关键词的检索
2、随意性带来的繁琐性
关键词检索之得与失--甄繁就简
三、关键词的检索
4、从一个随意的“关键词”找到相关的控制词及分 类
“就简”: 从随意的检索词出发,就能获 得可观的检索结果 ——轻松; “甄繁”:
从随意性到规范性;
从模糊到清晰; 从“大量”到“精量” ——从容;
关键词检索之得与失--甄繁就简
三、关键词的检索
5、“繁”与“简”的提示
关键词 非关键词 不宜拆分的词组: “农业” “的” “化学物质” ≠ “化学物质” “污染控制” “利用”、 “化学” “污染” “与” “物质” ; “控制”
关键词检索之得与失--甄繁就简
“污染控制” ≠
一、关键词及其特征
以《农用化学物质的利用与污染控制 》为例: 若干 关键词的组合可以构成一条检索式,组合描述文献的关键 内容,但每个关键词在检索系统中却都是彼此孤立的,在
关键词检索之得与失--甄繁就简
二、关键词的规范处理
在用计算机自动选词的情况下,凡是“非关键词表” 中未列的词,都可作为关键词。哪些词被列入到“非关键 词表”呢?如,冠词、介词、连词、感叹词、代词、某些
副词、某些形容词、某些名词(如“理论”、“报告”、
“试验”、“学习”等)、某些动词(联系动词、情态动 词、助动词)。“非关键词”表的收词数量可随各专业用
统的检索效率,也要作一些规范化处理。
词和符号:β改写成beta;
用“beta”检索才有结果
用“β”检索无效
关键词检索之得与失--甄繁就简
二、关键词的规范处理
简称和全称
如:EI数据库中提示出一些常见的缩写 形式,告诉用户在检索时要兼顾全 称和缩写: 一些常用的缩写为:
• • • • • • • • • • • • • • • • • • • • • Academy Acad Association Assoc Bureau Bur Center/re Cent College Coll Company Co Corporation Corp Department Dep Division Div Incorporated Inc Institute Inst Institution Inst International Int Laboratory Lab Limited Ltd National Natl Published Pub Publisher Pub School Sch Society Soc University Univ
关键词检索是简捷的,但是,往往从直接的结果中难 以找到理想的答案;数据库为我们构建了一个进一步筛选
的通道,它为我们带来了方便!
在关键词检索中,还有数据库没有解决的“繁琐”问题, 我们需要靠自己去甄别,付出得多,得到得亦多!
关键词检索之得与失--甄繁就简
四、关键词检索效率的影响因素
1、作为关键词载体的文本类型的影响
词的情况及数据库构建的特定要求而定。
注:“非关键词”无法检索视不同数据库,有所不同。
关键词检索之得与失--甄繁就简
二、关键词的规范处理
INSPEC数据库规定, “非关键词”在“主题” 和“标题”中检索无效。
关键词检索之得与失--甄繁就简
二、关键词的规范处理
2、关键词的规范
关键词虽是直接利用自然语言的语词而不予规范的, 但由于语词本身的复杂性,在实际操作中为了提高检索系