当前位置:文档之家› 数据库检索策略

数据库检索策略


(2)二次检索 (3)精炼功能
(哪个数据库有精炼功能,以及可精炼的项目)
(4)分析功能
(哪个数据库有分析功能,以及可分析的项目)
(5)有无自动截词功能 (6)数据库自带的独特功能
6
检索策略分析举例
检索课题“抗糖尿病药物罗格列酮的合成”
1 分析课题
药物合成领域,重点在于该药物的合成而非应用
2 选择检索词

选择较小字段:如篇名(题名)、题名或关键词字段
尽量增加核心检索词:从内容中挖掘核心词
使用词位检索 采用精确匹配/精确短语功能 采用“AND” 或“NOT”算符连接检索词或进行二次检索。 减少同义词、同族相关词等相关性不强的检索词。
检索结果很少或为零的原因及解决方法
(1)未按数据库检索规定
此基础上去查询新的文献。
2
选择检索词
检索词是概括检索需求的简洁词语 用于检索的所有词汇都是检索词
– – – – – –
检索词的全称、简称、俗称与英文缩写 检索词的上下位类扩展 外来词的译写变化 少用或不用对课题意义不大的词 深入课题寻找检索词 外文检索词的多种写法
检索词选择技巧
以用户提供的关键词为参考,根据检索要求复核、筛选、补充、精 炼检索用词。 选定的检索词应符合检索目的;确认检索词是否为规范词;并列出 常用中外文同义词、缩写词, 以及核检索用词。
检索式要根据自己的需求以及检索结果不断动态调整, 兼顾查全与查准最终检索到满意的结果
一 般 检 索 流 程
(1)明确检索目的 (2)选择数据库 (3)确定检索词(中英文检索词,检索词与检索字段对应) (4)选择检索字段(专业检索编写检索式) (5)选择各种限制条件 期刊范围/年限/学科范围/精确/模糊/词频/排序方式 (6)根据初次检索结果调整检索策略(考虑查全与查准) 重新检索/二次检索/精炼检索等 (7)下载题录;或下载/索取全文
核心词汇为罗格列酮和合成,根据搜索引擎或数据库初步检索或自己的专 业知识知道罗格列酮属于噻唑烷二酮类的化合物,俗称TZDs。
还可以从其他结构相近的抗糖尿病药物例如曲格列酮等列同类药物的合 成入手检索到可以运用到罗格列酮的合成的方法;
得到还可以用的检索词为 噻唑烷二酮、TZDs、列酮。
而且“合成” 最主要的替代词是“制备”,还可以衍生为“制造”、 “生产”等; 如果还想扩大范围,可将检索主题扩大至“抗糖尿病药物的合成”, 糖尿病其实就是因为体内周围组织对胰岛素促进葡萄糖的吸收、转化、 利用发生了抵抗而使血糖升高)。
(具体检索式构造请参见课件《字段与检索式》)
4
考虑查全与查准,调整检索策略
1.查全率
2.查准率
3.漏检率 4.误检率
漏检率=1-查全率 误检率=1-查准率
* 查全与查准相互制约、此消彼长 * 检索原则:兼顾查全与查准
D
A
C
B
D:检索系统中所有信息的总量 A:在系统中存在着且能满足信息检索需求的相关信息总量 B:本次检索输出信息量 C:本次检索输出的且与需求相关信息数量 C=A∩B,即合理命中的信息量
(1)未按数据库检索规定
运算次序(比如逻辑或的关系的检索词没有列在前面) 只允许用半角符号错用了全角

(2)对课题分析不到位,检索策略不当
主题太宽泛 检索词太宽泛 字段太宽泛 缩写引起多义性误检

(3)该领域的文Βιβλιοθήκη 确实很多5利用各数据库的功能
(1)各种限制条件
(期刊范围/年限/学科范围/精确/模糊/词频/排序方式/文献类 型/语种选择等等)
查全率= C / A×100% 查准率= C / B×100%
提高查全率的方法

选择较大字段:如摘要、主题、全文、任意字段等
尽量多用同义词、近义词、反义词、缩写词、上下位类词(增加逻
辑或关系)

减少逻辑与关系(限制条件)


采用模糊匹配功能
扩大检索年限 使用截词符(*?$)
提高查准率的方法
数据库检索策略
1 分析课题 2 选择检索词
3 编制检索式
4 查全与查准 5 利用各数据库的功能 6 检索策略分析举例
1
分析课题
通常要解决以下问题:
– 课题的范围、类型及所属的专业领域 – 课题的主要内容和重点
– 课题的核心概念和术语
– 课题所需信息的时间范围和语种 – 课题对查全和查准的倾向性
首选手册、百科全书、专著等三次文献作为分析课题的手段,在
例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。 进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的 检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或 者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留 1-2个作为检索词。 适合在“摘要”或“全文”字段使用! 本课题最主要的核心词汇是“非常规”“天然气”!
检索式中的算符包括:布尔逻辑算符、 位置算符、 截词符、 限制算符、 系统规定的其他组配连接符号
检索式构造注意事项
1、构造的检索式只是一个表达式,该表达式不一定就能 在数据库的专业检索方式下直接复制到检索框中检索,要 看每个数据库的检索式输入要求;
2、检索词的输入以及逻辑算符的输入或选择要遵循所选 择的数据库的逻辑运算顺序,以避免输入的经过检索运算 后得到的结果与构造的检索表达式不符。 3、查看每个数据库的检索帮助和字段代码表。
(1) 立足规范词,兼顾自由词
胶粘剂: 黏合剂、粘合剂、粘固剂、粘结剂、粘附剂、 胶黏剂、胶合剂、粘接剂、粘胶剂
(2) 注意词的全称、简称及缩写字母
乙型病毒性肝炎(乙型肝炎、乙肝、HBV)
(3)必要时应向上下位类词扩检
电阻焊(点焊、缝焊、凸焊)
(4)注意外来词的译写变化
波尔兹曼(玻耳兹曼、玻尔兹曼、波耳兹曼、波尔茨曼、Boltzmann ) 欧几里德(欧几里得、欧基里德、欧几理德、欧氏几何、 Euclid )
2).删除
删除是对自然语言中不具有实质性检索意义的:
虚词(如介词、连词、副词等), 使用频率较低的词, 专指性太高、过分宽泛的词 过分具体的限定词 不能表达课题实质的高频词(研究、发展等) 存在蕴含关系可以合并的词(检索词重复或包含)
英语或汉语中都有许多虚词,不能作为检索词。
如:汉语中“的、地、得、了”等助词 英语中的a about also and any as at be between by both for some so not this with 等介词或冠词等
得到还可以用的检索词为 制备、制造、生产; 糖尿病、血糖、胰岛素 。
3 制定检索策略,编制检索式
罗格列酮*(合成+制备)
(噻唑烷二酮+TZDs+列酮)*(合成+制备)
(罗格列酮+噻唑烷二酮+TZDs+列酮)*(合成+制备+制造+生产) (噻唑烷二酮+TZDs+列酮)*(合成+制备+制造+生产) (糖尿病+血糖+胰岛素 )*(合成+制备+制造+生产)
3).扩展
想查全应当将核心词汇进行扩展(同义词、近义词、上下位词)。 例1:检索“妇女吸烟与肺癌的关系研究”相关文献。 核心词:吸烟,肺癌 扩展:抽烟,烟,癌症,肿瘤,恶性肿瘤
例2:检索“人工智能技术在计算机辅助教学中的应用与实现”相关文献。 核心词:人工智能、计算机辅助设计 扩展:同义词:智能模拟 下位概念:模式识别、自然语言理解与生成、 专家系统、自动程序设计 、数据智能检索, 计算机辅助教学系统 (computer Aided Instruction ,CAD )
(5)同义词的选择方法
利用数据库的同义词选择功能、利用搜索引擎寻找同义词 从数据库检索结果中寻找同义词、利用自己的专业知识 利用自己平时积累的知识
利用搜索引擎 查找同义词
检索词选择要点
1).切分
切分是对课题的语句以词为单位进行拆分,转换为检索的最小 单元。 例1:检索“妇女吸烟与肺癌的关系研究”相关文献。 直接切分:妇女|吸烟|与|肺癌|的|关系|研究 注意:当词切分后将失去原来的意思时,不应再切分,即必须注意 保持意义的完整。 如“中国科学院”、“电子邮件”不可再切分。
运算次序(将逻辑或误填为逻辑与) 高级检索在检索框中使用了逻辑算符 初级检索在检索框中同时使用逻辑算符和精确匹配

(2)检索条件过于严格
使用过多的逻辑与 对字段限定太严

(3)检索词不当
选用了不规范的主题词或某些产品的俗称、商品名 同义词等没能运用全 多数数据库难以实现对命名较复杂化合物的检索

(4)望文生义,没有发现隐含概念
利用专著、综述、网上资源仔细分析课题 阅读检索到的文献,不断调整检索策略

(5)确实未曾有此方面研究的报道
丢掉一些次要概念,用一两个最核心的检索词进行检索,然后人工筛选 A物质+B方法,可借鉴C物质+B方法或A物质+E方法,借鉴一切可以借鉴的前人文献

检索结果太多的原因及解决方法
英文检索词的选择
(请参见后续课件)
3
制定检索策略,编制检索式
检索策略是检索前制定的检索概念组配和执行顺序的方案,是表 达用户具体的检索思想与检索要求。 信息检索成功与否,检索的查全率与查准率能否实现,都与检索 策略的关系及其密切。
在计算机检索中,检索策略具体表现为检索式。 检索式将各个检索词之间的逻辑关系、位置关系等用检索系统规 定的各种组配算符连接起来,成为计算机可识别和执行的检索命令形 式。完整检索式由检索字段、检索词和逻辑算符构成。
THANKS FOR YOUR ATTENTION
相关主题