第二章信息检索基本方法
例1:计算机信息检索
提问式(检索表达式)为: 信息检索 AND 计算机 (信息检索 OR 文献检索) AND 计算机 信息检索 NOT 信息检索课
例2:数据挖掘在信息检索与信息分析中的应用
提问式为: 数据挖掘 * (信息检索 + 信息分析)
一个问题
布尔算符中的逻辑“与”只判断参加运算的检索词有 否在数据库记录中出现,而没有限定算符两侧检索词之 间的相对位臵关系,有时难免造成误检。
第四节 检索方法
为实现检索目标所采用的具体操作方法和手 段的总称。
检索方法很多,在检索过程中应根据检索系统的功能和 检索者的实际需求,灵活运用各种检索方法,以达到满 意的检索效果。常用的检索方法有:
一、工具法 也叫直接法或常用法 是指直接利用检索工具检索文献的方法。
顺查法:按由远到近的时间顺序查找文献信息的方法。
除核能以外的有关能源方面的文献才被命中。
逻辑检索概念示意图
A
B
A
B
A and B A*B
A or B A+B
A
B
B not A B-A
在上述逻辑算符中,其运算优先级顺序为 NOT,AND,OR,但是可以用括号改变它们之间 的运算顺序。例: (A OR C) AND B 表示先执行“A OR C”的检索,再与B进行AND 运算。例: 通信 or 通讯 and 加密 = 通信 or (通讯 and 加密 ) (通信 or 通讯) and 加密
与检索途径相对应,是它的具体化。
2、类型:
按规范程度分:规范词、规范代码、自由词 按表达特征形式分:主题、分类、责任者、特定意义 (代码、编号等)
二、检索标识的确定
1、必须反映课题内容和信息需求 2、要和数据库的标引标识相一致 3、对于有叙词或主题词表的,要优先选用叙词 或主题词 4、选用各学科内具有检索价值的基本名词或术 语 5、如无表可查,或表上无反映,则为自由词, 应加选其它词进行组配
第二章
信息检索基本方法
检索工具
第一节
定义: 用来报道、存储和查找各类信息的工具。
你都用过哪些检索工具?
• 检索系统/检索工具
二次文献 • 搜索引擎 • 数据库(目录/题录、文摘、索引、全文)
• 参考工具(字典、词典、百科全书、年鉴、 手册等) 三次文献 • 综述、述评等
目录
• 目录的含义
• 是图书、期刊等出版物外表特征的揭示和报道。 是指导阅读和科学管理文献的重要手段。 • 文献的外表:特征(外部特征)包括题名、著者、 出处、卷期、页码、时间、文献类型、语种等 • 目录以完整的出版物(如一本书、一种期刊)作 为著录的基本单位,所以也可说是按某种顺序编 排的文献清单。如: • 每个图书馆的馆藏目录,揭示该馆的馆藏情况 • 联合目录揭示多家图书馆的收藏情况
检索关键词“混合动力汽 车” hybrid electric vehicle, hybrid(1w)vehicle hybrid vehicle with laser(1w)printer 检索关键词“激光打印机” (n W) laser printer laser colour printer
2、词语类工具书
Dictionary,提供字、词的形、音、义和使用方法,以及 学科名词术语的含义、演变和发展。 字典:《新华字典》 词典:《辞海》、《汉语成语大词典》
3、资料类工具书
提供各种基本知识或某一课题的具体资料。 百科全书(Encyclopedia)是汇萃人类一切门 类知识或某一门类知识的工具书。 年鉴 (上一年度) 手册(指南、便览、大全) 名录(机构名录、人名录、地名录) 类书(古代文献) 政书(古代法律法规)
功用:
多用于新兴学科、交叉学科及其他复杂课题的文献检 索。 A、揭示科技文献之间的内在逻辑与联系,反映文献 之间引用与被引用的关系,体现了科学和技术的发展 过程,预测科学发展方向 B、评价科技文献的价值、科技人员及科研机构的工 作成绩和水平。 • 此后又研制出引文分析技术,为文献计量学、科学计 量学的研究提供了新的方法。
二、外表特征途径
1、题名途径: 书名、论文篇名、刊名、专利名、标准名等 2、责任者途径: 个人、团体 3、机构名称途径: 可以了解统计该机构的情况 4、编号途径: ISBN号、ISSN号、专利号、合同号 5、其他途径: 引文索引、会议索引
关于引文索引
定义:
以某一文献 (包括作者、题名、发表年份、出处等基本数据)作为标目, 标目下著录引用或参考过该文献的全部文献及出处。它主要供用户从被引 文献查找引用文献。 来源: 20世纪50年代,美国加菲尔德研制,主办费城科学情报研究所创办了: 《科学引文索引》(SCI,1963年创刊)、《社会科学引文索引》 (SSCI,1973年创刊)、《艺术与人文科学引文索引》(AHCI,1978年创刊), 并建立了引文索引数据库。 国内: 《中国科学引文数据库》 ( CSCD ) ,《中国人文社会科学引文数据库》 ( CHSSCD ) 中国科学院文献情报中心与中国学术期刊电子杂志社 《 中文社会科学引文索引 》 ( CSSCI ):由南京大学中国社会科学研究评价 中心开发研制 《中国期刊全文数据库》也具有引文检索的功能
4、表谱类工具书
以表格或其他较为整齐的形式,记录史实、时间、地理等资料, 并附以简略的文字说明,以反映史实和时间。包括: 年表、历表、表谱, 《中国历史纪年表》、《中西回史日历》
5、图录类工具书
以图形、图像、符号等为主体,附以简略的文字说明,以反映各 种事物、人物的空间特征和形象特征的工具书。包括: 地图、历史图录、文物图录、人物图录、艺术图录、科技图录
(1) (W) 最常用来替代短语中间的空格,可以简写为() (2) (n W) 可代替一个或多个任意词语,包括空格,且前后单词顺序 不变。( n代表自然数1,2,3,……)
(w) 检索关键词 “白色污染” white(W)pollution 或 white pollution, whitewhite()pollution 或() pollution
6、边缘类工具书
介于工具书与非工具书之间,既有一般图书的阅读功能,又有工 具书的查检功用的文献。包括: 资料汇编、史书、方志
小结: 一、语言文字的宝库 -- 字典、词典 二、事实数据便览 -- 年鉴、手册 三、没有围墙的大学 -- 百科全书 四、史实典故的宝山 -- 类书、政书 五、书山学海的向导 -- 目录、索引、文摘 六、名录、表谱、图录、资料汇编
• 数据库中文摘例:
著者
文摘必备的 著录项目 摘要 篇名 出处
名词辨析:文摘和摘要
参考工具书
工具书:根据一定需要,广泛收集某一范围有关资 料,按特定体例或方式编排,提供基本知识和文献 线索的一种特殊类型图书。 1、检索类工具书 主要对相关文献外表特征进行揭示和报道。包括:
目录(Bibliography/Catalogue) 题录(Title) 文摘(Abstract) 索引(Index):《社会科学引文索引》 将题名、人名、地名、字句及参考文献分别摘录,注明出 处
计算机检索系统实例:
深圳大学图书馆计算机管理集成系统中 检索子系统的检索方法:
提供了题名、著者、分类号、普通主 题、ISBN、索取号、登录号、ISSN、名称 主题、地名主题等十一个检索途径。
第三节 检索标识
一、定义与类型 1、定义: 即检索词,指能表达检索课题主题概念和信 息需求的名词术语、类号、名称及代码等的总称。
在实际检索中,为提高查准率,往往需对检索词 之间的位臵关系加以限定,因为用不用位臵逻辑算符 和用什么样的位臵逻辑算符,所得出的检索结果、查 准率都各不相同
不同检索系统所使用的位臵算符种类和功能
有所不同
常见的位置算符(以dialoge系统为例)
位置算符 表示方法 (W)或( ) 说明 两个词在命中结果中相邻(可有空格、标点 和连字符),词序不得颠倒。 两个词之间最多可夹入n个词,词序不得颠倒
with
(nW)
near
(N)
(nN)
两个词在命中结果中相邻,词序可颠倒。
两个词之间最多可夹入n个词,词序可颠倒。 两个词在同一字段出现,位置不固定。
field
(F)
subfield
link
(S)
(L)
两个词在同一子字段出现,位置不固定。
两个词在同一规范词单元内出现,位置不固 定。
位置算符With
例如:查找“细菌对染料破坏”方面的文献
检索词:细菌、染料、破坏 逻辑“与”组配 检索结果:命中同时用这三个词标引的文献 有“细菌对染料的破坏”方面的文献,也会有“染料 对细菌的破坏”方面的文献,要排除后一部分的文献, 就需用位臵算符限定词与词之间的位臵关系。
2、位置算符
位臵算符又称邻接运算符,用于表达各个 检索词之间在记录中的顺序与相对位臵关系
三、循环法
又叫综合法、交替法,是把上述两种方法加以 综合运用的方法。可获得较为全面而准确的文献。
第五节 检索技术
检索技术主要指检索词的组配技术和检索表达式的构成规
则。 表达检索词间逻辑关系、位置关系或对检索词书写方 法与范围进行限制的方法。 检索表达式又称检索提问式,主要是运用各种逻辑运算符 号、位置逻辑算符、截词符及其他限制符号等,把检索词 连接起来,确定检索词之间的关系,准确表达检索课题的 内容 例:金融*理论>=2004
文摘的特点与作用
• 确定相关性,即帮助读者判断所检索到的文献是 否合乎需要,从而决定原始文献的取舍。 • 一定程度上代替原文。科技人员阅读了著录较为 详细的文摘之后,大体上就掌握了原文内容要点, 不必再阅读原文了。这一点,对于那些难索取到 原文的“难得文献”尤为重要。 • 大大节省了科技人员查找和阅读文献的时间。 • 帮助克服语言障碍。在一种检索工具中,无论原 始文献是什么语种,其文摘都被译为统一的一种 语言(一般为英语)。