当前位置:文档之家› 第三章计算机检索基本知识

第三章计算机检索基本知识


数据库的相关概念: 通俗地说,数据库就是由多张表构成的
字段(field)
ቤተ መጻሕፍቲ ባይዱ
记录 (record)
文档n 文档2 文档1(file):一张表就是一个文档
数据库结构图
数据库(database)
检索篇名
文章号 001 002 ……
篇名 asd bys vcx
索引文档1: 篇名索引
检索作者
文章号 001 002 ……
检索界面
命令方式:多用于大型联机检索系统,需输入各类复杂 的操作命令和检索表达式,多由专职人员上机。如大型 联机检索系统的Dialog、STN等界面
简易菜单式:多用于光盘检索系统,操作简单易学,有 丰富的提示和帮助功能,用户可自行上机。如光盘数据 库CA等。
超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
联机网络化与多元化检索时期 (1976---1990)
Internet网络化检索时期 (1990---至今)
二、数据库
在前面的课中讲过电子型信息资源,包括机读数据 库(网络数据库、光盘数据库)和网络信息资源等。它 们是计算机化信息检索系统的主要处理和查询对象。
数据库是发展最早、影响最广的一种电子信息源, 并且至今仍是一种主要的信息查询对象。
第三章 计算机检索基本知识
第一节 计算机检索概论
一、计算机信息检索的含义:
计算机检索是指人们在计算机或计算机检索网络的终 端机上,使用特定的检索指令、检索词和检索策略,从计 算机检索系统的数据库中检索出需要的信息,继而再由终 端设备显示或打印的过程
文档数 据库
手工检索:
查找

书本式检索工具
(文献条目)
所有文章
经过一次检索后
在上一次检索结果 的范围内进行再次 检索
使用位置算符
邻接检索:表明两或多个检索词之间关系的符号
常用的位置算符有:W/n(adj/n),N/n(near/n),
W/n表示两个词不可以互换顺序,二者之间可插入0-n个词 如智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机
注:不同的数据库所用的截词符不一样,使用应先查一下各数据库 的帮助加以确认
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等
通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
注:英文数据库通常用字母,中文数据库要用符号
使用截词符(通配符)——提高查全率,防止漏检的有力手段
包括有限截词和无限截词,常用的截词符有:*, #,?,!,$
有限截词——放在词中间或末尾,一个符号表示一个词 如:SDOS:wom*n 可检索出:woman,women(中间截断)
:chip? 可检索出:chips(右截断) 无限截词——放在司的末尾,一个符号表示任意多个词 如:SDOS:comput! 可检出:Computer,computers,computering
Intelligent robot or control(intelligent robot+control) 表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或 control Intelligent robot not control(intelligent robot-control) 表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容
脱机信息检索系统 ----单台计算机;定期(一个或半个月)检索一次;专职
检索人员统一处理,用户接触不到计算机;用作大批量 的定题信息检索 联机信息检索系统 ----一台主机带多个终端,相互独立的终端可同时进行检 索;对用户的提问能及时处理,用户可随时修改提问; 通过专用信息网,可跨国家进行检索
光盘信息检索系统:数据存储在光盘(一种用激光记录 和读取信息的盘片),通过检索软件,利用计算机和光 盘驱动器进行检索。可形成光盘检索网络。
网络化(internet)信息检索系统:同联机检索系统的主 机和用户终端的主从关系不同,客户机和服务器是对等 的关系
计算机检索的发展
脱机批处理检索时期 Off-lineBatchProcessing (1954---1964)
联机实时检索时期 On-line Real Time (1965--- 1975)
3、私营公司 例如:英国Derwent公司 美国Knight-Ridder公司 Mead Data Contral OVID公司 Silver Platter Information,Inc.
4、传统新闻/出版机构 例如: 德国Springer出版社 美国Join Wiley电子出版公司 荷兰Elsevier科学出版社
数据库生产商:
主要包括以下4类成员: 1。传统从事文献及其报道工作的学术团体与学术机构
例如:美国化学文摘社CAS 国际电子电气工程师协会IEEE 美国生物科学情报社BIOSIS 美国科学情报社ISI
2。政府机构 例如:美国技术情报服务处NTIS 美国国家航空航天局NASA 美国专利商标局USPTO
器人行为控制”等 N/n表示两个词可以互换顺序,二者之间可插入n个词
如智能机器人(n/3)控制,可检出“智能机器人控制”,“..控制算 法对智能机器人的影响”等
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。
第二节 检索技术
数据库是具有高度的组织结构性,因此,需要一定 的计算机可以理解的检索方式
使用布尔逻辑运算符
Intelligent robot and control(intelligent robot*control) 表明查询结果中必须同时包含intelligent robot和control
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接) 2、选择较大检索范围的字段如摘要 3、使用截词符 4、使用上位词(如飞行器 航天飞机 载人航天飞机)
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索 5、使用下位词 6、使用精确检索,如对于固定短语来说可用“”引起来
位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词组 来检索的 如:“hypermedia database” ;“profit and loss”将查找 profit and loss
禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with等将被自动忽略
相同点:均需经过标 引,提炼出文献标识
计算机检索:
检 索 指 令


计找 算

不同点:前者按主题 词、分类、著者等进 行编排;后者按文档 号编排(检索时自动 生成索引文档)
数据库(文献条目)
手工检索的特点(和计算机检索相比较):
优点:1.发展早,可检索的时间范围广 2.所有内容都呈现在读者面前,容易对比并发现新 的线索
主文档
全文 …….. …….. ……..
字段:如在数据库中题名、作者、作者单位、期刊名、摘要、 全文等等均是字段;一条记录由多个字段值组成;对计算机检 索来说字段相当于检索入口。如:
字段可分: 基本索引字段:描术文献内容特征的字段如篇名(/TI)、文摘 (/AB) 辅助索引字段:描述文献外部特征的字段如著者(AU=)、著者单 位(AA=)、语种(LA=)、出版年(PY=)等
作者 Li
Wang deng
索引文档2: 作者索引
文章号唯一,且 索引文档与主文 档的文章号一一 对应
当你要在篇名中查找 时,搜索指令将在篇名 索引中进行搜索,然后 将主文档中对应的记录 调出来
文章号 001 002 ……
篇名 asd bys vca
作者 Li
文摘 Xxx
Wang Yyy
deng zzz
数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目 型、全文型
按存储的介质分:
光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
按照国际上通用的分类方法:
参考数据库(reference database):如书目数据库、文摘数 据库,获得的数据为reference 源数据库(source database):如全文数据库,数值型数据 库,可直接获得原如资料或数据 混合数据库(mixed database):兼有以上二者
缺点:1.查找繁琐,效率低下 2.只能查找原文的线索,无法直接获取全文 3.检索途径相对较少,且无法灵活地编制检索策略
计算机检索系统:检索者,检索终端(PC机,同时也是
输出端),网络(或通信电缆),数据库存储服务器
检索终端
通信网
INTERNET
结果返回
服务器(数据库终 端)
结果输出

计算机检索系统的类型
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索 式,如EI数据库的高级检索。
相关主题