当前位置:文档之家› 文献检索与科技论文写作课件_第二章 计算机检索基本原理

文献检索与科技论文写作课件_第二章 计算机检索基本原理


倒排文档:把顺排文档中的标引词抽出,按标引词的
字母顺序依次排列而成的文档。倒排文档实际上相当 于印刷型检索工具中的辅助索引。 索引文档 倒排文档
基本索引文档:后缀倒排索引文档
辅助索引文档: 前缀倒排索引文档
存取号文档
倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元,倒排文档 以记录中的字段作为处理和检索的单元。
2)字段:是文献记录的基本单元。一条记录有若干个字
段,一个字段有时还可分为几个子字段(Subfield)。在 书目数据库中,一条记录应包含原始文献的篇名、作者、 刊名、出版时间、分类号、文摘、主题词等字段。 数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名、文 摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机 构名称、语种、文献来源等字段。
作用:可缩小检索范围,提高查准率。
要求:运用时,把出现频率低的检索词置于“与”的左 端,可使否定答案尽早出现,节省机时。
A
B
A and B;A*B
1)Boolean
Search(布尔逻辑检索)
• 逻辑“或”:OR;or;+
定义:表示两个概念的并列,即被命中的文献含有两词之 一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于“或” 的左面,可使选中的答案尽早出现。
AN=:Dialog存取号(Dialog Access Number)。 在一个数据库中,每条记录只有一个存取号,两 者一一对应。 /TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在单位字段(Corporate Source)。 SO=:文献来源字段(Source Publication)。包括 期刊名称、年,卷、 期、页等,或包括会议事项。 PY=:出版年份(Publication Year)。 CO=:期刊代码字段(CODEN)。 LA=:语种字段(Language),表示原文的语种。
A
B
A or B;A+B; computer or robot
1)Boolean Search(两个概念的排除,即被检索文献在含有检索词 A而不含有检索词B时才被命中。
作用:用于排斥关系的组配,即从原来的检索范围排除不 需要的概念或影响检索结果的概念,提高查准率。
• computer/TI,AB:表示在TI和AB字段 中检索computer。 • AU=Wang fang and PY > = 2000:表示 查找王芳于2000年以来发表的文章。
5)禁用词(stop words):
以下单词作为检索词时,系统将自动忽略并用空格取代之进 行检索。 also、an、and、are、as、be、been、between、both、 but、by、did、from、has、have、into、not、of、or、should、 some、such、than、that、the、their、them、themselves、 these、they、this、those、through、to、using、were、when、 which、with、would
AN= DIALOG NO:03883137 EI Monthly NO;EIP94031231114 /TI Title:Laser/Light imaging for underwater use AU= Author:Caimin,Frank M. SO= Source:Sca Technology,V.34 NO.12 Dec.1993.P.22--27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651 LA= Language.English DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); /AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described , in particular the range galed imaging , field—limited imaging , and 3-D Structured inter ferometric illumination systems. /DE Description: * Imaging techniques: Laser application; engineering;Vision /ID Identifiers:Laser light imaging;Underwater technology CC= EI Classification Codes;
位置算符
(N)与(nN)—— (N)算符是“near”的缩写,表示此算符两边的检索词 必须紧密相连,此间不允许插入其他单词或字母,但词序 可以颠倒,而(nN)算符则表示在两个检索词之间最多可 以插入n个单词,且词序可以颠倒。
如: economic(2N)recovery,可以检出:economic recovery, recovery of the economy, recovery from economic troubles。
2)源数据库:存储事实、数值、概念、图形等非文献数
据的数据库
• 数值数据库:提供以数值方式表示信息的一种源数据
库,其检索结果可能只是单一的值或一组数据。数值数 据库能提供产品价格等数值信息,也可提供物质的物理 化学性质、结构、频谱等数据。 理的各种事实,如机构、人物、产品、资源等数据。常 见的有指南数据库、产品数据库等。 词典数据库、语料库等。
3)截词检索:*;?
• 定义:允许检索词有一定范围的变化。检索时将 截词符置于检索词允许变化的部位,只要检索词 和标引词的词干相同即为命中文献。 • 作用:减少检索词的输入量,扩大检索范围 ,提 高检索效率。 • 注意:使用截词检索必须慎重,一是词干不要太 短,以免检出许多与原来检索词不相关的文献记 录,二是英美不同拼法的词,如变化字母数不同 则不能使用中间截词检索,必须详细写出并用OR 组配后输入。
• 事实数据库:自原始文献或社会调查中获得并经过处
• 概念数据库:库内存储各种名词术语或语言资料,如
• 多媒体数据库:将各种类型的信息集中在CD—ROM
上,是视频、音频、文字、图像、动画等的集合体,如 一些互动性的百科全书。
1.2.3数据库的构成
1)记录:是数据库的基本单元,是对某一实体属性 进行描述的结果。一个数据库由若干条记录构成。 每条记录相当于文摘型或题录型检索刊物的一条 著录款目。 文献记录格式(以Dialog系统中EICompendexPlus数据 库为例)如下:
2 计算机检索的基本原理与技术
2.1检索原理
检索提问 匹配运算
命中文献
数据库
2.2检索功能
• • • • • • 布尔逻辑检索功能 词间位置检索功能 截词检索功能 限定字段检索功能 禁用词 其他功能
1)Boolean Search(布尔逻辑检索)
• 逻辑“与”:AND ;and;*
定义:用于交叉概念或限定关系的组配,即被命中的文 献必须同时含有检索项A和B。
注意:往往会把切题的文献给丢掉,运用时要非常慎重。
A
B
A not B;A-B;
2)位置检索:
• 表达检索词之间位置关系的一种检索 • 位置算符
位置算符
(W)与(nW)—— (W)算符是“word”或“with”的缩写,表示此算符两 边的检索词词序不能颠倒,两个词之间可有一个空格、或 一个标点符号、或一个连接号; (nW)则表示两个检索词之间最多嵌入n个词。 例如,检索“CD-ROM” 可用 CD(W)ROM; 而用price(2W)inflation , 则可能检出price levels and inflation。
1.2.2类型 1.2.3构成
1.2.2文献数据库类型(据数据库所含信息内容

1)文献数据库:存储文献型数据,如一次文献或二次文
献 • 书目数据库(二次文献数据库):包括各种文摘、索引、 目录。存贮某个领域原始文献的书目。组成记录的 字段一般有文献的标题、作者、出处、文摘、主题 词等。 • 全文数据库:存贮文献全文或其中主要部分的数据库。 能使用户获得最终的一次文献。
• 分类: 按截词位置:前截断;后截断;中间 截断 按截词方式:无限截词;有限截词; 中间截词
前截断:将截词符放在词根前边,后方一致,表 示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、 ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表 示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、 metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方 一致。 如colo*r,能够检出含有colour、color的记录。
无限截词:指允许截去的字符数量不限,也称开放式截 断。如前截断和后截断 有限截词:允许截去有限个字符。如dye***(n*) ,能 够检出含有dyer、dye、dyed、dyeing等词的记录。 中间截词:如中间截断。
4)限定字段检索:
• 定义:将检索过程限定在记录的特定的 字段中进行。 • 作用:缩小或约束检索结果 ,提高检索 效率。 • 检索符号:in、=、<、>、 > = 、 < =等。
位置算符
(X)与(nX)——
(X)算符要求其两边的检索词完全一致,并以指定的 顺序相邻,中间不允许插入任何单词或字母; (nX)算符则表示两边的检索词之间最多可以插入n个单 元词,但两边的检索词也必须一致。 词位置检索是很有用的检索技术,它可以规定词组中各 词的前后次序,防止错误的搭配和输出;它也可以替代词组 中的禁用词。DIALOG系统有9个禁用词:AND、FOR、 THE、AN、FROM、TO、BY、OF、WITH,如果在编制 检索式时碰到禁用词,就要用词位置算符代替它。
相关主题