当前位置:文档之家› 第二讲 网络信息检索基本方法

第二讲 网络信息检索基本方法


截词检索与截词检索算符
无限截断——同根词检索
后截断
如:physic*
Physic physics
physicst physicalism
也称“右截”
有限截断——单复数
如:physic??
Physic physics
physicst
前截断— —同根词检 索
computer
如:*computer
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或 者是逗号。 【实例】在OCLC中输入communication w satellite;
②wN (with N)算符
LOGO
第二讲
2010-9-13
网络信息检索基本方法
【目的与要求】 掌握布尔逻辑检索等网络信息检索的基本技术。 熟悉网络信息检索的途径和步骤。
【重点】 布尔逻辑语言、邻近检索、截词检索
【难点】 邻近检索
影响信息检索质量的因素
信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐) 检索软件对信息检索的影响(不同的搜索引擎,数据库系统) 用户水平对信息检索的影响
6. 区分大小写检索(case-sensitive)
china--china,China,CHINA China—China Windows, windows
7. 模糊检索(fuzzy search)
又称概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈 包括了该关键词的网址,同时也发来与关键词意义相近的内容。 如 “检索”, 查找,寻找, 找寻, 找一找……. 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、 “洋芋”等含义相近或相关的内容。 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
“左截”
microcomputer minicomputer
中截断——用 于中美拼写不同 和单复数
如:m?n
man men
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。
运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
实例:
【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND 保护”
大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在 特定的范围中,如: 标题(title) 图像(image) 文本(text) 统一资源定位符(url) 网站(site) 链接(link)
举例:url: Link: site:
Exercise 2:
查找华中科技大学罗俊院士1999年以来发表的文章? AU=Luo Jun AND(CS= Huazhong Univ* )AND PY>=1999
查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。
“The legislation of human cloning” or human clone and legislat* and LA=English and PY=2002
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只能用“-”而 不能用“NO “与”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A WN B AB两词靠近,次序为A先B后,中间最多可 加n个词。
【实例】在EBSCO中输入communication w3 satellite;
③N(Near)算符
N( Near)表示两个检索词可以互换顺,二者之间只能间隔 连字符、空格或者是逗号。 表达式:A N B :AB两词靠近,次序可变。 【实例】在OCLC中输入communication n satellite;
8.自然语言检索(natural language search)
即直接采用自然语言中的字、词、句进行提问式检索, 同一般口语一样。 智能检索 Could you please give me some information on English literature? 这种智能检索也是搜索引擎发展的趋势。
3. 邻近检索(proximity search)
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系, 从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面 以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也 是如此。
4.截词检索(truncation/wildcat)
截词检索又称部分一致检索,是指在检索标识中保留相同的部分, 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
②查找有关冬虫夏草的文献: “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
Exercise1:
网络信息检索的基本技术
网络信息检索 基本方法
网络信息检索检索过程的实质:
计算机将检索提 问词
MACTH
文献记录标引词
一、网络信息检索的基本技术
邻近检索
基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代 的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布 尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、 表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题 检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非 (not,-)”。
相关主题