当前位置:文档之家› 信息检索基本方法教案.doc

信息检索基本方法教案.doc

布尔逻辑检索 Boolean logic由 GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都采用与AND,*,&或OR,+ ,︱非 NOT,—, !逻辑“与” : 用关系词 AND表示 ( 可写作“ * ”或“ &”) 。

逻辑“与”表示 AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。

逻辑“或” : 用关系词 OR表示 ( 可写作“ +”或“︱” ), 逻辑“或”表示 OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。

逻辑“非” : 用关系词 NOT表示 ( 可写作“ and not ”“ —”或“ ! ” ), 逻辑“非”表示 NOT后面的那个检索词一定不能在检索结果中出现。

例如:校庆AND武汉大学高等教育 *中国湖南 OR 湖北移动学习 + 泛在学习大学 NOT 武汉大学玉米–甜玉米例如,用 GFsoso检索,电子AND读书笔记电子读书笔记 OR 读书笔记软件位置限制检索临近检索( Proximity Search)以 Dialog 为例,收 900 多个数据库(1)PRE/0, P/0表示前后词序不能颠倒,中间不能插入其他词,但可以插入符号。

With,(W)例如: Wuhan P/0 University(2)PRE/#, P/#表示前后词序不能颠倒,中间可插入一定数量的单词,即插入 #个单词。

例如: Wuhan P/1 University检索结果:Wuhan Medical University ;Wuhan Agriculture University ;Wuhan Technology University ;(3)NEAR/0,N/0表示前后词序可以颠倒,但中间不能插入单词。

例如:Wuhan N/0 University检索结果: Wuhan University;Wuhan–University;Wuhan,UniversityUniversity, Wuhan; University-Wuhan; University Wuhan(4)NEAR/#,N/#表示前后词序可以颠倒,中间可以插入#个单词。

例如: Wuhan N/1 University检索结果: Wuhan Medical University;Wuhan Agriculture University;Wuhan Technology University;University of Wuhan;University in Wuhan;University at Wuhan(5)(s)是 sentence 的缩写, A( s) B 表示 A 和 B 必须同时出现在记录的同一个句子或短语中,但次序可以随意改变, A 与 B 之间可以有若干个其他的词。

如: resin (s) ester (酯化树脂)【练习】 1、查找 computer 和 game的间隔不大于 100 个单词的网页2、检索“杂交玉米”的外文文献,要求两词间隔 1 个词,前后次序固定。

hybrid 、corn答案: 1、computer near/100 game2、hybrid p/1 cornhybrid w/1 corn短语检索(精确检索)( Phrase Search Exact Search)一般用“”表示。

常见类型:( 1)机构名称检索:“Wuhan University”“The World Intellectual Property Organization”(2)人名检索:如“ George W. Washington ”否则可能出现: George W. Bush spoke at Washington about human rights (3)用于专有名称检索:如“ information retrieval”“ sleepless in seattle”电影名电子读书笔记与“电子读书笔记”的检索结果是不同的截词检索( Truncation Wildcat)是指在检索式中用专门的截词符号 ( 一般用 * 表示 ) 表示检索词中的某一部分允许有一定的词形的变化。

因此,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。

截词符号可以用 * ,,位置可分左截断、右截断、中间截断、左右截断(1)左截断:*physics可检索出physics,bio physics, chemophysics, geo physics 等。

*ology → Biology, geology, zoology*ism, *graphy(2)右截断:Comput*可检索出 Comput, Computing,Computer,Computerized 等。

econom*,→ economy; economic; economics; economical;economist; economize;(3)中间截断 wom*n 一个代表一个字符,结果是woman, women(4)左右截断*toxic*→cytotoxic;neurotoxicities; hepatoxicologic;表 5-1世界上主要数据库截词算符数据库平台 1 个字符多个字符0或1个字符MEDLINE PubMed *MEDLINE,SCI WOS * $ MEDLINE,CSA ProQuest *AgricolaEBSCO * #Lexis-Nexis * !SDOL,Springer *字段限制检索( Field Limiting)通过对检索词出现的位置进行限定,以实现精确检索。

例如:中国有多少政府网站无固定答案,因该题是一个动态变化的过程。

网站的构成规律,斜杠越多,层次越多。

例如:国家或地区代码,美国没有usedu 机构类型代码,如 gov 表示政府机构; org 表示非盈利机构; com表示商业性机构whu 表示机构名称sim表示某机构下面的子机构,此处代表School of Information Management(1)网址字段: URL: Uniform Resource Locator例如:url:结果有多少个记录,就有多少个政府网站(2)题名字段: title(ti): Wuhan University(3)出版字段: PY >=2010 (PY=Publication Year)(4)语种字段: la = english(5)链接字段: link: (link 用来查找链接到某个网站的所有的网页,如果某人有自己的博客或主页,通过这种方法可以看到它被链接的情况,从而了解到本人的知名度。

此外,用link还可以查看其它网站的链接情况)( 6)多字段组合检索例如: admission AND site:(site表示检索结果要限制在后面这个网址当中,即只能从这个网站去找资料。

上式表示从哈佛大学的官网中找入学的资料)例如: au = wang li AND(CS=Wuhan Univ.)(CS=corporate source)例如:比较下三个检索式检索结果的不同之处①“ information retrieval” /TI②information AND retrieval /TI③ information(F)retrieval(F=field)检索结果中,第 3 个最多,第 1 个最少。

第一个结果表示在题名字段中检索,并且必须与输入的形式完全相同;第二个表示在题名字段中检索,但不严格限制是短语,如“information organization methods for effective retrieval ”;第三个表示只需要在同一个字段中即可。

区分大小写检索( Case-Sensitive)China 中国; china瓷器Apple苹果公司(产品);apple苹果Windows windows 操作系统; windows 窗户Jobs 乔布斯; job工作Web万维网、 web蜘蛛网例如:国家图书馆联机公共目录查询系统中的“多字段检索” 采用的就是字段检索;Metacrawler的高级检索等。

多语种检索方法的综合运用(Integrating Different Search Methods)表达一个概念的词有很多,如移动学习、数字学习、泛在学习;信息素质、信息素养、咨询素养等,因此在构造检索式时要充分考虑每个检索词的不同表达形式,尽量不要遗漏,最好的方法是采用积木型检索式构造方法。

例 1:查找与电子图书标准化有关的文献(“电子图书” OR “电子书” OR “数字图书” OR “在线图书” OR “线上图书”)AND(“标准化”OR 标准OR 规范)上述的问题若换成英文检索,其中标准的表达是standard; standards; standardize; standardizing; standardization; standardizations 等,很麻烦,可以考虑用截词符号代替,即standard* ,上述检索式可转换为:( e-book OR“ electronic book”OR “digital book” OR“ online book”)AND (standard* OR specification)例 2:查 2009 年出版或发行的关于克隆人立法方面的英文著作或论文中文检索式: PY=2009 AND 克隆人 AND (立法 OR 法律 OR 法规) AND LA=English AND(DT=book OR article)英文检索式: PY=2009 AND“ human cloning” AND(law OR laws OR legislat* OR rule)AND LA=English AND(DT=book OR article)注:上例中用legislat*代替了legeslate; legislating; legislated; legislation; legislations .. 但用截词检索时要慎重,要避免不必要的词出现,如law ,如果用law* 检索,则会出现lawyer 律师, lawsuit思考题:试列举百度、谷歌的高级检索指引。

相关主题