当前位置:文档之家› 网络信息资源检索4

网络信息资源检索4

现在大多数网络检索工具都是采用一种称为 Robot(又称为:Spider, Worms,Wanders等)的 网络自动跟踪索引程序。它实际上是一个在网络上检 索文件且自动跟踪该文件的超文本结构并循环检索被 参照的所有文件的软件。不同的自动索引软件所采用 的标引、搜索策略不同,自动索引软件搜寻、标引网 页的方式对信息检索的质量有直接影响。
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览

(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。

(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。

中文搜索引擎指

/seek.htm
数据库
自动索引程序将采集和标引的信息汇集成数据库, 作为该网络检索工具提供检索服务的基础。不同网络 检索工具的数据库收录范围不一样,有的收录Web及 图像、有的收录WEB、 FTP、 Flash、新闻组等资源 类型。不同网络检索工具的标引方式也不同,有的索 引软件标引主页全文,有些则只标引主页的地址、标 题、责任者、特定的段落和关键词。
3 相关网络信息检索技术
涉及到网络信息检索的技术概念比较多,在这 里介绍一些应用比较广的概念。
分类检索、关键词检索、布尔逻辑检索、词组 检索、加/减号检索、截词检索、字段检索、自然语 言检索、位置检索、多语种检索、区分大小写的检 索、过滤检索、多媒体检索。
分类检索
分类检索多用于目录搜索引擎。用户无需
技术可以避免未成年人上网时受到不健康影响。
多媒体检索
多媒体检索包括基于描述的多媒体检索和基于内容的多
媒体检索。 基于描述的多媒体检索就是用一个关键词来描述所要查
找的图片或是音乐,比如可以用“刘德华”这个词来查找他的
写真图片,也可以在MP3搜索引擎中查找他的相关音乐。 基于内容的多媒体检索就是用一些视觉特征来查找多媒 体信息,这些视觉特征包括颜色、形状、纹理等。(有待实现, 涉及采集设备、算法等)
举例:information near/5 retrieval
多语种检索
即提供多语种的检索环境供检索者选择,
系统按指定的语种进行检索并输出检索结果。
目前,有的搜索引擎提供多达30个自然语种的
检索选择。此功能尤其适合于不同国家的检索
者检索不同语种的网络资源。
区分大小写的检索
它主要是针对检索词中含有人名、地名等
检索目标,或迷失于网络信息空间中,而且找到合适的检索
起点也并息
为了对因特网这个无序的信息世界加以组织、管
理,使大量有价值的信息纳入一个有序的组织体系,
专业人员做了许多努力和开发,比如基于专业人员对
网络信息资源的产生、传递与利用机制的广泛了解和 对网络信息资源分布状况的熟悉,以及对各种网络信


【组成】 搜索引擎一般由四个部分组成: ①搜索器:其功能是在互联网中漫游,发现和搜 集信息; ②索引器:其功能是理解搜索器所搜索到的信息, 从中抽取出索引项,用于表示文档以及生成文档库 的索引表; ③检索器:其功能是根据用户的查询在索引库中 快速检索文档,进行相关度评价,对将要输出的结 果排序,并能按用户的查询需求合理反馈信息; ④用户接口:其作用是接纳用户查询、显示查询 结果、提供个性化查询项。
息资源的采集、组织、评价、过滤、控制、检索等手
段的全面把握而开发可供浏览和检索的网络资源主题
指南。
1.3 利用搜索引擎进行信息检索
这是一种较为常规的、普遍的网络信息检索方式。
搜索引擎是提供给用户进行关键词、词组或自然语言
检索的工具。用户提出检索要求,搜索引擎代替用户
在数据库中进行检索,并将检索结果提供给用户。它 一般支持布尔检索、词组检索、截词检索、字段检索
检索代理软件
当用户提出查询要求时,由检索软件负责代理用 户在数据库中进行检索。不同网络检索工具所采用的 检索机制、算法有所不同,布尔逻辑检索是较普遍采 用的一种机制。即按照检索项间的逻辑关系使用布尔 逻辑符AND,OR,NOT等来组合检索项,形成检索 式来提交查询。除了布尔检索外,许多网络检索工具 还提供了一些其他的检索机制如:截词检索、概念检 索、模糊检索、词组检索、字段检索、位置检索等。
索。截词符多采用通配符“*”,可以用它代表
多个字符。因此,截词检索有时也称为通配符
检索。
举例:wom*n,可代表woman、women等。
字段检索
字段检索是一种用于限定提问关键词在数据库记
录中出现的区域,控制检索结果的相关性,提高检索
效果的检索方法,多以字段限定方式实现。搜索引擎
常用的字段有:Title/t、Subject、Text、host(主 机)、URL/u、domain(域名)、link(链接)等。







11、搜一下 12、飞客BT搜索引擎 / 13、Souyo / 14、雅虎易搜 / 15、麦布搜索引擎 / 16、中华搜索 / 17、酷亿 18、搜搜 / 19、易搜查 20、北京搜索 / 21、比比猫 /
布尔逻辑检索一般指“与”、“或”、“非”三种
运算:
逻辑“与”的布尔运算符为“AND”、“and”,有
时也可用“&”符号表示。(交集) 逻辑“或”的布尔运算符为“OR”、“or”,有时 也可用“|”符号表示。(并集) 逻辑“非”的布尔运算符为“NOT”、“not”,有 时也可用“!”符号表示。(差集)
专有名词的。在区分大小写的情况下,大写检
索词能被当作专有名词看待。而在不区分大小
写的情况下,则无法区分该检索词是指专有名
词还是普通词,从而在一定程度上会影响检索
结果的准确性。
过滤检索
在检索中自动将一些网站信息过滤去掉,
比如一些内容不健康的黄色网站信息,影响国
家安全的政治反动网站信息等,这种检索服务
输入任何文字,只要根据目录搜索引擎提供的
主题分类目录,层层点击进入,便会查找到用
户所需的网络信息资源。
关键词检索
用户只需在搜索引擎的提问框中输入合适 的提问关键词,按回车键之后,搜索引擎便会 将与该提问关键词匹配的结果反馈于你。大多 数的搜索引擎是以模糊检索原理实现关键词检 索功能。
布尔逻辑检索
4 搜索引擎及其原理
搜索引擎(search engine) 是指根据一定的策略、运用特 定的计算机程序搜集互联网上 的信息,在对信息进行组织和 处理后,为用户提供检索服务 的系统。

【历史】 互联网发展早期,以雅虎为代表的网站分类目 录查询非常流行。网站分类目录由人工整理维护, 精选互联网上的优秀网站,并简要描述,分类放置 到不同目录下。用户查询时,通过一层层的点击来 查找自己想找的网站。有人把这种基于目录的检索 服务网站称为搜索引擎,但从严格意义上讲,它并 不是搜索引擎。 从用户角度看,搜索引擎提供一个包含搜索框 的页面,在搜索框输入词语,通过浏览器提交给搜 索引擎后,搜索引擎就会返回跟用户输入的内容相 关的信息列表。
词组检索
词组检索也称为短语检索,或字符串检索。
它是将一个词组或短语用双引号“”括起作为
一个独立运算单元,进行严格匹配,以提高检
索准确度的一种方法。
加/减号检索
加/减号检索是搜索引擎支持的常规功能,
即在检索词前置“+”/“-”号,其作用相当于布尔
逻辑“与”/“非”运算。
截词检索
在搜索引擎中,截词检索多为前方一致检
自然语言检索
自然语言检索就是一种直接采用自然语言
中的字、词甚至整个句子作为提问式进行检索
的方法。
位置检索
位置检索是指允许指定两个单词之间的词 序和词距的检索。词序指单词之间前后顺序, 词距指二个单词之间间隔单词数。其操作符多 为 “near/n”,n为数值,意为检索单词间距最 大不超过几个单词。
【著名搜索引擎网址】1、 / 2、维基百科 3、雅虎 / 4、Google / 5、网易有道 / 6、北京大学天网中英文搜索引擎 / 7、搜狐 /dir/ 8、新浪网 / 9、TOM搜索引擎 / 10、 /
【工作原理】
1、抓取网页 每个独立的搜索引擎都有自己的网页抓 取程序(spider)。Spider顺着网页中的超 链接,连续地抓取网页。被抓取的网页被称 之为网页快照。由于互联网中超链接的应用 很普遍,理论上,从一定范围的网页出发, 就能搜集到绝大多数的网页。
2、处理网页 搜索引擎抓到网页后,还要做大量的预 处理工作,才能提供检索服务。其中,最重 要的就是提取关键词,建立索引文件。其他 还包括去除重复网页、分析超链接、计算网 页的重要度。
互联网
搜索技巧
相关主题