当前位置:文档之家› 搜索引擎的特性

搜索引擎的特性

网络信息搜索的主要策略和技巧
策略
网络信息检索策略设计应遵循快、准、全及低成本的原则,以实现检索策略最优化
1、明确检索目标,确定检索项
分析主题、使用布尔逻辑符等构造检索式
2、选择合适的检索系统
根据检索主题和检索系统的特点选择检索系统
3、正确对待检索结果
对漏检、错检、溢检、无检索结果的处理方式。

4、选择最佳上网时间
选择网速较快的时间段。

技巧
多数情况下,有一个好的搜索策略,能正确地应用布尔逻辑符,并熟悉每个搜索引擎的特性,就可得到一个好的检索结果。

除此之外,在某些情况下还可用其他的一些技巧来改善检索结果。

1、扩大检索范围、提高查全率
2、缩小检索范围、提高查准率
3、Ctrl十F
用搜索引擎检索到所需文档并连接到相关网页后,有时会发现所要的文件并没有出现在当前视野中,这可能是因为文件存放在当前网页的底部。

一个快捷的方法就是按“Ctrl十F”在当前页查找文件。

4、给检索结果作标签
避免再重复出现。

搜索引擎的相关知识
搜索引擎的分类
1、全文索引
搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。

它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与
用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

目录索引
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。

用户完全可以按照分类目录找到所需要的信息,不依靠Keywords)进行查询。

目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。

如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。

著名的元搜索引擎有InfoSpace、Dogpile等,中文元搜索引擎中具代表性的是搜星搜索引擎。

在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

垂直搜索引擎
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。

不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。

相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

集合式搜索引擎
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

门户搜索引擎
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分
类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

免费链接列表
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

搜索引擎的工作原理
抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。

Spider顺着网页中的超链接,连续地抓取网页。

被抓取的网页被称之为网页快照。

由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。

其中,最重要的就是提取关键词,建立索引文件。

其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

相关主题