搜索引擎蜘蛛采用什么抓取策略
搜索引擎蜘蛛简称爬虫,它的主要目的是抓取并下载互联网的网页到本地,同时与切词器、索引器一起共同对网页内容进行分词处理,建立索引数据库,促使最终形成用户查询的结果。
即使对于商业搜索引擎来说,想要抓取互联网的所有网页也是一件很困难的事情,百度为什么没有Google强大?首先百度对于互联网上信息的抓取量与Google是无法相比的;其次对于爬虫的抓取速度和抓取效率也跟不上Google,这些不是说解决就能解决的,一些技术上的问题很可能会很长时间都无法获得解决。
虽然搜索引擎很难抓取到互联网上的所有网页,但是这也是它必然的目标,搜索引擎会尽量增加抓取数量。
那么搜索引擎抓取采用的策略都有什么呢? 目前主要流行的策略有四个:宽度优先遍历策略、Partial PageRank策略、OPIC策略策略、大站优先策略。
一、宽度优先遍历策略
如图所示,宽度优先遍历策略就是将下载完成的网页中发现的链接逐一直接加入待抓取URL,这种方法没有评级网页的重要性,只是机械性地将新下载的网页中URL提取追加入待抓取URL。
这种策略属于搜索引擎早期采用的抓取策略,效果很好,以后的新策略也都以这个为基准的。
上图遍历抓取路径:A-B-C-D-E-F G H I
二、Partial PageRank策略
Partial PageRank策略借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL 队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
通常搜索引擎会采取每当新下载网页达到一个N值后,就将所有下载过的网页计算一个新的PageRank(非完全PageRank值),然后将待抓取URL跟这个进行重新排序。
这种方法的争议很大,有人说比宽度优先遍历策略的效果:也有人说这样与PageRank的完整值差别很大,依托这种值的排序不准确。
三、OPIC策略
OPIC策略更像是Partial PageRank策略进行的改进。
OPIC策略与Partial PageRank策略大体结构上相同,类似与PageRank评级的网页重要性,每个网页都会有一个10分,然后分别传递给网页上的链接,最后10分清空。
通过网页获得的分值高低,评级一个网页的重要性,优先下载获得评分高的URL。
这种策略不需要每次都要对新抓取URL进行重新计算分值。
四、大站优先策略
大站通常是指网页内容多,内容质量高的网站,这些网站通常存在大量的页面。
则在待抓取URL出现哪个网站等待抓取的页面最多,就优先抓取这些链接。
效果略好于宽度优先遍历策略。
本文由无锡白癜风医院:/ 编辑!。