数荟集--专业数据提供商
网络爬虫采集策略
数荟集(数据提供商)CTO
2016年6月
根据网络爬虫访问网页的先后顺序以及实际使用的需要,通
用网络爬虫有以下常用遍历策略:
1.深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接
一个链接跟踪下去,处理完这条线路之后再转入下一个起始
页,继续跟踪链接。
2.宽度优先遍历策略
宽度优先遍历策略的基本思路是,将新下载网页中发现的链
接直接插入待抓取URL队列的末尾。也就是指网络爬虫会
先抓取起始网页中链接的所有网页,然后再选择其中的一个
链接网页,继续抓取在此网页中链接的所有网页。
数荟集--专业数据提供商
3.非完全PageRank策略(PartialPageRank)
PartialPageRank算法借鉴了PageRank算法的思想:对于
已经下载的网页,连同待抓取URL队列中的URL,形成网
页集合,在此集合内计算每个页面的PageRank值,计算完
之后,将待抓取URL队列中的网页按照PageRank值的大
小排列,并按照该顺序抓取页面。
如果每次抓取一个页面,就重新计算PageRank值,一种折
中方案是:每抓取K个页面后,重新计算一次PageRank
值。但是这种情况还会有一个问题:对于已经下载下来的页
面中分析出的链接,也就是我们之前提到的未知网页那一部
分,暂时是没有PageRank值的。为了解决这个问题,会给
这些页面一个临时的PageRank值:将这个网页所有入链传
递进来的PageRank值进行汇总,这样就形成了该未知页面
的PageRank值,从而参与排序。
4.OPIC策略(OnlinePage Importance Computation)
该算法实际上也是对页面进行一个重要性打分。在算法开始
前,给所有页面一个相同的初始现金(cash)。当下载了某
个页面P之后,将P的现金分摊给所有从P中分析出的链
接,并且将P的现金清空。对于待抓取URL队列中的所有
页面,则按照拥有的现金数进行排序,优先下载“现金”最
充裕的网页。
5.大站优先策略
数荟集--专业数据提供商
以网站为单位衡量网页的重要性,对于待抓取URL队列中
的所有网页,根据所属的网站进行分类。如果哪个网站待下
载页的页面数最多,则优先下载这些链接。其本质是倾向于
优先下载大型网站。
数荟集(数据提供商)CTO
2016年6月