当前位置:文档之家› 分布式大数据采集关键技术研究与实现_付华峥

分布式大数据采集关键技术研究与实现_付华峥

图1 系统整体框架
2.2 分布式架构
系统采用主/从的分布式架构,如图2所示,主控制节点从待爬URL队列中提取URL分配给各抓取主机。

然后由抓取主机完成采集任务和解析任务并将已经成功抓取的URL和提取到的新的URL交由主控制节点处理。

成功抓取的URL缓存到已爬集合中,再根据已爬集合过滤出新的URL,并将它们缓存到对应的待爬队列中。

其中待爬队列和已爬集合均使用内存数据库redis来实现。

待爬
图6 实验结果比较
为验证系统的可扩展性,我们将采集评论信息的机器由2台增加到4台。

则每小时平均评论采集量由12.83万条增加到23.54万条。

虽然性能只达到1.8倍提升,并没有达到理想2倍的提升,其原因可能是带宽或网络原因所致。

但也可见系统具有好的扩展性。

因此,在带宽支持的情况下,可通过简单的增加采集机器便可得到数据量的相应提升。

6 结束语
本文提出了一种高效的大数据采集技术方案,并在解析模块中提出了基于标签树块节点权值的正文提取算法。

该算法可以剔除无用的非正文信息块,从而提升了解析效率。

而针对IP限制问题引入代理池技术,保证系统的持续性和稳定性。

方案基于并行的分布式爬取方式,。

相关主题