分布式主题爬虫的设计与实现
Abt c sr t a
T et s u i n a ss ir ue e okc we s m.I yt rht tr cnis fw jr at:h n h eis de adr le dsi tdnt r r l s t h st s e i a tb w a r y e tss m aci c e os to o o r tec — s e eu s t ma p s o
0 引 言
随着互联 网的爆炸式增长 , 网络 资源呈指数级增 长 , 这种信 息量 的飞速增长促使通用 搜索引擎 面临着 索引规模 、 更新 速度 和个性化需求等多方面的挑战 。为了克服通用搜索引擎的 以上
不足 , 主题搜索 引擎应 运而生 。主题 爬虫 是主题搜 索引擎 的基 础, 其抓取 网页 的速度和质量是决定搜索 引擎好坏 的重要指标 。 它是一个在限定 领域内 自动下 载 网页 的系统 , 按照 一定优先 级
池勇敏 郝泳涛
( 同济大学 C D研究 中心 A 上海 20 9 ) 00 2
摘
ቤተ መጻሕፍቲ ባይዱ
要
研究实现 了一个 分布 式 网络爬 虫系统。系统架构 主要分为控制节 点和爬行节 点两部 分 , 并描述 了分布 式系统关键技 术
的解决方案。系统采用二级哈希映射算法进 行任务分配 以解决基于 目标 导 向、 负载均衡 的 U L分配 问题 , 用消息通信 使节 点相 R 使 互协作, 出利用遗传算法作为该主题爬虫 系统 的搜 索策略 , 提 并给 出 了网页更新策略的改进 方法。
to o e a d t e c a ln d .T e k y tc n lg ou in t it b td s se i d s r e rln d n h r w o e h e e h oo y s lt o d sr u e y t m s e c b d,t o h y t m p l st e s c n e e s o i i o .T e s se a p i h e o d l v lHa h e ag r h t s s in n o s le t eURL al c t n is e b s d o ag t r n ai n a d la aa c .No e r o p r t et a h oh lo t m o t k a sg me tt ov i a h l ai s u a e n tr e i tt n d b ln e o o oe o o d sa ec o e ai oe c t — v
第2 7卷 第 1 2期
21 0 0年 1 2月
计算机 应 用与软 件
Co u e p iai n n o t r mp t rAp l t s a d S f c o wa e
Vo . 7 No 2 12 .1 De . 01 c2 0
分 布 式 主题 爬 虫 的 设 计 与 实 现
e y me n fme s gn .T e te i s g e t h e e i a g rtm o b h e c tae o h o i r w e ,a d a mp o e to rb a s o sa i g h h ss u g sst e g n t lo h t e t e s a h sr tg frt e tp c c a lr n n i r v d meh d c i r y o b a e u d t t e frwe p g p ae sr tg . a y Ke wo d y rs We rwlr Dit b td Ge ei lo t m S ac n i e b ca  ̄ sr u e i n t ag r h c i e rh e gn
图 1 系 统 结 构 图
该 主题爬虫 系统 中的各个模块 的实现 以及信息搜集过程 中涉及
的关 键 技 术 。
1 1 爬 行 节点 的结构 设计 .
爬行 节点主要 是负责爬虫 功能 的完 成 , 以及与其他 爬行 节
点进 行通 信 。爬 行 节 点 主要 有 : n gr模 块 、 o n odr Maae D w L ae 模
关键词
主题爬 虫 分布 式 遗传算法
搜 索引擎
RES EARCH AND M PLEM ENTATI I oN oF DI A STRI BUTED ToPI CRAW LER C
ChiYo g n Ha n t o n mi o Yo g a
( et A e ac C n ro D Rs r e fC e h,Tn] U i rt, h n h i 0 02,hn ) ogi nv sy S a g a 2 0 9 C i ei a
次 序 和 主题 相关 度甄 别 获 取 页 面 。
本文的研究 对象 是主题搜 索引擎 中的分布 式主题爬 虫 , 并
开发了相应 的 分 布 式爬 虫 系 统 , 架 构 参 考 了 WI E G ol 其 R 、 oge
Ca l 和 S H N 架构 的划分利用并发执行 , r e w r P I X, 本文 主要介绍 了
1 系统 架 构
该分布式爬 虫系统基 于分 布式 系统结构 , 由一个 中心主 是
控节点和分布式 的爬 虫节点组 成 , 制节点 负责维 护所有结 点 控 的信息 , 整个系统相互配合协 同工作 。在整个分布式 系统 中, 所
块、 分析模块 、 o r S r 模块 、 te 任务分 配模 块和节点通信 模块 。前 四 个模块 主要负责按 搜索策 略爬 取 、 下载 、 存储 页面 , 其直接决定