当前位置:文档之家› 侵略者_网页数据采集系统_介绍

侵略者_网页数据采集系统_介绍

侵略者WEB数据采集系统V3.0.1
介绍
Copyright © 2005-2010 All Rights Reserved 侵略者软件
目录
目录 (2)
一.开发背景 (3)
二.功能介绍 (3)
三.模块组成 (3)
1.网页下载配置 (3)
2.网页下载进程 (4)
3.网页解析配置 (4)
4.网页解析进程 (4)
5.采集任务配置 (4)
6.采集任务测试和分配 (4)
7.角色管理 (4)
8.采集服务器的管理,监控,统计,分析等 (5)
9.数据的导入,导出,备份等 (5)
10.插件管理发布 (5)
11.服务进程 (5)
四.运行部署 (5)
五.维护管理监控 (6)
六.软硬件要求 (7)
七.性能分析 (7)
八.名词解释 (7)
一.开发背景
随着用户对信息获取速度的要求,很多公司开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。

本系统的设计目标就是为了满足这个需求。

给垂直搜索引擎提供准确及时是数据采集服务。

二.功能介绍
本系统提供对互联网数据进行采集的服务。

根据用户事先配置好的规则(网页下载规则,数据块解析规则等),进行数据采集。

当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。

本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。

对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。

本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。

本系统采用插件方式,对采集来的数据可以进行修正。

对输出方式可以通过插件自由定制。

可扩展性高。

三.模块组成
1. 网页下载配置
负责制定网页下载规则,登录设置,下载策略设置。

主要供网页下载进程使用。

2. 网页下载进程
根据网页下载配置的规则进行网页下载。

等待网页解析进程进行解析
3. 网页解析配置
负责制定网页解析规则,选择结果修正方法,并进行采集测试。

4. 网页解析进程
根据网页解析配置对下载到的网页进行解析修正,然后通过插件输出到指定存储方式。

5. 采集任务配置
把网页下载配置和网页解析配置(多选)组合起来,然后设置输出方式(多选)。

6. 采集任务测试和分配
可以对采集配置角色提交的任务进行测试检验,合格后发布到采集服务器上(通过XML格式配置文件)。

7. 角色管理
对采集配置角色,任务分配角色,系统管理角色三种角色的帐号管理。

8. 采集服务器的管理,监控,统计,分析等
通过对服务进程发命令的方式,获取采集服务器的信息,进行管理,监控,统计,分析。

9. 数据的导入,导出,备份等
对已经配置好的采集任务以及其他数据进行数据库备份,对任务进行导入导出,以便发布到其他采集管理平台。

10. 插件管理发布
对不断新增的插件进行上传,发布,管理。

11. 服务进程
运行在每台采集服务器,响应采集管理平台的命令,负责对采集服务器的管理和状态反馈。

四.运行部署
采集管理平台:
运行在一台服务器,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。

与其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。

采集进程:
每台服务器运行10个采集进程。

每个进程负责多个采集任务,任务越多,数据更新的频率就越低。

所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。

数据采集的
效率就越高。

五.维护管理监控
系统安装完毕后,维护主要通过基于WEB的采集管理平台。

可以通过管理平台创建分配采集任务,监控每台服务器的运行状态,
采集数据的统计,以及性能分析。

根据分析结果可以调整服务器的运行配置,以便于更充分的利用硬件资源。

数据源网站的采集配置采用分用户的管理方式,用户分三种角色:采集配置角色,任务分配角色,系统管理角色。

1.采集配置角色
用户可以配置管理自己的采集工程,配置完成的工程才可以提交给任务分配角色。

2.任务分配角色
对采集配置角色提交上来的工程进行测试,测试成功后分配给采集服务器处理,否则驳回,另外具有服务器运行状态,数据统计,性能分析等权限,可
以根据分析结果进行采集任务分配。

3.系统管理角色
具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所有权限。

另外对系统的稳定性和准确性采取如下措施:
1.进程监控:
对采集进程和管理进程的监控,采取在管理服务器定期对每个服务器进行检查的方式,
发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出现异常
则报警。

2.采集监控:
为了防止目标网站的网页模板变化,采取对采集结果进行监控的方式,如果长时间没有数据采集成功,则进行报警。

也可以通过命令服务进程检查每个
采集任务的状态。

六.软硬件要求
软件:
跨平台,对操作系统无要求,建议使用unix操作系统,安全稳定可靠。

JVM 5.0或以上。

硬件:
硬件要求低,能运行java虚拟机即可。

建议高带宽,内存512以上,硬盘70G(根据采集站点的大小决定)以上。

随数据抓取源网站数量的增加,可以不断添加新的采集服务器。

七.性能分析
采集的速度,主要受以下几个因素影响:
采集服务器性能
采集服务器网络带宽
要采集网站的带宽(即访问速度)
要采集网页的平均大小
常规情况下:
如果以每台服务器运行10个采集进程,带宽在独享1M为准。

在数据源网站
不存在带宽瓶颈的情况下,每小时采集大概7万个网页。

对于大量的数据,建议采用分布式的服务器集群进行采集。

八.名词解释
爬虫配置
爬虫使用的规则配置
解析配置
解析使用的规则配置
网页爬虫
把指定网站的网页按爬虫配置下载到本地的程序
网页解析
对下载到本地的网页按解析配置进行解析的程序
采集任务
由爬虫配置和解析配置组合成的采集规则
管理进程
运行在各个采集服务器,接收采集管理平台命令,进行采集任务的管理和状态反馈
采集进程
运行在各个采集服务器提供的采集服务的进程,通过管理进程与管理平台进行交互
采集管理平台
负责其他所有采集进程的管理和任务分配,采集任务的创建管理。

与其他采集进程通过管理进程进行通讯。

采集服务器
运行采集进程的服务器硬件
管理服务器
运行采集管理平台的服务器硬件
输出插件
采集到的结果输出调用的插件。

修正插件
对采集到的数据进行修正或者重组的插件。

命令插件
服务器进程调用的处理采集管理平台下达的命令的插件。

相关主题