当前位置:文档之家› 网络爬虫应用介绍

网络爬虫应用介绍




系统架构
◦ 网页采集模块:负责定时将指定WEB网页抓到服务器。 使用开源的Heritrix实现。 ◦ 网页分析模块:负责解析提取出网页的主要数据,包 括标题、节选、发布时间、链接地址等.使用htmlparser 实现。 ◦ 索引模块:为HTML页面来创建索引。使用Lucene 的 API 实现。 ◦ 搜索模块:是系统与用户交互的模块,系统根据用户输 入的查询语句,负责在数据库和索引文件上搜索出相 应数据并按照一定的排序反馈给用户。使用Lucene 提 供的API 来实现。

外网搜索
A、支持在本地资 源库中实时搜索。
B、系统推送互联 网最新、最热资讯
D、可根据个人 喜好设定搜索关 键字,从而关注 特定内容。 (初始关键字由 管理员设定;)
C、系统推送互联 网分类资讯
> 还原初始关键字
外网搜索
更精准的搜索结果!
爬虫管理员可新建、修改、删除采集任务。 本地仅保存采集来的网页标题、文章节选及URL
更 有 效
单个搜索引擎的搜索覆盖率一般低于 30%,大量动态页面无法检索。本应 用可针对指定地址,分析检索任何动 态网页、论坛、博客、留言等等。 可针对不同目标网站设定不同的抓取 频率,不会漏掉关键信息。
更 贴 心
用户可自定义关键字(或使用爬虫管 理员预设定的关键字)查看网络信息。

◦ 根据本项目特点选择HtmlParser来做页面解析。

Lucene
◦ Lucene的国际客户有Twitter、IBM;国内客户有凤凰网、 豆丁网等等。 ◦ 常用分词器:如ictcals,JE,paoding,CJK等,是影响 检索最终表现的关键因素。本项目选择LuceБайду номын сангаасe的API: CJK。因为它具有词库丰富、可自定义分词粒度等特点。














1 2 3 4
建设目标 应用效果 系统架构
技术选型

挑战 能监控知名博么多跟我不相关的 结果出来? 应对思路 从网页采集层面来讲,要保障信息来源的相关性和精准度。以 互联网主流领域资源网站为网页主要采集来源;配合成熟的博 客论坛垂直搜索引擎(如奇虎、大旗)建立本地的WEB资源 库;对于指定投诉网站的评论信息作精确定向采集。 从网页分析层面来讲,不仅应提取网页标题、正文,更按需提 供时间、来源、作者及特定内容的提取。 从索引和搜索层面来讲,进行全文索引,可支持全文检索和精 确检索,并按需提供多种结果排序方式。
简单方便的爬虫配 置!!! 一条采集任务可定 义采集多个网站!

系统架构
◦ 配置采集策略:爬虫管理员可自定义抓取目标网站、 定义抓取频率、定义默认关键字。 ◦ 自定义关键字:不同用户可根据喜好约定个人使用的 关键字,搜索结果由搜索模块返回显示。 ◦ 输入查询条件: 前台提供用户界面使用户可以向Web 应 用程序服务器提交搜索请求,然后搜索结果通过用户 接口来显示出来。
更贴心
针对不同用户的导航地图
更有效
及时掌握网络关键信息
更准
进一步改善信息检索水平
更快
提高环保局用户web检索效率
更 快
在系统闲时运行采集和分析,较少占 用系统资源。 对网页信息进行了结构化的信息抽取 并建立了索引文件库,以便支持用户 高性能的检索需求。
更 准
明确检索目标定位,仅采集用户指定 的、与某一特定主题相关的页面。因 面向领域较小,查全率和查准率大大 提高。 筛选去除重复信息和冗余信息。 设计检索算法,依据检索结果被浏览 的频率,对检索结果进行相关度排序。
开发环境
Heritrix 1.14 HtmlPaser 1.6 Lucene Library (lucene 2.0) Eclipse 集成开发环境(Eclipse 3.3+WTP 2.0)
◦ ◦ ◦ ◦

Heritrix
◦ 目前有很多开源的网络蜘蛛系统,比较著名的有:
名称 描述
Hertitrix Nutch
Larbin
由Java开发,扩展性强 需要Unix模拟环境
由C++编写,但版本较长时间无维护
◦ 本项目选择Hertitrix,将抓取来的网页按镜像方式存储, 即将就是将目标URL地址按“/”进行切分,进而按切分 出来的层次存储。

HtmlParser
◦ 目前最有知名度的解析html页面的开源库:
名称 HtmlParser NekoHtml 描述 解析速度明显更快速 支持更多html标签
相关主题