当前位置：文档之家› 网络爬虫应用介绍

网络爬虫应用介绍

系统架构
◦ 网页采集模块：负责定时将指定WEB网页抓到服务器。使用开源的Heritrix实现。 ◦ 网页分析模块：负责解析提取出网页的主要数据，包括标题、节选、发布时间、链接地址等.使用htmlparser 实现。 ◦ 索引模块：为HTML页面来创建索引。使用Lucene 的 API 实现。 ◦ 搜索模块:是系统与用户交互的模块，系统根据用户输入的查询语句，负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。使用Lucene 提供的API 来实现。

外网搜索
A、支持在本地资源库中实时搜索。
B、系统推送互联网最新、最热资讯
D、可根据个人喜好设定搜索关键字,从而关注特定内容。（初始关键字由管理员设定；）
C、系统推送互联网分类资讯
> 还原初始关键字
外网搜索
更精准的搜索结果！
爬虫管理员可新建、修改、删除采集任务。本地仅保存采集来的网页标题、文章节选及URL
更有效
单个搜索引擎的搜索覆盖率一般低于 30%，大量动态页面无法检索。本应用可针对指定地址，分析检索任何动态网页、论坛、博客、留言等等。可针对不同目标网站设定不同的抓取频率，不会漏掉关键信息。
更贴心
用户可自定义关键字（或使用爬虫管理员预设定的关键字）查看网络信息。

◦ 根据本项目特点选择HtmlParser来做页面解析。

Lucene
◦ Lucene的国际客户有Twitter、IBM；国内客户有凤凰网、豆丁网等等。 ◦ 常用分词器：如ictcals，JE，paoding，CJK等，是影响检索最终表现的关键因素。本项目选择LuceБайду номын сангаасe的API： CJK。因为它具有词库丰富、可自定义分词粒度等特点。
浦
东
新
区
环
保
局
资
源
整
合
系
统

1 2 3 4
建设目标应用效果系统架构
技术选型

挑战能监控知名博么多跟我不相关的结果出来？应对思路从网页采集层面来讲，要保障信息来源的相关性和精准度。以互联网主流领域资源网站为网页主要采集来源；配合成熟的博客论坛垂直搜索引擎（如奇虎、大旗）建立本地的WEB资源库；对于指定投诉网站的评论信息作精确定向采集。从网页分析层面来讲，不仅应提取网页标题、正文，更按需提供时间、来源、作者及特定内容的提取。从索引和搜索层面来讲，进行全文索引，可支持全文检索和精确检索，并按需提供多种结果排序方式。
简单方便的爬虫配置！！！一条采集任务可定义采集多个网站！

系统架构
◦ 配置采集策略：爬虫管理员可自定义抓取目标网站、定义抓取频率、定义默认关键字。 ◦ 自定义关键字：不同用户可根据喜好约定个人使用的关键字，搜索结果由搜索模块返回显示。 ◦ 输入查询条件: 前台提供用户界面使用户可以向Web 应用程序服务器提交搜索请求，然后搜索结果通过用户接口来显示出来。
更贴心
针对不同用户的导航地图
更有效
及时掌握网络关键信息
更准
进一步改善信息检索水平
更快
提高环保局用户web检索效率
更快
在系统闲时运行采集和分析，较少占用系统资源。对网页信息进行了结构化的信息抽取并建立了索引文件库，以便支持用户高性能的检索需求。
更准
明确检索目标定位，仅采集用户指定的、与某一特定主题相关的页面。因面向领域较小，查全率和查准率大大提高。筛选去除重复信息和冗余信息。设计检索算法，依据检索结果被浏览的频率，对检索结果进行相关度排序。
开发环境
Heritrix 1.14 HtmlPaser 1.6 Lucene Library (lucene 2.0) Eclipse 集成开发环境（Eclipse 3.3+WTP 2.0)
◦ ◦ ◦ ◦

Heritrix
◦ 目前有很多开源的网络蜘蛛系统，比较著名的有：
名称描述
Hertitrix Nutch
Larbin
由Java开发，扩展性强需要Unix模拟环境
由C++编写，但版本较长时间无维护
◦ 本项目选择Hertitrix，将抓取来的网页按镜像方式存储，即将就是将目标URL地址按“/”进行切分，进而按切分出来的层次存储。

HtmlParser
◦ 目前最有知名度的解析html页面的开源库：
名称 HtmlParser NekoHtml 描述解析速度明显更快速支持更多html标签

e商务文档

网络爬虫应用介绍

相关文档推荐：