当前位置:文档之家› 网上信息自动采集系统

网上信息自动采集系统

网上信息自动采集系统
摘要网上信息自动采集系统是利用网页信息采集器自动在互联网上采集所需要的各种信息,包括文字图片等内容,并利用所储存的模板进行分类储存播放,以达到实时、快速播放的效果。

并且拥有检索、监控、保护等功能,具有速度快,智能化等特点。

通过该系统,可以解决目前传统的信息采集和搜索引擎查准率、查杀率不高以及不灵活的缺点。

关键词信息采编;自动采集;快速发布
中图分类号 tn949.292 文献标识码 a 文章编号 1673-9671-(2013)012-0150-01
1 背景
网络时代,一切都处于高速运转之中。

每分每秒都有无数的新信息产生。

在第一时间获取全面、准确的信息对于与信息密切相关的各行各业来说,都己成为越来越迫切的需求。

随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。

然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势,网络信息挖掘就是在这样一种环境下应运而生的,并迅速成为网络信息检索、信息服务领域的热点之一。

随着互联网的快速发展,越来越丰富的信息呈现在用户面前,以及现实生活中但同时伴随的问题是用户越来越难以获得其最需要
的信息。

对于用户的一般信息查询检索要求,传统信息采集器所组成的搜索引擎能够提供较好的服务,但对于用户更多的具体要求,这种传统的基于整个网页的信息采集所提供的服务就难以令人满意。

对于每个用户来说,尽管他们输人同一个查询词,但他们渴望得到的查询结果却是不一样的,而传统的信息采集和搜索引擎却只能死板地返回相同的结果,这是不合理的,需要进一步提高。

对此本文提出一种基于cis结构的网上信息采编系统。

网上信息采编系统可以实现对网上信息的实时监控、收集、存储以及实时更新搜索数据库,提供包括最新信息在内的全文检索,可充分满足各类复杂苛刻的信息服务需求。

2 原理
网络信息采集主要是指通过网页之间的链接关系,从网页上自动的获取页面信息,并且随着链接不断向所需要的网页扩展的过程。

实现这一过程主要是由网页信息采集器来完成的。

根据应用习惯的不同,粗略的说它主要是指这样一个程序,从一个初始的url集出发,将这些url全部放入到一个有序的待采集队列里。

而采集器从这个队列里按顺序取出url,通过网页上的协议,获取url所指向的页面,然后从这些已获取的页面中提取出新的url,并将他们继续放入到待采集队列里,然后重复上面的过程,直到采集器根据自己的策略停止采集。

对于大多数采集器来说,到此就算完结,而对于有些采集器而言,它还要将采集到的页面数据和相关处理结果存储、索引并在此基础上对内容进行语义分析。

3 结构
网页信息采集系统基本上可以划分为5个部分:url处理器、协议处理器、重复内容检测器、url提取器、meat信息获取器。

以及几个功能子系统:信息监控系统,信息采集系统,信息储存系统,检索系统。

3.1 信息监控系统
信息监控系统的作用是时刻跟踪信息源的更新状况、一旦出现新的信息,即刻通知信息采集系统。

它的主要特点包括:1)高效监控:多线程并发式监控设计,每分钟可对多达上百家网站完成是否有信息更新的判断,使用效果非常好。

2)低带宽占用:自动提取网页特征属性判断是否有更新,每次需要传送的信息仅为几个字节,占用带宽极小。

3)精确反馈:发现目标网站已被更新后,会自动解析判断新增加内容的链接、文件属性、文字编码等,然后将这些信息准确地传递给信息采集系统,已帮助实现高效准确的信息采集。

3.2 信息采集系统
对于图文并茂的内容,获得文字内容的同时也能够准确获得图片,并准确保存图片在正文中的位置。

1)速度超强:标准的多线程并发指令执行设计、具有极快的信息采集速度。

监控系统发现新更新的信息后,90%的信息可在1分钟内采集到本地。

2)精确采集:仅采集新信息的内容主体,自动滤除导航链接、
相关信息链接等无效信息。

3)智能化线程调度:可自由地根据网络状况调节并发执行线程数目。

针对动态网页的信息采集支持进行了专门设计,可采集asp、jsp、php等各种程序自动生成的网页信息。

3.3 信息存储系统
1)存储到本地:将抓取到的信息存储在本地硬盘,提高信息访问速度,并可有效避免因为信息源的修改而导致信息无法找到的情况。

同时,信息存储到本地后还可发送到编辑发布系统进行进一步处理。

2)分类存储、播放:按照用户设定分类存储并播出不同内容的信息。

就好像看电视一样,用户可选择观看不同频道的分类信息。

3)监控重点信息:对于需要特别关注的重点信息,在播出界面上直接列出相关关键词,点击相应关键词就会看到所有有关的信息,这样可实现最佳的监控效果。

3.4 信息检索系统
1)高速检索:采用多种先进技术(高效搜索算法、多线程并行运算、对检索结果的智能cache技术,内存查询技术等)进一步提高检索速度。

2)指定区段检索:用户可指定对文章标题检索、对摘要检索或者还是全文检索。

丰富的检索设置特性可充分满足不同检索精度的需求。

3)多样化排序:具有对检索结果的多种排序功能,包括按时间、
相关性等。

4)多种条件组合检索:支持多种条件检索,包括按日期(及日期范围)检索、对结果进行内容类聚、网站类聚等。

4 目标
本文的目的,一方面是具体实现分布式网上信息实时监控和动态采集系统的构建及分析,研究分布式网上信息实时监控和动态采集系统实现过程中会遇到的几个关键的问题,另一方面是希望通过本文所做的工作,能对其他具有类似性质的系统的研制提供一定的理论和实际应用的借鉴和帮助。

5 总结与展望
本论文所做工作主要是构建基于工internet的分布式网上信息实时监控和动态采集系统,并着重在网络信息挖掘、监控数据动态交换及实时性等几个方面进行了分析和研究,下面就分布式网上信息实时监控和动态采集系统相关技术的发展和今后要做的工作加以展望:
在实现数据库之间的移植方面,将分布式网上信息实时监控和动态采集系统从sql server移植到oracle,dbz等性能良好的商品化关系数据库管理系统。

这样一来,势必可以大大提高分布式网上信息实时监控和动态采集系统的应用范围。

参考文献
[1]张乐.《分布式网上信息实时监控和动态采集系统》,南昌大学.
[2]马俊.《基于正则表达式技术的信息搜集引擎应用研究》,电子科技大学.
[3]李广建.《个性化网络信息检索系统研究与实现》,北京师范大学管理学院.
[4]王燕,李晋尧,游福成.《嵌入式系统的海量信息高效正则匹配算法》,北京印刷学院.
[5]张志刚,张子文.《正则表达式匹配的高效硬件实现》,国防科技大学计算机学院.。

相关主题