数据处理平台解决方案设计数据采集、处理及信息结构化相关技术
全面的互联网信息采集:支持静态页面和动态页面的抓取,可以设置抓取
网页深度,抓取文件类型,以及页面的特征分析和区块抓取。
支持增量更新、
数据源定位、采集过滤、格式转换、排重、多路并发等策略。
-实现企业内外部信息源的自动采集和处理,包括像网站、论坛、博客、文件系统、数据库等信息源
-海量抓取:根据信息不同来源,有效的进行海量不间断抓取,而且不干扰原有业务系统的正常运行
-更新及时:信息采集之后,对于相应的信息更新,要具备灵活的机制,保证内容的质量与完善;
-结合权限:结合具体项目的流程,相应的文件都有不同的权限,抓取的时候,能够获得相关权限,以此在前台提供知识服务的同时,
满足对权限的控制;
-支持录入多种格式的知识素材,包括文本、表格、图形、图像、音频、视频等。
-支持批量上传多种格式的文档,包括txt、html、rtf、word、pdf、MP3、MPEG等。
-支持采集文档里面的内嵌文档抓取(如word文件里面嵌入visio的图片文件,word的图文框等);
-支持对各种压缩文件、嵌套压缩文件的采集;
-支持导入Excel、XML、Txt等多种数据源,导入后可自动解析数据源中的知识条目。
-配置好之后可以完全自动化的运行,无需人工干预;
-用户可指定抓取网站列表,可进行自定义、删除、更改等操作;
-用户可自定义开始时间,循环次数,传送数据库等参数;
-自动检测网页链接,可自动下载更新页面,自动删除无效链接;
-可设置基于URL、网页内容、网页头、目录等的信息过滤;
-支持Proxy模块,支持认证的网站内容抓取;
-可分布式部署,扩展性强;
-软硬件配置及预算符合本平台实际需求。
信息智能处理的智能服务
智能化信息资源搜索和支持服务系统,对内、外部信息资源整合,提供丰
富的应用功能,包括自动采集、智能搜索、自动分类、聚类分析、信息关联、
个性推送等,充分发掘内外部信息资源的价值,支持海量数据和多维度信息应
用。
实现数据采集、信息检索、内容自动关联、不同信息的分类聚类的智能信
息服务体系。
一、非/半结构化数据处理(Hadoop)
平台由信息自动采集、信息管理、信息分析、信息智能处理、信息服务等
层次组成:
数据源层:主要包含内外部信息系统。
(互联网,内部数据库系统)等;
连接器层(数据采集层):主要负责对所监控的网站、论坛、博客等互联网
信息和数据库、文件(包括Txt、Rtf、Doc、PDF、HTML、XML、WVM、RM等)、大型应用系统等内部信息进行数据采集,所有的过滤策略、周期设定、周期更
新、格式处理、编码转换等操作都在此层来进行实现。
特别数据采集模块能够
采集境外屏蔽网站信息。
智能数据操作层:负责所有的信息处理,采用智能处理技术,对采集到的
信息进行自动分类、规整、聚类、分析、标引等操作,供应用层的业务功能模
块所调用。
应用层:主要实现业务功能,是用户界面部分。
通过调用核心处理层的各
个功能模块,来实现自动监控、主动监测、趋势分析、自动报警提示等功能。
核心处理层,是整个系统建设的关键。
内容智能处理平台提供的智能信息
分析技术,不仅支持关键词技术,也支持自然语言的概念匹配技术,为上层的
业务应用功能提供强有力的技术支持。
信息智能采集分析系统采用多层结构,实现客户机只存放表示层软件,应
用逻辑包括事务处理、监控、信息排队、Web服务等采用专门的Web Service,后台是数据库。
在多层分布式体系中,系统资源被统一管理和使用,用户可以通过统一门。