舆情监控系统可行性分析报告2011年4月1目录第一章项目总述 (2)1.1 系统背景 (2)1.2 数安舆情监控系统的必要性 (2)1.3 我国网络舆情现状 (3)1.4 系统设计方针和原则 (3)第二章项目可行性分析 (4)2.1价值分析 (4)2.2 数安舆情监控系统三大模块 (5)2.2.1 舆情分析引擎 (5)2.2.2 互联网信息采集 (5)2.2.3 搜索引擎数据管理 (5)2.3 数安舆情监控系统先进技术 (5)2.3.1 网络信息采集技术 (5)2.3.2 数安舆情监控系统舆情智能分析技术 (6)2.3.3 自然语言智能处理技术 (7)2.3.4 全文检索技术 (7)第三章实施方案 (7)3.1 总体框架 (7)3.2 数安舆情监控系统系统特点 (8)3.2.1 自定义URL来源及采集频率 (9)3.2.2 支持多种网页格式 (9)3.2.3 支持多种字符集编码 (9)3.2.4 支持整个互联网采集 (9)3.2.5 支持内容抽取识别 (10)3.2.6 基于内容相似性去重 (10)3.2.7 热点话题、敏感话题识别 (10)3.2.8 舆情主题跟踪 (10)3.2.9 自动摘要 (10)3.2.10 舆情趋势分析 (10)3.2.11 突发事件分析 (10)3.2.12 舆情报警系统 (10)3.2.13 舆情统计报告 (11)3.3 价值实现 (11)第四章项目投资 (12)第一章项目总述1.1 系统背景随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。
网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。
可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
1.2 数安舆情监控系统的必要性网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。
当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。
如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。
对我们说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
统计数据显示,我国正在跃升为全球领先的舆论媒体大国。
截至2006年初,电视数量、报纸发行量和30岁以下网民人数均已排名全球首位;现有3000多个电视频道、2000多份报纸和9000多种杂志。
在舆情媒体规模、媒体种类等发展迅猛的同时,舆情导向的监测预警显得愈发重要,特别是互联网这把“双刃剑”,既提供了大量进步、健康、有益的提倡性信息,也有不少反动、迷信、低级的误导性言论,这样就更需要有舆情监测预警的出现,防范误导性舆论的社会危害于未然,把握和保障正确舆论的前进导向,为构建和谐社会的舆情保驾护航。
231.3 我国网络舆情现状与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。
二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。
三是少数社会管理者对于舆论习惯于回避或堵塞。
因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家利用网络对我国进行“西化”、“分化”,网上思想舆论阵地的争夺战日趋激烈。
二是传统的政治斗争手段,在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽得多。
三是通过网络,西方的观念、生活方式可以便捷地渗透进来。
1.4 系统设计方针和原则本款数安舆情监控系统利用互联网信息采集、智能信息处理技术(文本挖掘技术)和全文检索技术,对境内外网络中的新闻网页、论坛、博客、新闻评论,贴吧等网络资源进行精确采集、定向采集和智能分析,提供舆情信息检索、热点信息的发现、热点跟踪定位、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管、统计分析等多层次、多维度的舆情信息的服务,实现的网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助政府、及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,从正面引导舆论和宣传,构建积极向上的主流舆论,并为政府、决策提供信息依据。
实现对舆情分析提出的目标。
对我们而言,舆情监控的需求既有通用性,也有个性化的特点存在,可以通过本系统进行量身打造,建立适合的舆情监控体系。
第二章项目可行性分析舆情分析预警系统的实现具有可行性。
一方面,舆情导向的预测不是一种抽象的可能性,而是现实的可能性,这种现实可能性并非凭空想象而是有其现实基础,是对舆情的历史信息和其他因素经过判断、分析而得出的结论。
舆情也同其他事物一样,是一种客观存在,有其产生、发展、变化的规律。
只要对其予以客观、全面、科学的考察,细致、认真、仔细地分析,我们通过本系统对舆情导向的有无、好坏、大小,是可做出基本准确的评价和预测的。
另一方面,我们通过数安舆情监控系统的搜索引擎、数据仓库和数据挖掘等技术,为实现这一需求提供了有力的技术保障,使舆情分析预警的实现具有了可能。
2.1价值分析1、帮助有针对性的收集国家、地方和行业政策:帮助了解政策,有助于推动重大战略决策;2、对网络危机事件形成快速反应机制:实时监控网民对各方面的关注意见,独特预警机制能早期发现危机事件,及时预警并后期追踪,有利于掌握危机事件的破坏力和传播趋势,为危机公关服务。
3、了解在或潜在中的地位:帮助洞悉其、产品、品牌影响力,了解人们正反两方面的意见,客观评价其行业地位;4、追踪上下游产品、新产品和新技术:帮助追踪上下游产品,有助于控制生产成本;追踪新产品新技术,有助于技术部门对产品线的技术革新;5、服务于市场部门:快速对行情、促销、畅销区域、活动等做出反应,有助于市场部门做短期的运营规划;系统生成的统计报表,是对市场做出的一般性归纳,有利于市场部门做中长期的市场抉择。
452.2 数安舆情监控系统三大模块2.2.1 舆情分析引擎舆情分析引擎为系统的核心功能,其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告。
2.2.2 互联网信息采集采用元搜索与信息雷达技术。
智能信息抽取技术主要是针对特殊进行特定领域的信息采集。
2.2.3 搜索引擎数据管理搜索引擎数据管理功能主要包括以下功能:对收集到信息进行预处理;对搜索引擎数据集进行阶段性的数据维护;支持系统多分级管理系统,包括逐级进行审核功能;支持信息服务:最新报道、热点新闻、分类阅读、舆情简报、信息检索、RSS订阅等服务;信息文档转换技术:可以对信息进行传统文件格式转换。
如:Doc、Excel、Access、Rss等文件生成。
可生成报表。
2.3 数安舆情监控系统先进技术2.3.1 网络信息采集技术1)强大的信息采集功能全网全天候采集网络舆情,保障信息全面采集。
2)舆情源监控广泛对网络舆情主要来源进行监控,包括:(1)新闻类门户网站,如人民网、新浪网、雅虎……(2)政府机构门户网站,如首都之窗、中国政府网……(3)信息资讯网站,各地信息港、行业咨询网……(4)交互性质网站,如论坛、BBS、百度贴吧……(5)个人式媒体,博客3)元数据搜索功能元搜索引擎集成了不同性能和不同风格的搜索引擎,并发展了一些新的查询功能。
查一个元搜索引擎就相当于查多个独立搜索引擎。
进行网络信息检索与收集时,元搜索可指定搜索条件,既提高信息采集的针对性,又扩大采集范围的广度,收到事半功倍功效。
4)配置符合我公司需求的监控源方案系统为提供舆情源监控方案,对背景、行业特征及需求做深度调研,给出最适合的舆情源监控方案。
5)可监控各种语言,各种编码的网站无需配置自动识别语言和网站编码,挖掘舆情信息。
6)信息智能提取技术数安舆情监控系统有效提取网页中有效信息,区分标题、出处、作者、正文等信息项,并对具有连续性内容的多个网页内容进行自动合并,论坛帖子主题、回帖、点击量等自动提取。
7)结构化采集技术数安舆情监控系统对网页数据进行结构化的信息抽取和数据存储,以满足多维度的信息挖掘和统计需要。
8)全天候不间断监控数安舆情监控系统7*24全天候监控互联网信息,也可设定采集时间;实施中可以做到分钟级的采集更新。
9)采集信息预处理数安舆情监控系统系统对采集信息进行系列预处理操作:超链分析、编码识别、URL去重、锚文本处理、垃圾信息过滤、关键字抽取、关键信息提取、正文抽取、自动摘要,达到系统舆情智能分析前状态。
2.3.2数安舆情监控系统舆情智能分析技术1)自动分类技术自动分类技术包括以下两中分类方式:A 基于内容的文本自动分类67B 基于规则的文本分类2)自动聚类技术基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。
3)相似性检索和查重技术基于文档“指纹”的文本查重技术,支持海量数据的信息查重。
相似性检索是在文本集合中查找出与之内容相似的其他文本的技术。
在实际应用中找出舆情信息内容雷同文章,对相似、雷同文章消重处理;还根据文章主题相似性,生成专题报道,背景分析等。
2.3.3 自然语言智能处理技术1)自动分词技术以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。
综合运用基于概率统计的语言模型方法,分词准确性达到99%。
2)自动关键词和自动摘要技术对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。
2.3.4 全文检索技术全文检索将传统的全文检索技术与最新的WEB搜索技术相结合,大大提升检索引擎的性能指标。
还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。
第三章实施方案3.1 总体框架从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖掘预测、结果展示三个阶段。
(如图1)图1舆情分析预警系统系统结构3.2 数安舆情监控系统系统特点893.2.1 自定义URL来源及采集频率可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
3.2.2 支持多种网页格式可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。