当前位置:文档之家› 舆情监测 平台建设方案(图文)

舆情监测 平台建设方案(图文)

舆情监测: 平台建设方案(图文)1项目背景及建设目标1.1项目背景随着互联网技术和应用的普及和发展,新闻、论坛、博客、微博客、视频网站等舆情产生速度、传播渠道等均呈现出爆炸式快速增长的态势,据初步统计,2009年以来,互联网网上具有负面影响的舆情数量同比增长了近 2倍以上。

目前主要存在以下问题拯待解决:1)网络舆情监测导控工作几乎完全是通过人工的方式开展的,手工发现关注网站的局部性、时间上的滞后性与信息发布的随意性、随时性之间的矛盾日益严重。

2)缺乏舆情信息综合分析,导致分析关联能力不足。

例如,特定舆情事件在新闻、论坛、微博、博客等不同来源上的关联分析。

3)各分支在舆情信息的管理上缺乏统一的信息报送、舆情导控任务下发等业务流程的信息化工具支撑。

4)目前,舆情导控体系中缺乏可量化的考核数据作为各级领导年底评分的依据;在经过多次现场充分调研的基础上,提出建设舆情综合导控系统的规划,制定一个统一的元数据标准和数据交换接口规范,作为舆情分析研判和考核统计的元数据,从而对互联网上传播的舆情信息进行准确查找、归类、排重、分析、研判、导控和核查,实现对互联网上各类海量数据快速分析处理,更加准确的掌握各类舆情信息传播的数量、范围、趋势、影响等情况,最终形成一套科学、全面、高效地掌握网上舆情监测导控系统。

1.2建设目标系统建设总体实现目标是:能够全面、准确、及时的获取与“我”有关的网络信息,深层次的对互联网舆情信息进行分析和挖掘,通过统一的综合指挥系统实现舆情的及时上传和导控任务的集中下达,并从在线率、引导发帖、信息报送及任务下发等多方面综合考核,确保以互联网舆情监测小组为核心的整体监测成效。

1总体架构1.1软件架构整个系统设计分为数据采集子系统、舆情信息数据仓库、舆情研判分析子系统、引导指挥子系统、引导考核子系统几个部分。

1.1.1数据采集子系统负责对信息源头采集,采集子系统主要实现多线程、集群采集模式。

满足项目采集深度和广度要求,采集深度按照需求可采集到新闻评论、微博转发数、粉丝数以及论坛的评论树回帖数等。

采集广度本系统提供通用采集配置,支持大部分新闻、论坛的采集,只需要配置URL即可实现采集。

采集性能可以灵活配置策略,分为指定调度和随机调度两个模式。

采集时效性可以定制。

1.1.2舆情信息数据仓库按照系统制定的数据规范支持外围系统数据接入,数据仓库设计分布式架构,通过集群方式扩展项目的规模。

主要分为分布式储存与全文索引、关系数据库。

同时对外提供 API访问接口。

数据入库经过数据的加工处理包括自动摘要、实体抽取、内容分类等操作为后续研判提供标准数据。

1.1.3舆情研判分析子系统侧重业务需求根据各项指标综合计算舆情热点、负面信息、专题分析等。

系统创新设计了基于多层关键字不同权重的数据推送算法实现海量数据中自动推送用户真正关心的舆情线索。

1.1.4引导指挥子系统融合舆情管控业务流程。

实现重大、敏感舆情信息的逐级上报及领导审核;可通过系统下发导控任务且短信提醒功能,确保导控任务通知及时、到位;1.1.5引导考核子系统针对任务完成情况、导控情况、信息报送及在线等进行多角度考核,对网评员工作量和工作效果提供科学评估依据。

1.2关键技术1.2.1自动摘要在舆情分析过程中,通过自动摘要简明、确切地描述聚出来话题的中心内容,摘要是以提供文献内容概括为目的,不加评论和补充解释。

基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。

包括以下步骤:原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。

词语权重计算:关键词"进行词频统计。

对原始文本信息中的"句子权重计算:根据句子中词频等信息计算句子权重。

其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。

文摘句提取:对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。

文摘句输出:将所有文摘句按照它们在原文中的出现顺序输出。

1.2.2自动聚类采集回的互联网数据包罗万象,为减轻人工巡检舆情事件的负担以及撑控舆情事件的发展态势,系统定期对采集回的互联网数据进行自动聚类,形成近期互联网上最新、最热、敏感等话题。

自动聚类是基于相似性算法的自动聚类技术。

根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词,包括最热话题、最新话题、敏感话题。

主要包括以下几个步聚:特征提取。

建立聚类相似矩阵,因为相似度是定义一个聚类的基础。

用算法进行聚类。

1.2.3自动分类目前,大部分网站采用了 AJAX架构,页面代码分析无法获取网站分类信息,为了更加清楚的展示各类舆情信息,如涉警、维稳等在互联网上的分布情况,准确的分析舆情的传播范围,清晰的展现舆情信息,对互联网舆情信息进行分类就显得极为重要。

自动分类技术根据文献内容进行类别划分的功能,可以用于地域分类、涉警分类、维稳分类、治安分类等诸多应用。

可以自动地对文档进行分类,赋予文档一个预先定义的类别主题词,便于文档的组织,不需人工干预。

类分析模式共抽出了四种,以后可以通过增加、覆盖或继承来扩展:地域分析模式:地域词典分为三层,第一层是具有唯一性的词,比如在中国,深圳是唯一的一个地方;第二层是地域中的下一级地名,比如市下的区或省下的市都可以,看具体怎么布局。

第三层是地域中地名,但有可能在各个地方都存在的或该词还有可能是其它性质的词。

比如:万福佳可能是地名,也有可能是人名。

根据句中出现各层的词的情况,得分情况也不同,最后再对文档中的所有句子地域得分进行汇总。

一层词典分析模式:词典只分为一层,根据文档中出现词典中的词和词频情况进行计算相关度。

二层词典分析模式:词典分为二层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,这样根据第一层的词前后识别第二层的词的情况计算该句相关度,最后对所有句子进行汇总分析得到文档相关度。

三层词典分析模式:词典分为三层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,再根据第二层词的前后判断第三层的词,这样根据第一层的词前后识别第二层的词,再根据第二层词识别第三层词的情况计算该句相关度,最后对所有句子进行汇总分析得到文档相关度。

1.2.4数据推送互联网信息的传播速度快、范围广的特点,为正确引导互联网的发展,必须第一时间内将公安机关关心的涉警、涉稳、治安等舆情信息检测与预警出来,系统采用数据自动推送技术在舆情事件第一爆发点时以短信或邮件形式通知工作人员,以便进行正确引导。

数据推送分析是综合研判中的一部分,主要综合考虑两个方面:数据来源:根据数据来源的不同,各个类的相关度会根据不同阀值做调整。

相关度:地域与其它类之间的相互影响,最后得出一篇文档的相关度。

根据地域相关度的大小,对其它类的相关度根据不同阀值重新计算。

总体上通过这样的逻辑就很容易实现两种效果,一是分类,具体分什么类、类的词典等都可以通过配置实现,这样就不分受地域和类别的影响而影响源码。

二是数据推送,通过分类之后进行各个类之间的分析和研判,得到一个总的相关度,通过阀值控制是否推送,是否要这功能可以配置来实现。

1.2.5实体抽取互联网为舆情事件传播的高发载地,其中包含了很多有价值的线索信息,为有利于公安民警能快速、准确的从网页信息中获取有价值的线索信息,系统采用实体抽取技术,将页网信息人名、地名、机构名、专有名词等提取出来存入数据库中。

实体抽取任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,从而提取这些实体。

主要涉及到三个方面的问题:分词的选择:是不分词还是采用自动分词系统或人工分词;领域的取舍:比如:老鹰大战雄鹿。

"老鹰"和"雄鹿"均为 NBA 队名;也可以均指动物,这就涉及到领域问题;方法的选择:在方法的选择上主要分为语言学方法和统计学方法两种;1.2.6情感倾向分析根据业务的不同,把负面范围也相应进行划分,基于这些考虑负面词典分为二层词典:主体词和负面行为词典。

只有符合这样的模式句子片段才被认为有效负面语义。

负面词典分为二层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,这样根据第一层的词前后识别第二层的词的情况计算该句相关度,最后对所有句子进行汇总分析得到内容的负面性。

1.2.7相似分析相似分析原理图1.2.8分布式存储由于互联网上的数据量非常庞大,而网上信息之间关联的情况错综复杂,所以有必要将爬行到的数据存储起来再做进一步的分析以及备案,但对这些数据进行存储将是海量的。

对如此大量的数据进行高效查询就用到了全文检索技术,这里需要额外建立一个索引文件,通过空间换时间的方式来用户查询的速度。

为了应对这样的业务需求,我公司采用基于sphinx内核算法优化的全文检索技术,支持分布式的海量数据应用;基于中文分词和一元分词结合的办法在数据查准率、查全率上进行大方面的技术突破。

且支持分布式的应用部署。

1.3系统业务模型针对互联网舆情监管的业务特点,本项目提出了一个整体化的监管业务模型。

首先,在监管对象的定义方面,本项目将以如图1所示的三个监管对象为目标:以传播源头(论坛、微博等)、传播内容(舆情信息)和传播主体(网民)为监管对象,以时间为分析维度对互联网舆情的相关因素进行全方位统一的监管。

通过快速准确的定位传播源头,以及对传播内容的采集、分析、追踪,并监控传播主体的网上行为,确保传播信息的合法性从而在整个的信息传播过程中,多层次多角度的进行有效的监管,并与实际工作业务紧密结合,使整个监管平台能有效的实现“发现传播源头、追踪传播内容、监控传播主体”的职能。

互联网舆情监管对象示意图考虑到舆情的特征——本地站点或全国热门站点上首发,然后被转载到各大主流站点,企图扩大事态影响面。

系统通过监控全国热门(例如:百度贴吧、天涯论坛、凤凰论坛、腾讯论坛、网易论坛等)、本地站点来发现舆情信息,作为舆情线索。

对发现的重大、敏感舆情通过专题进一步跟踪,通过在各主流站点的站内搜索对舆情进行专项补存,从而发现有哪些站点、板块上在传播相关舆情信息,为舆情的处置提供了依据。

图 2 .2系统业务流程图舆情系统 :舆情线索发现,重大舆情补存,全局掌控舆情散布、传播及扩散态势,掌握舆情处置主动权,规避事态持续升级的被动处理局面;监控人员:结合系统辅助研判 , 上报重大舆情,执行处置任务并向领导反馈结果;市局领导:关注重大舆情,以专报为决策点,决策并下发舆情处置任务,考核监控人员。

相关主题