当前位置:
文档之家› 大数据时代如何利用指数分析舆情
大数据时代如何利用指数分析舆情
过人工,在合理时间内达到截取、管理、处理、
并整理成为人类所能解读的信息。
1.1
大数据的概念
传媒专家刘建明教授认为:“大数据”同信息是
不可分离的,是指信息浩大数量的统计与技术运 作。作为人类认知社会方法的一次飞跃,“大数
据”技术将给企业运营、政府管理和媒体传播的
科学化创造有效机制。
1.1
大数据的概念
大数据的概念
1.2
大数据的发展进程
1966年
摩尔定律提出,为大数据 现象的形成奠定物理基础
1989年
数据挖掘技术产生, 大数据有了大价值
2004年
社交媒体出现,全世界每个 人都变成了潜在数据生成器
01 02 03
1.3
大数据的特点
4 个 V: Volume、Velocity、Variety、Value
1.3
大数据的特点
1 2
3
大数据=传统的小数据+现代的大记录 大数据=结构化数据+非结构化数据 大数据=大价值+大容量
1.4
大数据如何产生 托马斯· H· 达文波特:大数据之所以产生,是因为传感
微博
器和微型计算机处理器在人们日常生活中无处不在。
LBS
物联网
云 计算
10:02
1.4
大数据如何产生
BVI
OCI
3.8
清博指数-微信传播指数WCI
3.8
清博指数-微博传播指数BCI
指标体系: 主要通过活跃度和传播度两大维度来进行评价,发博数X1、原创微博数X2、 转发数X3、评论数X4、原创微博转发数X5、原创微博 评论数X6、点赞数X7。
3.8
清博指数-微博传播指数BCI
3.8
清博指数-网红指数OCI
“大数据”不是部分,而是全部数据
是不确定、不准确的信息
着重在了解是“什么”而不是“为什么”
《大数据时代》 维克托·迈尔·舍恩伯格
1.1
大数据的概念
大数据本身不是一种新的产品或新的技术
大数据的出现只是数字化时代数据量不断增加的一种现象
1.1
大数据的概念
B
GB MB
海量数据
TB
PB
ZB
大数据
EB
1.1
1.1
大数据的概念
研究机构 Gartner 将大数据定义为:需要新处 理模式才能具有更强的决策力、洞察发现力和流
程优化能力的海量、高增长率和多样化的信息资
产。
1.1
大数据的概念
维基百科对“大数据”的解读是:“大数据”
(Big data),或称巨量数据、海量数据、大 资料,指的是所涉及的数据量规模巨大到无法通
2.3
网络舆情的特点
广泛性
参与人员类型广泛
01
主观性与非理性
02
社会情绪的原生态表达 网络谣言与负面情绪扩散
涉及地域范围广泛
突发性
基于网络双向传播 社会舆论导火索
03
多元性
04
信息内容多元 传播途径与表达方式多元 意识形态与观点内容多元
2.4
网络舆情的信息来源 网络舆情信息来源指标特点
来源
政府网站 新闻媒体 社交平台 网络媒体 主动报送
4案例分析4.1舆情研究院《大数据中的“春运潮”变迁》
春运迁徙,40天,36亿人次 春运槽点:
“12306”“高价盒饭”
“车站服务”“安检”“堵车”“晚点、滞留”“迁徙”发布春运全国8小时最热线路图
4.1舆情研究院《大数据中的“春运潮”变迁》
案例一:舆情研究院《大数据中的“春运潮”变迁》
决策树:一种预测模型,是直观运用概率分析的一种图解法
人工神经网络:是一种模仿动物神经网络行为特征, 进行分布式并行信息处理的算法数学模型
差别分析:目的是发现数据中的异常情况,从而获得有用信息 概念描述:对某类对象的内涵进行描述,并概括其有关特征
3.4
网络舆情监测指数体系(兰月新)
传播扩散
指数一
1
指数 体系
网络舆情监 测指数体系
发布主体
意见领袖、普通网民 发帖量、回复量 支持、反对、中立
社会热点、政治新闻、个人隐私、宗教政治
内容要素
转发量、评论量、阅读量 敏感词 声像资料量
文本长度、图片连贯性、声像时长
舆情受众
支持、反对、中立 独立访问者、访问量
3.5
舆情大数据指数(刘建明)
传播量 覆盖率 媒体传播力指数 舆情大数据指数 舆情影响力指数 互动性 传播量 覆盖率
舆 情 影 响
启动舆情监测 制定应急预案 制定保障方案 实施信息公开
专家网上答疑 关注意见领袖 网民互动交流 事件初步解决 公开进展信息 引导舆情过渡 事件经验总结 监测衍生舆情
危险
不安全
隐患 正常 良好
萌芽
扩散
爆发
波动消退
经历时期
表2.3:政府应对舆情模型
Байду номын сангаас 3
舆情指数
3.1
网络舆情指数的概念
舆情指数是通过对网络中各种类型媒体所发布的信息进行独立的第三方观察,形成量 化统计和定性分析,并结合算法推导、归纳总结而最终形成的一套网络舆情指数体系。
关注度
刘志明《网络舆情大数据》
综合评价
3.6
网络舆情指数体系(IRI)
“网络舆情指数体系(IRI)”是由中国传媒大学网络舆情(口碑)研究所设计,该指数体 系是国内第一个权威的、可量化的、科学的网络舆情指数体系,重点突出网络舆情指数的实时 动态性以及可理解、可描述、可解释等特点。
网民在某网站中针对某一主题发布的信息 量、回复量和浏览量的综合统计 ——集中参与水平
网红指数OCI侧重于对网红传播力和影响力的量化评估,评估模型包括三大维度、
十余项项量化指标,通过全网数据的采集,建立基于大数据的开放评估模型。
3.8
清博指数-VR指数WII-VR
评估指数包括企业和产品的网络关 注度(微博讨论及官微粉丝数、微 信相关文章及总阅读数等),全网 推广度(网页、新闻、官网、社交 媒体平台等相关信息推广)和网络 热销度(主流电商平台:以淘宝/ 天猫和京东为主)三大维度。
1
网络舆情参与度 2 网络舆情波及度 网络舆情评价度
IRI
3
衡量所有网络媒体中相关信息的指标 ——广泛报道水平
/人物/商品/事件在互联网上是否引起了关注度, 关注量级与趋势如何
传播分析
舆情传播路径,识别传播节点,研判节点调性
情感提炼
摩画网民情感倾向,提炼网民对事物的主要态度、关注面与侧重点
关注度=0.3×新闻指数+0.3×论坛指数+0.2×微博指数+0.2×微信指数 正面舆情比例=0.7×正面舆情指数+0.3×中性舆情指数 舆情压力指数=0.7 ×舆情事件个数+0.3 ×舆情关注度均值-正面舆情事件比例4.1舆情研究院《大数据中的“春运潮”变迁》
关注度=0.3×新闻指数+0.3×论坛指数+0.2×微博指数+0.2×微信指数
权威度
高 高 低 中 中
准确度
高 高 低 中 中
参与度
低 中 高 中 高
针对性
低 中 中 中 高
2.5
网络舆情传播的特点
1
跨时空性:信息突破了空间的限制,实现了信息的跨时空传播
2
3 4
群体极化性:信息的倾向性对受众的思想形成一定的支配性,形成群体极化
强制互动性:信息由单向传播变成双向互动,公众由接受者变为参与者和生产者
舆情研究重点的转向
由舆情监测转向为舆情预警乃至预测,从单向度的危机应对、品牌营销转向各领域的 综合信息服务
5.2
大数据舆情能否代表社会民意
根据中国互联网络信息中心CNNIC《第38次中国互联网络发展状况统计报告》显示, 截至2016年6月,中国网民已达到7.10亿,超过总人口的1/2。农村网民占总网民的26.9%, 达1.91亿,而中国农村人口将近8亿,网民占比较低。即使上网,发表意见的也是少数。 陈力丹在《舆论学》指出: 「在一定范围内有接近1/3的人持某种意见,这种意见由于开始对全部人产生影响,故 它已经从少数人的意见转变为舆论。」「在一定范围内有接近2/3的人持某种意见,这种意 见已经可以统领全局,当然更是舆论,而且成为主导舆论。」 P4 「要注意,不能轻易把网上的意见视为舆论。网民占全国人1/3,网民在网上发表意见 的人数,只占所有网民的2%,经常发表意见的人数更少。」 P8 因此,网民大都属于「沉默的大多数」,通过技术手段抓取关键词呈现出的意见状况会 出现代表性偏差,与符合真实情况可能出现不一致。
及时性:即时编辑、及时发布、即时传播、即时互动、及时反馈
2.6
网络舆情的演变过程
舆 情 影 响
萌芽
扩散
爆发
波动消退
经历时期
表2.1:网络舆情演变模型
2.7
网络舆情的演变过程
舆 情 影 响
危险
不安全
隐患 正常 良好 萌芽 扩散 爆发 波动消退 经历时期
表2.2:网络舆情预警模型
2.7
网络舆情的演变过程
3.2
网络舆情指数体系构建的基本原则
可行性
目标性 稳定性
系统性
明确性 全面性
动态性
科学性
3.3
互联网大数据挖掘技术
数据库理论
机器学习
人工智能
现代统计学
3.3
互联网大数据挖掘技术
统计技术:对给定数据集合假设一个分布或者概率模型 关联规则:目的是找出数据库中隐藏的关联网
连接分析:从一些用户的行为中分析出一些模式, 同时将产生的概念应用于更广的用户群体中
2016
大数据时代 如何运用指数分析舆情
主讲人:韩少卿 组员:王 闯