广电大数据应用情况调研1背景概述1.1 大数据概念及发展历程随着云时代的到来,大数据也吸引了越来越多的关注,Gartner给出的定义是“大数据(Big Data)”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值):1、数据容量大(Volume)。
从TB级别,跃升到PB级别;2、数据类型繁多(Variety)。
相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3、商业价值高(Value)。
价值密度的高低与数据总量的大小成反比。
以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。
如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4、处理速度快(Velocity)。
1秒定律。
这是大数据区分于传统数据挖掘的最显著特征。
根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
在如此海量的数据面前,处理数据的效率就是企业的生命。
自2005年Hadoop项目诞生至2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟(ComputingCommunityConsortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。
此组织可以说是最早提出大数据概念的机构。
2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(BigData,BigImpact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。
并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体现对数据的占有和控制。
数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。
2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。
报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。
在接下来将对数据保密和网络管制等议题展开积极讨论。
全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。
2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。
报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。
1.2 互联网企业正大力推进大数据应用优酷、爱奇艺、乐视等互联网视频网站的进入,以及BAT等互联网行业巨头纷纷进军互联网视频行业,使传统广电行业带来空前白热化的竞争,逼迫广电行业不得不采取必要的应对措施,改革自身,突破自我。
2015央视羊年春晚爱奇艺全球同步直播,同时在全国共189个电视频道同步转播,多屏收视率(综合计算电视直播与网络直播)达29.6%,并且凭借超1400万的最高同时在线人数,创下了全球单平台网络直播纪录。
互联网企业对于传统广电行业的冲击可见一斑。
互联网企业在视频业务拓展过程中,一贯注重新新技术的应用,所以大数据就成为他们重点突破的方向,各大互联网企业在大数据方面的尝试可谓不遗余力:全媒体收视调查:泽传媒、歌华有线“北京大样本收视数据研究中心”、北京秒针信息咨询有限公司等多个大数据研究机构加强了对各大卫视节目收视情况的跟踪分析,2014年7月,泽传媒发布“中国全媒体卫视收视率排行榜”。
这是中国第一份电视收视、电视节目网络点击、微博转发等各项指标融合的动态榜单。
同样是2014年 7月,由央视-索福瑞媒介研究有限公司(CSM)与新浪微博合力打造的微博电视指数Beta版宣告上线,成为国内首个基于社交媒体评估电视节目影响力的大数据分析系统。
微博电视指数是以微博上对电视节目的讨论为基础,重点考察口碑影响力和受众覆盖情况,经过大数据运算和关键词的系统优化,计算出相关电视节目在微博上的阅读量、提及的人数和次数,同时,深入的数据解读分析将进一步展现微博上讨论该档电视节目的热度和人群特征。
继2013年春节“百度迁徙”火了一把之后,2014年百度视频又联合湖北广播电视台(集团)公布了一组“全国网民的湖北印象“热搜词,让大数据的创新应用再次成为热点。
通过大数据挖掘与分析网民在百度搜索、百度视频搜索等搜索引擎中高频次搜索与“湖北印象”相关的关键词,我们看到了全国网民心目中有趣的“湖北印象”。
基于用户喜好定制剧:2013年美剧《纸牌屋》大热。
它的投资方Netfilx是美国一家在线视频付费服务运营商,通过对3000万用户的访问规模用户重合度、用户群和访问深度等四个指标进行海量数据分析,得到了拍什么、谁来拍、给谁看、怎么播这四个要素。
《纸牌屋》的创造推出,打开了大数据应用的一扇窗,变革了内容生产的模式,通过用户需求而产生精准内容定位正成为现实。
Netfilx在行业内掀起的热浪对国内视频网站也产生了影响。
爱奇艺首席执行官龚宇近日表示,今年爱奇艺将通过大数据分析,把一部商业微电影改拍成大电影。
国内其他的视频网站也纷纷将目光投向大数据,希望利用大数据掘金。
东方卫视的《女神的新衣》更是电视、电商两大产业的一次深度试水,传统电视媒体捆绑天猫、明星衣橱等新兴互联网平台,并由互联网平台提供实时、精准的大数据指导电视节目制作,这一模式创造了电视综艺娱乐节目制作的新领域。
个性化内容推送优酷网有一个个人用户中心,注册并且登录后系统会根据用户的浏览和观看行为推荐20条视频,如果觉得不好还可以换。
此外,优酷尝试实现多屏云记录,使用户能在不同的终端上连续观看同一个视频。
爱奇艺的PC客户端尝试依靠大数据分析实现“千人千面”的首页全个性化内容推荐。
爱奇艺视频,首页焦点、热播强档、娱乐八卦、动漫乐园、高清电影等导航内容一样也不少,但每位用户在不同地区、不同时间获得的推荐内容都已不再相同。
爱奇艺首席技术官汤兴表示:“这种为用户推荐内容的命中率已经超过35%,推荐带来的播放量在总流量中的占比超过50%。
”精准个人广告投放中国在线视频广告市场规模为21.4亿元,同比增长49.0%,环比增长39.0%。
在线视频行业的最主要收入来源依然是广告,其占比高达75.2%。
艾瑞咨询认为,在线视频广告市场规模的快速增长,反映出在线视频企业媒体价值的不断提升。
未来在线视频广告市场规模的增长动力将来自于广告价格的提升。
由此可见,广告对于视频网站来说是赢利的主要途径,通过精准的广告吸引广告主是视频网站想要达到的目标。
爱奇艺目前正在推出这种广告精准投放功能,“比如雀巢咖啡的一则网络视频贴片广告,韩寒是广告主角。
针对韩寒的忠实‘粉丝’,内嵌的交互广告可以突出韩寒一人,用户点击小贴片进入,点击互动广告,用户可以玩一个小游戏,或者看到广告产品的更多信息,并且通过输入文字点评,在微博上进行互动。
”这种方式可以充分了解用户能带来广告投放的效益。
1.3 广电行业进入大数据时代随着三网融合的深入发展,一方面广电行业加快了融合整合的步伐,很多省份都已经实现了一省一网的改造,广电系统从原来区县级别的分散式的架构跃迁到省级的融合平台架构,在数据量上有了数量级上的提升,随着国网公司的成立以及各省之间联盟团体的建立,广电行业的进一步融合是大势所趋,所以广电行业进入大数据时代也是必然的选择,以一个地级市为例子作简单的估算,1个60万用户的城市产生的内容量大概是100万小时,每个月的点播量会接近180-200万次,首页的月访问量是4500-5000万次左右。
用户产生的订购行为,大概会有几十万到上百万的规模。
从整个客服中心的电话反馈来看,每个月大概会有20多万的规模。
那么全省势必会产生一个非常可观的数据量。
另外一方面,广电行业目前已经普遍实现了媒体资源的生产、传输全数字化过程,在原有有线电视传播渠道的基础上,纷纷向互联网视频网站、移动互联网APP等全媒体方向拓展,在大力发展和巩固有线电视收视群体的同事,依托数字化媒体开辟除了一个新的收视群体,这部分收视群体通过新媒体渠道产生直播、点播、回放等常规数据外,还有大量的交互数据,这势必带动系统数据量的急速攀升。
在数据类型上,除了传统结构化数据之外,也增加了大量包括网络日志、音频、视频、图片、地理位置信息等非结构化数据,这些多类型的数据对数据的处理能力提出了更高要求,符合大数据中数据类型多的特点。
相对而言,目前广电运营商对于大数据的应用相对于互联网视频企业而言,还处在相对简单的阶段,所以现在积极构建广电大数据支撑平台,逐步引入各项大数据应用,广电运营商才能继续在竞争中争取到更多的优势。
2主要应用场景大数据的一般处理流程可以概况为四步,即采集、导入和预处理、统计和分析以及挖掘。
(1)采集是指利用多个数据库来接收来自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
(2)导入和预处理是将来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上作一些简单的清洗和预处理工作。
也有一些用户在导入时对数据进行流式计算,来满足部分业务的实时计算需求。
(3)统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常用的分析需求。
(4)数据挖掘和应用,对现有数据进行各种算法的计算,从而达到统计分析,决策参考,和实现各种大数据应用的过程。