当前位置:文档之家› 2016年中国大数据行业发展历程及规模应用现状

2016年中国大数据行业发展历程及规模应用现状

2016年中国大数据行业发展历程及规模应用现状
一、大数据的来源
数据来自于一切客观存在,包括宏观到微观的物理世界,各种生物体、人类社会活动、感知、认识和思维的结果。

随着信息技术的发展,当通常所说的数据是指经过数字化转换后的信息,是可以被量化、分析和再利用的信息,包含数值、文字、符号、音频、视频等不同形态。

对数据的分析都并非新鲜事,如交通规划、宏观经济分析、电力系统规划、气象预测、高能物理、航天航空、基因工程等大规模数据分析和计算早已在人类生产和生活中发挥着关键的作用。

早在1970年哈佛大学关于资源三角形的论述中,将材料、能源、信息看成是推动社会发展的三种基本资源,因此传统的商业智能和数据库厂商得以出现并快速发展。

数据规模和类型的剧变:互联网和移动互联网的发展、传感技术的广泛应用,使得数据的规模和种类急剧增长。

数据类型也不仅仅包含关系型数据,还出现了大量的日志、文本、图片、音频和传感器等非结构化和半结构化数据。

2020年所产生的数据量是2009年的44倍。

数据存储成本下降:单位信息存储成本的下降,使得对海量数据的分布式存储技术难度降低。

30年前,1TB存储的成本为16亿美金,如今通过云存储服务所需不到100美金。

大规模数据处理成为可能:随着计算机技术能发展,对非结构化数据的处理和分析方式组建成熟,MapReduce模型以及云计算模式的出现,是大规模数据处理的成本和技术门槛大大降低。

数据采集更为密集和广泛:随着移动互联网和物联网技术的发展,使得数据的采集更加方便。

数据分析应用的发展:Google、百度、淘宝等数据分析的经典案例给业界带来很强的冲击。

二、行业术语
Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS(Hadoop Distributed FileSystem),因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之
处,这些有用的不同之处使Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在Scala (Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

)语言中实现的,它将Scala 用作其应用程序框架。

与Hadoop 不同,Spark 和Scala 能够紧密集成,其中的Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。

充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relax)POSIX(可移植操作系统接口Portable Operating System Interface ,POSIX标准定义了操作系统应该为应用程序提供的接口标准,是IEEE为要在各种UNIX操作系统上运行的软件而定义的一系列API标准的总称,其正式称呼为IEEE 1003,而国际标准名称为ISO/IEC 9945。

)的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。

HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

三、大数据相关
大数据产业:包含大数据直接相关的软件、硬件及相关服务。

大数据软件:大数据软件,主要指以Hadoop、Spark为基础的新型分布式数据平台软件,以及基于这类平台软件的应用软件。

大数据服务:包含数据分析公有云服务、大数据系统相关的咨询、设计和系统集成服务等。

大数据硬件:用于支撑在企业内部部署的大数据软件的硬件,主要包括服务器、网络设备、存储设备。

四、行业现状
我国大数据市场规模
2014年规模达到84亿人民币,2015年达到116亿元,2016年达到162.4亿元,年平均增速接近40%
大数据软件产值68.2亿元,占市场42%,占比高于国际平均水平
大数据应用现状
超过95%的企业认为大数据对企业非常重要
企业大数据应用效果明显:超过65%的企业认为提升运营效率是企业大数据应用的最显著效果,随后是智能决策(60%)和风险管控(50%)。

数据资源短缺是制约企业大数据发展的最主要因素
企业大数据资源情况
绝大部分(78%)的企业数据总数在50TB-500TB之间(1TB=1024GB=1024x1024B,Byte字节),500TB以上的企业只有18%
企业内部数据是开展大数据应用的基础,来自内部平台、客户、内部管理平台的数据占企业大数据应用资源总量的60%
企业主要数据类型是企业传统结构化数据库表,76%企业认为数据库表是大数据应用当中最主要的数据类型,59%认为是网页数据,37%认为是图片数据
五、大数据应用部署现状
40%企业没有大数据平台部署和大数据应用
24%企业已经开始部署大数据平台但还未实现应用
36%企业已经实现大数据应用
大数据应用发展较高水平的分布在互联网、电信、金融行业。

传统行业的大数据应用发展比较缓慢
大数据平台建设模式
企业大数据应用的建设模式分为自建平台和购买云服务,超过57%企业选择自建大数据平台,40%的企业选择通过购买云服务的形式建设大数据平台。

企业大数据集群规模大部分比较小,50台以下的占45%,100台以下的占78%。

六、政策要求和资源要求
政府的各种大数据扶持政策成为企业关注的焦点;超过70%的企业希望政府资助更多大数据领域的科研项目,另外是开放更多的政府公共信息资源(68%)和市政管理数据(28%)
在大数据的出现,引发全球范围内深刻的技术和商业变革,已经成为全球发展的趋势,国家和企业间的竞争焦点正从资本、土地、人口、资源转向数据资源。

对于中国而言,经历了30多年的高速发之后,各种严峻的问题随之而生,包括产业升级、社会稳定、环境保护、
医疗健康和食品安全等挑战,因此需要将大数据的发展提升到战略高度,以此为契机,通过各种创新和探索,推动产业升级和创新、经济转型和民生建设。

相关主题