当前位置:文档之家› 中国大数据研究与应用概况(1)

中国大数据研究与应用概况(1)

中国大数据研究与应用概况(1)胡经国本文根据有关文献和资料编写而成,供读者参考。

本文在篇章结构、内容和文字上对原文献作了一些修改和补充,并且添加了一些小标题,特此说明。

一、中国大数据落地的三道坎从全球来看,对大数据认识、研究和应用尚处于初期阶段。

特别是对中国来说,大数据要真正落地,还需要迈过以下三道坎。

1、数据是否足够丰富和开放丰富的数据源是大数据产业发展的前提。

在中国,数字化数据资源总量远远低于美欧;每年新增数据量仅为美国的7%,欧洲的12%。

其中,政府和制造业的数据资源积累远远落后于国外。

就已有有限的数据资源来说,还存在标准化、准确性和完整性低,因而利用价值不高的情况。

同时,政府、企业和行业信息化系统建设往往缺少统一规划和科学论证;系统之间缺乏统一的标准,形成了众多“信息孤岛”;而且受行政垄断和商业利益所限,数据开放程度较低。

这给大数据应用造成极大障碍。

制约中国数据资源开放和共享的一个重要因素是政策法规不完善。

一方面缺乏推动政府和公共数据公开的政策;另一方面数据保护和隐私保护的制度不完善,抑制了数据开放的积极性。

因此,建立一个良性发展的数据共享生态系统是中国大数据落地需要迈过的第一道砍。

2、是否掌握强大的数据分析工具若要以低成本和可扩展的方式处理大数据,则需要对现有的整个IT架构进行重构,开发先进的软件平台和算法。

这方面,国外一些国家又一次走在我们的前面。

特别是近年来,以开源模式发展起来的Hadoop等大数据分布式处理软件平台及其相关产业,已经在美国初步形成。

中国数据处理技术基础薄弱,总体上以跟随为主,难以满足数据分析与大数据大规模应用的需求。

如果把大数据比作石油,那么数据分析工具就是勘探、钻井、提炼、加工的技术。

中国必须掌握大数据关键技术才能将资源转化为价值。

应该说,要迈过这道坎,开源技术为我们提供了很好的基础。

3、管理理念和运作方式能否适配数据化决策大数据开发的根本目的,是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。

哈佛商业评论说,大数据本质上是一场管理革命。

大数据时代的决策不能仅凭经验,而真正要拿数据说话。

因此,大数据能够真正发挥作用,从深层次看,还要改善我们的管理模式,需要管理方式和架构与大数据技术工具相适配。

这或许是我们最难迈过的一道坎了。

二、中国的大数据交易1、《2016年大数据交易白皮书》2016年5月26日,中国贵阳大数据交易所发布《2016年大数据交易白皮书》(以下简称《白皮书》)。

《白皮书》由相关大数据团队用4个月时间研发。

全书聚焦大数据产业宏观环境及产业结构,从15大行业入手,解读了行业大数据应用及交易的现状,并且多维度展望了大数据产业发展趋势。

2、三种类型的大数据交易平台《白皮书》显示,中国国内现有的大数据交易平台主要有以下三种类型:一是以贵阳大数据交易所为代表的大数据交易所平台,包括湖北长江大数据交易所、陕西西咸新区大数据交易所等;二是产业联盟性质的大数据交易平台,以北京中关村数海大数据交易平台为主;三是专注于互联网综合大数据交易和服务的平台,比如数据堂等。

3、大数据交易主要形式现在,大数据交易以电子交易为主要形式。

通过线上大数据交易系统,撮合客户进行大数据交易;并且定期对大数据供需双方进行资格评估认定。

4、交易大数据所有权与使用权经过开发利用的数据,伴随着数据使用权的转移,其所有权几乎不变。

根据数据产生的来源以及收集和占有的情况,数据的所有权可分为:政府数据、企业数据和个人数据这三个方面。

5、大数据交易市场规模近年来,大数据交易相关的技术标准不断完善。

中国大数据交易市场得到了快速发展。

贵阳大数据交易所曾经预测,2016年中国大数据交易市场规模为62.12 亿元。

6、政府大数据产业规模政府大数据产业规模将成倍增长。

政府大数据产业是指以政府为主体的大数据应用产业。

通过对数据采集整理,描绘出数字化的社会全景图;并且通过数据分析,研究社会运转模式和规律,洞悉社会问题和国际安全问题,帮助政府工作高效化、科学化开展,维护国家安全。

随着部委以及地方各级政府的政务公开以及数据共享的持续推进,政府大数据产业将逐渐成熟。

2014年,政府大数据应用市场规模为9.06亿元;2015年,政府大数据应用市场规模达到16亿元。

2016年之后的2~3年内,政府大数据应用市场规模会成倍增长。

预计2020年,政府大数据应用市场规模将达1907.5 亿元。

三、中国大数据总量现状与预测这是一个注定要被拍砖的问题。

但是,这样拍着改着可能也就明确了。

所以,无论如何,还是先抛出块砖头吧。

我们都在说大数据时代来临,信息和数据大爆炸。

从2013年初开始,大数据爆发的焦虑感、紧迫感,驱动众多行业、企业和团体去关注、接触和了解大数据;自觉或不自觉地、主动或被动地去融入这波大数据洪流。

但是,真的说到大数据,我们身边到底有多少数据量?它们都分布在哪些行业?哪些数据是目前可用的?哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?我们尝试对于国内各个领域、行业和机构的数据拥有情况,以及使用情况和未来路径,做一个粗犷地调研、梳理和判断;对于大数据时代中国各个领域数据资产的拥有和使用情况,也就是我们数据资产的家底做一个盘点;并且对于各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来,做一个简单判断。

1、2013年现状⑴、存储市场出货容量从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1EB。

⑵、存储总容量IDC曾经发布的预测表明,在未来的3-4年,中国存储总容量可能达到18EB。

从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,并且上升态势明显。

⑶、服务器总量鉴于存储和服务器的紧密相关,从已经获得的资料可知,目前全球运行的服务器总量超过5000万台。

其中,美国国内运行的服务器总量接近1000万台。

从各种市场公开数据来看,2013年中国内地服务器销售总量接近为100万台。

大体估算,截止到2013年底,中国内地整体在运行的服务器总数量在300万台以上。

⑷、可存储数据容量从现有存储容量看,中国目前可存储数据容量大约在8EB~10EB左右。

⑸、可保存数据容量及其分布现有的可以保存下来的数据容量大约在5EB左右,并且每两年左右会翻一倍。

这些被存储数据的大体分布为:媒体/互联网占据现有数据容量的1/3,政府部门/电信企业占据数据容量1/3。

其他的金融、教育、制造、服务业各部分占据剩余的1/3数据容量。

⑹、企业与行业数据量公开数据显示,2013年,互联网搜索巨头百度拥有数据量接近EB级别。

阿里、腾讯声明,自己存储的数据总量都达到了100PB以上。

此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

2、2020年预测⑴、全球数字宇宙数据量IDC和EMC联合发布的“2020年的数字宇宙”报告预测,到2020年,全球数字宇宙将会膨胀到40000EB;均摊每个人是5200GB以上。

这个庞大的数据量将如何被有效存储和应用,眼下还很难想象。

然而,该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。

⑵、全球产生的数据量及其分析事实上,根据上述调查结论和服务器容量调查,可以做出一个相对合理的推断:目前,全球产生的数据量中,仅有1%左右的数据能够被保存下来。

这也就是说,全球能够被保存下来的数据,也只不过50EB左右;而其中被标记并且被用于分析的数据则不到10%。

⑶、2014年中国年产数据量及其分析作为全球人口和计算设备保有量的大国,中国每年所能产生的数据量也极为庞大。

据估计,在2014年,中国年产数据量甚至可能达到ZB级别。

但是,真正被有效存储下来的数据,只有其中极微小的一部分。

中国保存下来数据占全球数据的比例,大约在10%左右,也就是上面所说的5EB。

在这些数据中,目前已被标记并且用于分析的数据,仅在500PB左右,也是接近10%的这个比例。

⑷、中国数据总量预测随着云计算迅速普及,随着各个行业、企业和部门对于数据资产保存和利用的意识的增强以及通过互联网、大数据对产业进行变革的意愿,2014年曾经预测:未来2~3年一定会有越来越多的行业、大企业步入PB、百PB甚至EB 级别数据俱乐部;未来3~3年,中国数据总量也将呈现成倍增长态势。

2014年曾经预测,2015年,中国就可能突破10EB数据保有量;被标签和分析利用的数据量也将上升到EB级别。

在这些数据增长中,互联网、政务、医疗、教育、安全等行业和领域所做贡献最大;而在相对传统的物流、生产制造、甚至农业等领域,其数据拥有量的增长将更加明显。

四、中国数据总量与大数据行业分布1、物理世界的信息化人类步入信息时代,有个事情是非常重要的,那就是物理世界的信息化。

它包括:信息基础设施建设和数字化;紧接着就是如何将数字化的东西(数据)进行储存、传输、交换以及应用。

这一脉络伴随着移动互联网、云计算、大数据以及各种各样智能终端的出现,显得越来越清晰。

2、数据成为产业互联网重要的生产要素我们可能已经来到一个在工业革命之后、比我们想象的更加重要的变革时代。

我们把它命名为产业互联网时代。

毕竟这一切都是互联网出现之后才发生的。

无论是云计算、大数据还是智能终端,都要依托互联网。

同时,这些工具又帮助互联网从消费性互联网进化到改变各个行业的生产性互联网。

其中,数据成为产业互联网重要的生产要素。

当然,数据成为生产要素还有个前提,那就是获取数据并且有效地梳理和标签。

3、2013 年中国数据总量及其预测2013 年,中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009 年全球的数据总量。

预计,到2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。

4、中国大数据行业分布我们曾经通过服务器和数据中心数量,以及各行业数据梳理,大致判断了中国国内目前一年产生、存储的数据总量及其大致分布。

下面,我们尝试把所收集到的资料汇总起来,进一步分析各个行业、领域的数据总量及其分布情况,以供参考。

⑴、BAT(百度、阿里、腾讯)代表的互联网公司①、百度据介绍,2014年,百度数据总量接近1000PB左右,网页数量约为几千亿网页。

从大量的网页里面拿出了几百亿来建索引。

对于这些大量的网页,每年更新几十亿左右;每天享受用户的查询也在几十亿左右;查询的数据量达几百PB。

根据公开的信息,作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次搜索请求。

百度每日新增数据10TB,要处理超过100PB的数据。

从浩如烟海的信息中,精确抓取约10亿网页。

同时,索引库还拥有千亿级的在线索引能力,以帮助用户完成搜索过程。

相关主题