当前位置:文档之家› 大数据下的资源整合和知识共享(上)

大数据下的资源整合和知识共享(上)

大数据下的资源整合和知识共享(上)张晨中国科学院软件研究所助理研究员本次课程的主要目的在于,介绍一下什么是大数据,以及大数据有哪些本质特征。

然后在大数据时代下,它给各行各业带来了哪些影响,这个影响是巨大而深远的。

随着互联网、云计算、大数据等方法的兴起与普及,现代人类社会数据的增长速度已经远远超过以往任何一个时期。

有数据表明,现在互联网上的数据,每一年增长50%,也就是说每两年翻一番,所以说这个速度增长得是非常快的。

同时,数据的体量也是很大。

那么IDC就是国际数据公司,美国的市场调查公司预测,,在2020年全球的数据会达到35个ZB。

ZB是什么级别呢?就是一万亿的GB。

因为我们都知道,电脑的内存一般都是由GB来标示的,这样数据是非常大的,海量。

此外数据的类型也非常多。

比如说互联网上,原来有传统的结构化数据,保存在数据库里面。

现在随着互联网时代的到来,有很多非结构化数据,比如说,新闻、论坛上的一些文本数据,还有视频、音频、用户的点击流、行为数据等,这些数据非常复杂。

在这样一个情况下,大数据这一概念就应运而生了。

现在是大数据时代,它给各行各业,尤其是传统行业,带来了很大的影响,同时也带来了很大的问题,我们称之为大数据带来的大问题。

这些大问题,是很难用传统的方法解决的。

所以给人工智能带来了很大的机遇。

人工智能作为大数据的技术的核心,它承载着解决这些大问题的关键所在。

这里指到的人工智能,主要指的就是大数据的存储技术,比如大数据的挖掘技术,还有继续学习,以及大数据的展示,就是可视化,今天来谈一谈大数据的技术。

首先给各位解释一下一些热词。

比如说什么是“互联网+”,什么是云计算,什么是物联网,什么是工业4.0,还有我们时下热炒的中国制造2025,以及最后给出一个大数据的定义。

然后分析一下国际上,对于大数据的案例以及涉及的相关技术。

大数据涉及我们日常生活中的方方面面,所以今天主要讲一下大数据与政治、文化娱乐,还有公共卫生之间的一些关键。

第三部分,着重对大数据的一些实际项目,进行深入解析,主要聚焦在两个方面,第一个方面是智慧城市,第二个方面是智能社会。

一、热词解释(一)“互联网+”首先介绍一下,什么是“互联网+”。

“互联网+”是由2015年3月5日,第十二届全国人民代表大会第三次会议上,国务院总理李克强首先提出来的,他在政府报告中指出,“互联网+”代表一种全新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融合于经济社会各领域之中,从而提升实体经济的创新力和生产力,形成更广泛的以互联网为基础的基础设施和实现工具的经济发展新形态。

互联网行动将重点促进以移动互联网、云计算、物联网、大数据等,与现代制造业相结合。

这里的结合,不是简单的结合,而是一种有机的结合。

它的目的是为了实现产业创新。

那么,到底什么是“互联网+”呢?网络上有个很好的总结。

比如说互联网+时代,“互联网+展销会”就是阿里巴巴,“互联网+商场”就是天猫,“互联网+旅行社”就是携程,“互联网+餐厅”是美团,等等。

那么,互联网到底能够加些什么东西呢?这个slice可以看到,互联网什么实体行业都能够加。

比如说“互联网+商场”,有淘宝、京东商城、天猫。

“互联网+书店”,就是卓越亚马逊。

“互联网+吃饭”,有百度外卖、饿了么、还有大众点评。

“互联网+出行”,就有打车软件,比如说优步、滴滴打车、易到、租车,还有途牛旅行网,这是“互联网+旅游”。

“互联网+支付”,有支付宝,还有余额宝。

“互联网+通信”,几乎每个人人手一个的微信,“互联网+社交”就是微博。

可以说,李克强总理提出的“互联网+”是一个狭义的互联网,因为它是“互联网+现代制造业”。

其实互联网上的“互联网+”,是一种真正的广义上的“互联网+”。

它代表了互联网与任何传统的实体行业的有机结合。

那么,互联网给传统行业带来的影响是什么呢?虽然互联网仅仅出生了30周年,但是它给我们传统行业带来的影响是巨大而深远的。

比如说邮政行业不努力,顺丰就替它努力。

顺丰发明了丰巢,就是利用互联网打通线上与线下的壁垒鸿沟。

银行不努力,支付宝就替它努力。

通讯行业不努力,微信就替它努力。

出租车行业不努力,滴滴快的就替它努力,这说明了什么呢?“互联网+”的影响,它是倒逼这些行业去提高效率,加快创新,这里要注意,而不是代替传统行业。

百度干了广告的事,淘宝干了超市的事,阿里巴巴干了批发市场的事。

这是什么意思呢?就是说互联网已经成为了我们国民经济的一个大的引擎,它是属于一种效率的引擎,创新的引擎。

举个例子,看看它对金融行业有哪些影响,比如说马云发明了支付宝还有余额宝,这样就给普通人民大众带来了比银行更高的收益率。

余额宝在峰值的时候,它的年化收益率是7%。

最近虽然有所下降,但也稳定在2个点以上。

而银行的传统活期,收益率才0.35%,所以说它促进银行进行一个创新改进。

同时,马云发明的支付宝,它比银行更加便捷,因为它的支付还有转帐,是没有手续费的,所以这种方式能够促进银行进行创新。

再来看第二个,零售行业,它对零售行业带来的影响,也是非常巨大的。

我记得80年代出生的人,上大学买电脑都要去中关村去买,当时都是要攒机。

但是现在已经发生了天翻地覆的变化,传统的零售商纷纷部署线上,进行转型电商O2O,这样的话能够砍掉中间环节,使得利润更高。

所以像苏宁易购、国美在线,基本上都是用“互联网+”的思想来进行整合。

那么我们这里给出一个“互联网+”的一个完全定义。

“互联网+”就是互联网与传统行业相融合的一种新形势和新形态。

它是移动互联网、大数据、物联网等与传统行业的结合,是对传统行业的颠覆和改造,但是它不是代替传统行业。

所以说它是一种化学反应,而不是物理反应,它是一种要素的重组。

互联网引发了企业生存环境和企业竞争思维的变化,可以说“互联网+”的思维变革,将使得人们更加关注事物之间的相关关系,而忽略一些因果关系,这也是大数据时代的一种显著特征,它冲击了乃至颠覆了传统的思维模式。

所以说这里的“互联网+”并不是简单的“互联网+传统行业”,而是一种有机的结合。

所有行业都需要面对“互联网+”时代的竞争特点,进行有效的决策与规划。

这里我举个例子:小米,小米就是利用互联网思维颠覆了传统行业的一个典型。

雷军作为小米的创始人,他将互联网思维凝聚为七个字:专注、极致、口碑、快。

什么意思呢?专注,他跟传统的手机制造商不一样,比如说原来的诺基亚,同一时期推出的机型有50种,但是并不是每一种大家都喜欢,而小米呢,他就专注于做一个机型,所以说他得到了成功。

那么极致是什么意思呢?就是目标聚焦在在线电商、电商直销、O2O,这样就砍掉了很多中间环节。

传统的手机销售商,把手机卖给中间商,中间商再卖给零售商,然后再到消费者手中,这样中间就增加了很多的关卡。

而小米聚焦在电商直销,这样的话利润会更高,而且消费者得到的实惠也更大。

此外,他构建了一个小米的生态圈,来支持到他的网上电商。

小米生态圈包括电商平台、移动互联网,还有智能硬件,从物流、服务等各个方面来支持它。

第三个思维叫口碑,是什么意思呢?小米创建了一个粉丝中心。

粉丝中心现在在线的活跃粉丝用户已经达到30万,也就是说他将用户的需求放在第一位。

比如说他的开发,是将很多用户,比如说发烧友聚集在内的。

发烧友提供一些建议,然后他再进行改进。

此外,还有一个就是他的产品,是叫产品集大成。

这是什么意思呢?就是说他将整个用户的使用过程,囊括在他的生产过程中,使得他的产品能够满足不同用户的不同需要,这也是跟传统的手机制造商不一样。

比如说传统手机制造商,虽然也是以用户为中心,但是传统的广播式的推销,这样的话是不适合新一代在互联网上的用户的。

第四点,什么叫快呢?他的产品创新非常快。

他遵循的是快速迭代、开放众包的方式,也就是将整个API公布出来,让大家都参与这个产品的研发过程。

所以,他的产品,他的小米的操作系统,米优,每个星期就发布一个新版本。

但是比如说传统的诺基亚,它的系统可能三五年都不更新一次,这在现代是无法想象的。

还有比如说苹果现在一年更新一次,还有谷歌是半年更新一次,这样就突出了互联网思维的一个优势所在。

它每个星期就推出一个新产品,这样的话用户的黏性就会更大,这就是“互联网+”的思维。

(二)“云计算”云计算作为大数据领域的底层支撑,它是什么意思呢?美国国家标准与技术研究院定义,云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这里的资源包括网络、服务器、存储、应用软件、服务等等。

这些资源能够被广大用户快速地使用,而我们只需要投入很少的管理工作,或与服务供应商进行很少的交互。

这里的云其实指的就是互联网,Internet,那么云计算这个思想最初是由麦肯锡在上个世纪60年代提出来的。

他的思想就是将强大的计算能力当作一种公共事业。

那么就类似于水和电,用户其实自己需要生产水和电,只需要花钱买就行了。

同样地,这种强大的计算资源我们也不需要自己有,我们只需要花钱买,通过Internet访问就行了。

那么现在有很多云计算的资源,比如说国外的谷歌、亚马逊,国内的比如百度云、阿里云、360,等等。

再来看一下互联网的核心技术。

互联网有几个核心技术,第一个是虚拟化技术。

虚拟化是云计算最重要的核心技术之一。

虚拟化是一种在软件中仿真计算机硬件的一种模式。

它以虚拟资源为用户提供服务的计算形式,虚拟化的好处是什么呢?它能够增强系统的弹性和灵活性,从而降低成本,改进服务,并且提高资源的利用效率。

第二点技术,分布式数据存储技术。

云计算的另一大优势,就是能够快速、高效地处理海量数据。

为了保证数据的高可靠性,云计算通常会采用分布式的存储技术,就是将数据存储在不同的物理环境中,也就是存储在不同的电脑里面。

这种模式不仅摆脱了硬件设备的限制,同时它的扩展性更好。

比如说一个电脑坏掉了,其他的电脑还能够正常工作。

在后面会详细介绍一下HDFS,就是Hadoop的分布式文件系统,这就是时下最热门的一个分布式的数据存储技术。

第三个技术,分布式的并行编程模式,也就是分布式的计算技术。

他是在存储技术的基础之上进行一个分布式的计算,分布式的计算技术的初衷就是为了更高效地利用软性硬件资源,让用户更加快速、更简单地使用、应用或者服务。

而MapReduce就是当前云计算主流的编程模式之一。

MapReduce的思想就是将任务自动进行分解,分解成一些子任务,然后把这些子任务通过Map和Reduce两步实现,给它分配到各种分布式的物理设备中,从而进行一个任务的动态的并行的调度与分配。

第四个核心技术是大规模的数据管理。

前面是存储与计算,现在需要一个数据库进行数据的管理。

大数据除了有结构化的数据,还有很多非结构化数据,比如说文本、视频、音频等用户点击流,那么我们需要一个适合非于结构化数据的数据库。

相关主题