当前位置:文档之家› 大数据云计算区别复习进程

大数据云计算区别复习进程

(一)关于大数据和云计算的关系分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。

虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。

另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用。

大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?
在谈大数据的时候,首先谈到的就是大数据的4V特性,即类型复杂,海量,快速和价值。

IBM原来谈大数据的时候谈3V,没有价值这个V。

而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其它3V都是为价值目标服务。

在有了4V的概念后,就很容易简化的来理解大数据的核心,即大数据的总体架构包括三层,数据存储,数据
处理和数据分析。

类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。

数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行
分析产生价值。

而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。

三层相互配合,让大数据最终产生价值。

数据存储层
数据有很多分法,有结构化,半结构化,非结构化;也有元数据,主数据,业务数据;还可以分为GIS,视频,文件,语音,业务交易类各种数据。

传统的结构化数据库已经无法满足数据多样性的存储要求,因此在RDBMS基础上增加了两种类型,一种是hdfs可以直接应用于非结构化文件存储,一种是nosql类数据库,可以应用于结构化和半结构化数据存储。

数据处理层
数据处理层核心解决问题在于数据存储出现分布式后
带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。

数据分析层
最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。

那么数据分析层核心仍然在于传统的BI分析的内容。

包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。

(二)云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。

云计算的本质就是将计算能力作为一种较小颗粒度的服务提供给用户,按需使用和付费,体现了:
1.经济性,不需要购买整个服务器
2.快捷性,即刻使用,不需要长时间的购买和安装部署
3.弹性,随着业务增长可以购买更多的计算资源,可以需要时购买几十台服务器的1个小时时间,运算完成就释放
4.自动化,不需要通过人来完成资源的分配和部署,通过API 可以自动创建云主机等服务。

云计算的技术关注点在于如何在一套软硬件环境中,为不同的用户提供服务,使得不同的用户彼此不可见,并进行资源隔离,保障每个用户的服务质量。

在大数据和云计算的关系上,我们可以这样理解:
1.两者都关注对资源的调度。

2.大数据处理可以基于云计算平台(如IaaS,容器)。

3.大数据处理也可以作为一种云计算的服务,如AWS的EMR(Amazon Elastic MapReduce )阿里云的
ODPS(Open Data ProcessingService)。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。

然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO 等关心的技术层,是一个进阶的IT解决方案。

而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

相关主题