当前位置:文档之家› 3-1大数据生态

3-1大数据生态


大数据工具调度系统:Yarn
Yarn 的作用是将大数据体系中多种多样的工具进行工作梳理分配和调度,让 它们能够很好地协同写作。
总结
厨房一样的泛生态圈 大数据存储工具:HDFS 大数据处理工具:MapReduce、Tez 和
Spark 技术 大数据处理简化技术:Pig 和 Hive
大数据中低速处理技术:Impala, Presto,Drill 等
Hive on Tez
Hive on Spark
SparkSQL
大数据高速处理技术:Streaming计算
Streaming 计算,又称流计算,其思路是,在数据流进来的同时进行数据处理, 以达到实施的更新。
数据
内存计算
内容输出
大数据高速处理技术:KV Store
KV Store 的特点是,基本无法处理复杂的计算,也许没法聚合,没有强一致 性保证(不同数据分布在不同机器上,你每次读取也许会读到不同的结果,也 无法处理类似银行转账那样的强一致性要求的操作)。但它处理数据的速度非 常快。
大数据中低速处理技术:Hive on Tez、 Spark 和 SparkSQL
大数据高速处理技术:KV Store 大数据工具调度系统:Yarn
大数据生态
提纲
厨房一样的泛生态圈 大数据存储工具:HDFS 大数据处理工具:MapReduce、Tez 和
Spark 技术 大数据处理简化技术:Pig 和 Hive
大数据中低速处理技术:Impala, Presto,Drill 等
大数据中低速处理技术:Hive on Tez、 Spark 和 SparkSQL
HDFS
=
MapReduce 、Tez和Spark
大数据处理工具:MapReduce 、Tez和Spark
MapReduce 是第一代计算引擎,它的设计采用了很简化的计算模型,只有 Map 和 Reduce 两个计算过程,用这个模型,已经可以处理大数据领域很大一部分问题了。
第二代计算引擎是 Tez 和 Spark,除了内存Cache 之类的新 feature,本质上来说, Tez 和 Spark 是让 Map/Reduce 模型更通用,让 Map 和Reduce 之间的界限更模 糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞 吐量。
大数据处理简化技术:Pig和Hive
Pig 是接近脚本方式去描述 MapReduce,Hive 则用的是 SQL。它们把脚本和 SQL 语言翻译成 MapReduce 程序,交由计算引擎去计算。
Pig
=
Hive
=
Impala,Presto,Drill
大数据中低速处理技术
Impala,Presto,Drill 三个系统的核心理念是,MapReduce 引擎太慢, 因为它太通用,太强壮,太保守,我们SQL需要更轻量,更激进地获取资源, 更专门地对 SQL 做优化,而且不需要那么多容错性保证。
Impala
Presto
kSQL
大数据中低速处理技术:Hive on Tez(或者Hive on Spark)和 SparkSQL 设计理念是,MapReduce 慢,但是如果我用新一代通用计算引擎 Tez 或者 Spark 来跑 SQL,那我就能跑的更快。而且用户不需要维护两套系统。
大数据高速处理技术:KV Store 大数据工具调度系统:Yarn
厨房一样的泛生态圈
大数据本身是一个很宽泛的概念,Hadoop 生态圈(或者泛生态圈)基本上都 是为了处理超过单机尺度的数据而诞生的。
我们可以用厨房作为一个类比,来更好的理解大数据生态圈
大数据存储工具:HDFS
HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能 横跨成百上千台机器,而给用户呈现的是一个文件系统而不是很多文件系统。
相关主题