当前位置：文档之家› 3-1大数据生态

3-1大数据生态

大数据工具调度系统：Yarn
Yarn 的作用是将大数据体系中多种多样的工具进行工作梳理分配和调度，让它们能够很好地协同写作。
总结
厨房一样的泛生态圈大数据存储工具：HDFS 大数据处理工具：MapReduce、Tez 和
Spark 技术大数据处理简化技术：Pig 和 Hive
大数据中低速处理技术：Impala， Presto，Drill 等
Hive on Tez
Hive on Spark
SparkSQL
大数据高速处理技术：Streaming计算
Streaming 计算，又称流计算，其思路是，在数据流进来的同时进行数据处理，以达到实施的更新。
数据
内存计算
内容输出
大数据高速处理技术：KV Store
KV Store 的特点是，基本无法处理复杂的计算，也许没法聚合，没有强一致性保证（不同数据分布在不同机器上，你每次读取也许会读到不同的结果，也无法处理类似银行转账那样的强一致性要求的操作）。但它处理数据的速度非常快。
大数据中低速处理技术：Hive on Tez、 Spark 和 SparkSQL
大数据高速处理技术：KV Store 大数据工具调度系统：Yarn
大数据生态
提纲
厨房一样的泛生态圈大数据存储工具：HDFS 大数据处理工具：MapReduce、Tez 和
Spark 技术大数据处理简化技术：Pig 和 Hive
大数据中低速处理技术：Impala， Presto，Drill 等
大数据中低速处理技术：Hive on Tez、 Spark 和 SparkSQL
HDFS
=
MapReduce 、Tez和Spark
大数据处理工具：MapReduce 、Tez和Spark
MapReduce 是第一代计算引擎，它的设计采用了很简化的计算模型，只有 Map 和 Reduce 两个计算过程，用这个模型，已经可以处理大数据领域很大一部分问题了。
第二代计算引擎是 Tez 和 Spark，除了内存Cache 之类的新 feature，本质上来说， Tez 和 Spark 是让 Map/Reduce 模型更通用，让 Map 和Reduce 之间的界限更模糊，数据交换更灵活，更少的磁盘读写，以便更方便地描述复杂算法，取得更高的吞吐量。
大数据处理简化技术：Pig和Hive
Pig 是接近脚本方式去描述 MapReduce，Hive 则用的是 SQL。它们把脚本和 SQL 语言翻译成 MapReduce 程序，交由计算引擎去计算。
Pig
=
Hive
=
Impala，Presto，Drill
大数据中低速处理技术
Impala，Presto，Drill 三个系统的核心理念是，MapReduce 引擎太慢，因为它太通用，太强壮，太保守，我们SQL需要更轻量，更激进地获取资源，更专门地对 SQL 做优化，而且不需要那么多容错性保证。
Impala
Presto
kSQL
大数据中低速处理技术：Hive on Tez（或者Hive on Spark）和 SparkSQL 设计理念是，MapReduce 慢，但是如果我用新一代通用计算引擎 Tez 或者 Spark 来跑 SQL，那我就能跑的更快。而且用户不需要维护两套系统。
大数据高速处理技术：KV Store 大数据工具调度系统：Yarn
厨房一样的泛生态圈
大数据本身是一个很宽泛的概念，Hadoop 生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据而诞生的。
我们可以用厨房作为一个类比，来更好的理解大数据生态圈
大数据存储工具：HDFS
HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，而给用户呈现的是一个文件系统而不是很多文件系统。

e商务文档

3-1大数据生态

相关文档推荐：