当前位置：文档之家› Hadoop大数据开发基础教程

Hadoop大数据开发基础教程

流式文件写入一次写入，多次读取。文件一旦写入，不能修改，只能增加。这样可以保证数据的一致性。
9
Hadoop分布式文件系统--HDFS
NameNode，用于存储元
数据以及处理客户端发出的请求； SN，一个Checkpoint来帮助NameNode更好的工作；
DataNode，它为 HDFS
16
Hadoop MapReduce
MapReduce：Hadoop分布式计算框架 K->V 1->3 2->7 1->9 2->49
Map v=v*v
K->V Map 1->16 1->4 v=v*v 2->64 2->8 Map:映射，把键值对使用函数映射成新的键值对 K->பைடு நூலகம் 1->9 2->49 1->25 Reduce 2->113 K->V v=v+v 1->16 reduce:规约，把键值对中键相同的值整合，同时应用 2->64 函数映射成新的键值对
17
Hadoop MapReduce原理
针对文本进行词频统计
18
Hadoop MapReduce本质
19
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
20
Hadoop生态系统
21
Hadoop生态系统--HBase HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的
4
为什么使用Hadoop
原因
数据存量和增量极大极大数据需要存储和分析 Hadoop可以存储并处理大量数据
Hadoop编程简单易学
5
Hadoop 特点
Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因
此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
主要包含map（映射）和reduce （规约）过程
8
Hadoop分布式文件系统--HDFS 分布式文件系统(HDFS，Hadoop Distributed File System) 高度容错性的系统上传的数据自动保存多个副本，适合部署在廉价的机器上。
适合大数据的处理高吞吐量的数据访问，非常适合大规模数据集上的应用。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处
理加快处理速度。 Hadoop 还是可伸缩的，Hadoop是在可用的计算机集簇间
分配数据并完成计算任务的，所以集群可以很容易进行节点
的扩展，扩大集群。能够处理 PB 级数据。此外，Hadoop 依赖于社区服务，因此它的成本比较低，任
NameNode
edits
fsimage
12
Hadoop分布式文件系统--HDFS
SecondaryNameNode
Secondary NameNode 将edits改动更新到fsimage 将fsimage拷贝到 NameNode 定时查询 edits文件
NameNode
fsimage
fsimage
何人都可以使用。
6
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
7
Hadoop简介—核心
Hadoop Common是一个公共
基础设施，用于支撑其他项目，
包括RPC、序列化包等
可扩展、容错、高性能的分布式
文件系统，异步复制，一次写入多次读取
分布式计算框架；
大数据-Hadoop基础
2018/4/9
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
2
Hadoop背景
Hadoop发展历程
3
Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器，将集群部署在多台机器，每个机器提供本地计算和存储。Hadoop框架最核心的设计是HDFS和MapReduce。
14
Hadoop分布式文件系统--HDFS
宕机处理
1. 冗余备份 2. 副本存放 3. 备份读取 4. 备份数补充
15
Hadoop简介--MapReduce
并行计算框架 MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和 “Reduce（归纳）”，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归纳）函数，用来保证所有映射的键值对中的每一个共享相同的键组。
提供存储位置。对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。
10
Hadoop分布式文件系统--HDFS
文件上传
NameNode、SecondaryNameNode、 DataNode
11
Hadoop分布式文件系统--HDFS
NameNode
将改动写入文件系统中在启动的时候读取fsimage，并和edits合并
13
Hadoop分布式文件系统--HDFS
分布式概念
HDFS并不是一个单机文件系统，它是分布在多个集群节点上的文件系统。节点之间通过网络通信进行协作，提供个节点文件信息，让每个用户都可以看到文件系统的文件，让多机器上的多用户分享文件和存储空间。文件存储时被分布在多个节点上。这里涉及到一个数据块的概念，数据存储不是按一个文件存储，而是把一个文件分成一个或多个数据块存储，数据块的概念在上一节已经描述过。数据块在存储时并不是都存在一个节点上，而是被分布存储在各个节点中，并且数据块会在其他节点存储副本。数据读取从多个节点读取。读取一个文件时，从多个节点中找到该文件的数据块，分布读取所有数据块直到最后一个数据块读取完毕。
分布式存储系统，利用HBase技术可在廉
价PC Server上搭建起大规模结构化存储集群。
22
Hadoop生态系统—数据访问
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

e商务文档

Hadoop大数据开发基础教程

相关文档推荐：