当前位置:文档之家› Hadoop大数据开发基础教程

Hadoop大数据开发基础教程

流式文件写入 一次写入,多次读取。文件一旦写入,不能修改,只能增加。 这样可以保证数据的一致性。
9
Hadoop分布式文件系统--HDFS
NameNode,用于存储元
数据以及处理客户端发出的 请求; SN,一个Checkpoint来帮 助NameNode更好的工作;
DataNode,它为 HDFS
16
Hadoop MapReduce
MapReduce:Hadoop分布式计算框架 K->V 1->3 2->7 1->9 2->49
Map v=v*v
K->V Map 1->16 1->4 v=v*v 2->64 2->8 Map:映射,把键值对使用函数映射成新的键值对 K->பைடு நூலகம் 1->9 2->49 1->25 Reduce 2->113 K->V v=v+v 1->16 reduce:规约,把键值对中键相同的值整合,同时应用 2->64 函数映射成新的键值对
17
Hadoop MapReduce原理
针对文本进行词频统计
18
Hadoop MapReduce本质
19
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
20
Hadoop生态系统
21
Hadoop生态系统--HBase HBase – Hadoop Database,是一 个高可靠性、高性能、面向列、可伸缩的
4
为什么使用Hadoop
原因
数据存量和增量极大 极大数据需要存储和分析 Hadoop可以存储并处理 大量数据
Hadoop编程简单易学
5
Hadoop 特点
Hadoop是一个能够对大量数据进行分布式处理的软件框架 。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因
此它维护多个工作数据副本,确保能够针对失败的节点重新 分布处理。
主要包含map(映射)和reduce (规约)过程
8
Hadoop分布式文件系统--HDFS 分布式文件系统(HDFS,Hadoop Distributed File System) 高度容错性的系统 上传的数据自动保存多个副本,适合部署在廉价的机器上。
适合大数据的处理 高吞吐量的数据访问,非常适合大规模数据集上的应用。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处
理加快处理速度。 Hadoop 还是可伸缩的,Hadoop是在可用的计算机集簇间
分配数据并完成计算任务的,所以集群可以很容易进行节点
的扩展,扩大集群。能够处理 PB 级数据。 此外,Hadoop 依赖于社区服务,因此它的成本比较低,任
NameNode
edits
fsimage
12
Hadoop分布式文件系统--HDFS
SecondaryNameNode
Secondary NameNode 将edits改动更新到fsimage 将fsimage拷贝到 NameNode 定时查询 edits文件
NameNode
fsimage
fsimage
何人都可以使用。
6
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
7
Hadoop简介—核心
Hadoop Common是一个公共
基础设施,用于支撑其他项目,
包括RPC、序列化包等
可扩展、容错、高性能的分布式
文件系统,异步复制,一次写入 多次读取
分布式计算框架;
大数据-Hadoop基础
2018/4/9
目录
1 2 3 4
Hadoop简介 Hadoop核心组件 Hadoop生态圈 Hadoop应用场景
2
Hadoop背景
Hadoop发展历程
3
Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础 架构。用户可以在不了解分布式底层细节的情况下,开发分布 式程序。充分利用集群的威力进行高速运算和存储。它的目的 是从单一的服务器扩展到成千上万的机器,将集群部署在多台 机器,每个机器提供本地计算和存储。Hadoop框架最核心的设 计是HDFS和MapReduce。
14
Hadoop分布式文件系统--HDFS
宕机处理
1. 冗余备份 2. 副本存放 3. 备份读取 4. 备份数补充
15
Hadoop简介--MapReduce
并行计算框架 MapReduce是Google提出的一个软件架构,用于大规模数据 集(大于1TB)的并行运算。概念“Map(映射)”和 “Reduce(归纳)”,及他们的主要思想,都是从函数式编 程语言借来的,还有从矢量编程语言借来的特性。 当前的软件实现是指定一个Map(映射)函数,用来把一组键 值对映射成一组新的键值对,指定并发的Reduce(归纳)函 数,用来保证所有映射的键值对中的每一个共享相同的键组。
提供存储位置。 对外部客户机而言,HDFS就像一个传统的分级文件系 统。可以创建、删除、移动或重命名文件,等等。
10
Hadoop分布式文件系统--HDFS
文件上传
NameNode、SecondaryNameNode、 DataNode
11
Hadoop分布式文件系统--HDFS
NameNode
将改动写入 文件系统中 在启动的时候 读取fsimage, 并和edits合并
13
Hadoop分布式文件系统--HDFS
分布式概念
HDFS并不是一个单机文件系统,它是分布在多个集群节点上的 文件系统。节点之间通过网络通信进行协作,提供个节点文件 信息,让每个用户都可以看到文件系统的文件,让多机器上的 多用户分享文件和存储空间。 文件存储时被分布在多个节点上。这里涉及到一个数据块的概 念,数据存储不是按一个文件存储,而是把一个文件分成一个 或多个数据块存储,数据块的概念在上一节已经描述过。数据 块在存储时并不是都存在一个节点上,而是被分布存储在各个 节点中,并且数据块会在其他节点存储副本。 数据读取从多个节点读取。读取一个文件时,从多个节点中找 到该文件的数据块,分布读取所有数据块直到最后一个数据块 读取完毕。
分布式存储系统,利用HBase技术可在廉
价PC Server上搭建起大规模结构化存储 集群。
22
Hadoop生态系统—数据访问
Hive是建立在 Hadoop 上的数据仓库 基础构架。它提供了一 系列的工具,可以用来 进行数据提取转化加载 (ETL),这是一种可 以存储、查询和分析存 储在 Hadoop 中的大规 模数据的机制。
相关主题