当前位置:文档之家› 大数据技术原理与应用演示课件.ppt

大数据技术原理与应用演示课件.ppt


数据复制 机架感知 Editlog
每个文件的block大小和replication因子都是可配置的。Replication因子可 以在文件创建的时候配置,以后也可以改变。HDFS中的文件是write-one, 并且 严格要求在任何时候只有一个writer。
在大多数情况下,replication因子是3,HDFS的存放策略是将一个副本存 放 在本地机架上的节点,一个副本放在同一机架上的另一个节点,最后一 个副本影响到数据的可靠性和有效性。放在不同机架上的一个节点。机架的 错误远远比节点的错误少。
备用的主控服务器,在身后默默的拉取着主控服务器的 日志,等待主控服务器牺牲后被扶正。

HDFS核心功能
功能
说明
Namespace HDFS支持传统的层次型文件组织,与大多数其他文件系统类似,用户可以 创建目录,并在其间创建、删除、移动和重命名文件。
Shell命令
Hadoop包括一系列的类shell的命令,可直接和HDFS以及其他Hadoop支 持的文件系统进行交互。

HDFS相关术语
HDFS NameNode
GFS Master
MooseFS Master
DataNode Block
Chunk Server
Chunk
Chunk Server
Chunk
Packet


说明
整个文件系统的大脑,它提供整个文件系统的目录信息, 各个文件的分块信息,数据块的位置信息,并且管理各 个数据服务器。 分布式文件系统中的每一个文件,都被切分成若务器上, HDFS Client,向远程的Namenode发起RPC请求; 2、Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会 返回有该block拷贝的datanode地址; 3-4、HDFS Client 选取离客户端最接近的datanode来读取block; 5、当读完列表的block后,如果文件读取还没有结束,客户端开发库会继续向Namenode获取 下一批的block列表。 6、读取完当前block的数据后,关闭与当前的datanode连接,并为读取下一个block寻找最 佳的datanode; 注:读取完一个block都会进行checksum验证,如果读取datanode时出现错误,客户端会通 知Namenode,然后再从下一个拥有该block拷贝。的datanode继续读。
2.2 Hadoop项目结构
组件 HDFS MapReduce YARN Tez Hive HBase Pig Sqoop Oozie Zookeeper Storm Flume
Ambari
Kafka Spark
功能 分布式文件系统 分布式并行编程模型 资源管理和调度器 运行在YARN之上的下一代Hadoop查询处理框架 Hadoop上的数据仓库 Hadoop上的非关系型的分布式数据库 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin 用于在Hadoop与传统数据库之间进行数据传递 Hadoop上的工作流管理系统 提供分布式协调一致性服务 流计算框架 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
每个文件都会被切分成若干个块(默认64MB) 每一块 都有连续的一段文件内容是存储的基本 单位。
客户端写文件的时候,不是一个字节一个字节写 入文件 系统的,而是累计到一定数量后,往文件个数据包。
Chunk

Secondary 无 NameNode
Block(64KB) Metalogger
在每一个数据包中, 都会将数据切成更小的块( 512 字节 ) , 每一个块配上一个 奇偶校验码 (CRC), 这样的块,就是传输块。

HDFS系统架构图
元数据操作
DFSClient
读操作
Datanodes
NameNode
Metadata(Name, replicas..) (/home/foo/data,6. ..
块操作
同步元数据和日志
Secondary NameNode
Datanodes
机架
写操作
DFSClient
另一个机架
写入文件流程

1. HDFS Client 向远程的Namenode发起RPC请求;
2. Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作, 成功则会为文件创建一个记录,否则会让客户端抛出异常;
3. 当客户端开始写入文件的时候,开发库会将文件切分成多个packets,并在内 部以"data queue"的形式管理这些packets,并向Namenode申请新的blocks, 获取用来存储replicas的合适的datanodes列表,列表的大小根据在Namenode 中对replication的设置而定。
Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控
一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 类似于Hadoop MapReduce的通用并行框架
HDFS是什么
• 分布式文件系统 • 冗余存储 • 面向大文件存储设计 • 面向批量插入设计 • 基于商用机器提供可靠的数据存储 • 容忍部分节点故障
/post/bigdata
Chap02 分布式处理软件架构 Hadoop
提纲
• 2.1 概述 • 2.2 Hadoop项目结构 • 2.3 Hadoop的安装与使用 • 2.4 Hadoop集群的部署与使用
2.2 Hadoop项目结构
Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统
FSEditLog类是整个日志体系的核心,提供了一大堆方便的日志写入API, 以及日志的恢复存储等功能。
集群均衡
如果某个DataNode节点上的空闲空间低于特定的临界点,那么就会启动一 个计划自动地将数据从一个DataNode搬移到空闲的DataNode。
空间的回收
删 除 文 件 并 没 有 立 刻 从 HDFS 中 删 除 , HDFS 将 这 个 文 件 重 命 名 , 并 转 移 到/trash目录,用于恢复,/trash可设置保存时间。
相关主题