当前位置:文档之家› 大数据生态圈组件思维导图

大数据生态圈组件思维导图


01
通过clusterid来判断DataNode是否归NameNode管理
02
心跳机制判断是否存活
若DataNode超过10分30秒未发送心跳,则判定DataNode宕机
03
保持block的副本数量
NameNode
维护目录树
DataNode
01
管理用户的文件 块
02
和NameNode保 持心跳,定期向 NameNode报告 块的存储情况
Zookeeper
是什么
Zookeeper分布式应用程序协调服务是Hadoop的一个子项目,为分布 式应用提供协调服务
Zookeeper
能做什么
分布式
01
共享锁
统一命
02
名服务
集群管
04

队列管
05

统一配
03
置管理
数据发
06
布订阅
Zookeeper
能做什么
负载均衡
集群管理
选举
服务器动态 上下线
大数据生态圈组件思维导 图
演讲人
2 0 2 5 - 11 - 11
01 Hadoop
Hadoop
是什么
Hadoop是Apache公司旗下的一套开源分布式计算软件
Hadoop
为什么产生
Hadoop
能做什么
它允许使用简单的编程模型去分布式地计算大数据集,用户可以利用 Hadoop服务器集群,编写自己的业务逻辑代码,就可以对海量数据进行 分布式处理
Ya r n
能做什么?
管理内存和CPU等资源
Yarn
怎么做?
结构?
01 ResourceManager
作用?
03 ApplicationMaster
作用?
02 NodeManager
作用?
04 Container
作用?
Ya r n
容错性
ResourceM anager
Application Master
HDFS
是什么
9,300 Million
单击此处添加标题
单击此处输入你的正文,文字是您思想 的提炼,为了最终演示发布的良好效果, 请尽量言简意赅的阐述观点;根据需要 可酌情增减文字,以便观者可以准确理 解您所传达的信息。
来源于谷歌发布的一篇论文GFS,是一 个可扩展的分布式文件系统
提供容错性机制,允许使用廉价的计算 机集群来为用户提供性能不错的文件存 取服务
它是一个文件系统,用来存储文件,通 过目录树来定位文件
HDFS
能做什么
为分布式运算框架提供文件存取服务
01
NameN ode
HDFS
结构
02
DataN ode
03
Second aryNam eNode
NameNode
响应客户端请求
NameN控DataNode状态
HDFS
运作机制
A
启动
B
运行 中
C
运行 异常
启动
NameNode的启动过 程 安全模式
安全模式是什么 安全模式能做什么 如何离开安全模式
运行中
01
check point
是什么 为什么产生
能做什么 怎么做
02
文件上 传到
HDFS
03
从HDFS 下载文件
运行异常
NameNode高可用(HA)
03 MapReduce
MapReduce
是什么
MapReduce
为什么产生
MapReduce
能做什么
结构
01 02 03 04 05
Resouce Manager
MR AppMaster
是什么 作用
NodeMa nager
M a p Ta s k
ReduceT ask
运作机制
运行中 MapReduce工作流程详解
高可靠
失败的任务重新分配
高可靠
其它
01
快照
02
回收站 机制
高扩展
停机增删节点 增加节点
删除节点 动态扩展节点
动态增加节点 动态删除节点
高效
块均匀分布 负载均衡
移动计算而非移动 数据
其它
适合大文件的批处理,不适合小文件存取及低延迟响应
一次写入,多次读取,不支持多用户写入,不支持修改,只支持 append
block副本数目到预期设置的副本数 DataNode会在文件创建后三周验证其校验和
网络和机器失效预防
1 多副本机制
安全模式
3 心跳感知
2 机架感知(副本存放)
同一个节点 不同机架 同第二个副本同机架的不同节点
4 checkpoint机制
NameNo de宕机
主备切换(HA) 是什么
为什么 做什么 怎么做 结构 特点 (多)磁盘存储fsimage和edits
SecondaryNam eNode
帮助NameNode合并日志
HDFS
特点
A
高可 靠
B
高扩 展
C
高效
D
其它
文件完整性
块校验和
文件在建立时,会在每个block上计算校验和,并保存在.meta文件中 客户端在读取block时,会将计算的block校验和与.meta文件中的校验和作比较,
若不匹配,则block损坏 若损坏,客户端可以读取其它副本,NameNode会标记该block已损坏,并复制
(mapTask+shuffle+ReduceTask ) MapReduce中ReadLine读取切片规 则
启动 MapReduce的Job提交
运行流程
04 Yarn
Ya r n
是什么?
Yarn是作业调度和集群资源管理的一个框架
Ya r n
为什么产生?
Ya r n 解 决 了 M R v 1 版 本 中 资 源 管 理 器 扩 展 性 差 , 单 点 故 障 以 及 只 能 局 限 于 MR计算框架等的问题
结构
Hadoop common
支持其他Hadoop模块的 常用工具
Ya r n
1 4
2 3
HDFS MapReduce
Hadoop
怎么做
Hadoop
特点
高可靠 可扩展
Hadoop
运作机制
A
启动
B
C
运行
运行

2
异常
D
运行 结束
02 HDFS
HDFS
是什么
结构
为什么 产生
特点
能做什 么
运作机 制
Zookeeper
怎么做?
为用户提交的数据节点提供监听功 能
管理(存储,读取)用户提交的数 据
Zookeeper
结构
A
B
C
D
Lea der
Follo wer
Sess ion
Zno de
Session
01
是什么?
02
Session 的四种
状态
Znode
是什么?
分类
按照存活时间 Persistent
NodeMana ger
Ya r n
运行在Yarn上的计算框 架
01 MapR educe
03 Storm
05 ...
02 Tez 04 Spark
运作机制
运行异常
Yarn的HA
05 Zookeeper
Zookeeper
是什么 怎么做?
为什么 产生?
结构
能做什 么
特点?
Zookeeper
运作机制
相关主题