当前位置:文档之家› 高级培训-20.《云计算(第三版)》配套PPT之二十:第6章 Hadoop 2.0 大家族(一)3

高级培训-20.《云计算(第三版)》配套PPT之二十:第6章 Hadoop 2.0 大家族(一)3


12 Apache Chukwa
分布式的数据收集与传输系统
它可以将各种各样类型的数据收集与导入Hadoop。
6
6.1 Hadoop 2.0大家族概述 组件简介
13 Apache Hama
基于HDFS的BSP并行计算框架
可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
14 Apache Giraph
23
6.2 ZooKeeper
6.2.1 ZooKeeper简介 6.2.2 ZooKeeper 入门
6.2 ZooKeeper ZooKeeper部署
1.部署前提
2.部署规划
3.下载并安装ZooKeeper服务
5.配置ZooKeeper
4.初始化ZooKeeper
6.启动ZooKeeper服务
8
6.1 Hadoop 2.0大家族概述
组件分类
1 分布式存储 HDFS
2 分布式操作系统 Yarn
3 分布式处理算法 MapReduce 4 分布式锁服务 ZooKeeper
5 分布式数据库 Hbase Cassandra 6 分布式锁服务 Oozie 7 高层语言 Pig Hive Impala RHadoop
6 Apache Flume
分布式日志数据聚合与传输工具
可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧
实用。
7 Apache Mahout
基于Hadoop的分布式程序库
提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测 试流程。
8 Apache Sqoop
8 机器学习库 Mahout Giraph Hama RHadoop
9 元数据与表管理工具 Hcatalog
10 数据传输工具 Flume Avro Chukwa Sqoop
11 集群管理工作 Ambari Cloudera Manager 12 各组件的Web化编辑器 Hue 13 组件间版本依赖处理工具 BigTop
9
6.1 Hadoop 2.0大家族概述
组件分类
Ambari/Clouddera Manager Hue
Map Reduce
Pig Hive Impala
Flume Sqoop Avro Chukwa
Mahout R Giraph Hama
Hbase Cassandra
Whirr Search
WebHdfs Hcatalog
10 Apache Avro
数据序列化系统
用于大批量数据实时动态交换,它是新的数据序列化与传输工具,估计会逐步
取代Hadoop原有的RPC机制。
11 Apache Ambari
Hadoop及其组件的Web工具
提供Hadoop集群的部署、管理和监控等功能,为运维人员管理Hadoop集群提 供了强大的Web界面。
下载与此Hadoop版本兼容版本的Pig
解压,配置Pig
按需将解压且配置好的Pig发送到需要部署的机器上
新建相应用户、文件夹等,并赋予合适权限
12
6.1 Hadoop 2.0大家族概述 部署过程
商业版(Cloudera或Hortonworks)部署步骤: 部署前提与规划
部署,配置Pig
新建相应存储目录,并赋予合适权限。 社区版部署须解决版本兼容与本地权限文件的问题,烦琐易错; Cloudera版本身已经解决了版本与权限问题,并且其部署时只要使用标准的 Linux安装命令并做些中文配置即可。
基于Hadoop的分布式迭代图处理系统
灵感来自BSP (Bulk Synchronous Parallel) 和Google 的Pregel。
15 Apache Crunch
基于Google的FlumeJava库编写的Java库
用于创建MR程序,与Hive、Pig类似,Crunch提供了用于实现如连接数据、执 行聚合和排序记录等常见任务的模式库。
6.2 ZooKeeper
ZooKeeper工作过程
Pa产生这条消息后将此消息注册到ZooKeeper中,Pb需要这条消息时直接从 ZooKeeper中读取即可。
ZooKeeper 服务
机器A中 进程Pa
机器B中 进程Pb
ZooKeeper提供了松耦合交互 方式,即交互双方不必同时存 在,也不用彼此了解。 比如Pa在ZooKeeper中留下一 条消息后,进程Pa结束,此后 进程Pb才刚开始启动。
iClient iClient
joe
14
6.1 Hadoop 2.0大家族概述 部署规划
组件
机器 cMaster
Hadoop
master
cSlave0
slave
cSlave1
slave
cSlave2
slave
cProxy
proxy
Hbase
master
slave
slave
slave
ZooKeeper
proxyser ver
hadoop client
17
6.1 Hadoop 2.0大家族概述 商用版Hadoop部署
6 安装Hadoop
11 建立HDFS相关目录
7 配置HDFS
12 配置Yarn

8 建立本地目录
13 建立本地目录
9 格式化存储主节点
14 启动Yarn服务
10 启动HDFS服务
15 Web界面与进程信息
18 Apache HCatalog 基于Hadoop的数据表和存储管理工具
可用于管理HDFS元数据,它跨越Hadoop和RDBMS,可以利用Pig和Hive提供 关系视图。
19 Cloudera Hue
Hadoop及其生态圈组件的Web编辑工具
实现对HDFS、Yarn、MapReduce、Hbase、Hive、Pig等的Web化操作。
6.1 Hadoop 2.0大家族概述
6.1.1 分布式组件 6.1.2 部署概述
6.1 Hadoop 2.0大家族概述
组件简介
1 Apache ZooKeeper 分布式、开源的协调服务
主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式 应用协调及其管理的难度。
2 Apache Hbase
Yarn: 分布式操作系统
BigTop
Hcatalog
HDFS: 分布式存储
ZooKeeper
Hadoop生态圈分类
10
6.1 Hadoop 2.0大家族概述
6.1.1 分布式组件 6.1.2 部署概述
6.1 Hadoop 2.0大家族概述
部署过程
Apache社区版分布式组件部署步骤: 部署前提与规划
ZooKeeper3
读操作 在各个节点上实现
写操作
必须发送到领导者, 并经领导者同意才可执行
首先会从中选择一个作为领导者,其他则作为追随者。
ZooKeeper集群内选取领导时,内部采用的是原子广播协议,此协议是对 Paxos算法的修改与实现。
集群中ZooKeeper个数必须以奇数出现(3、5、7、9…),并且 当构建ZooKeeper集群时,最少需3个节点。
Pig Hive Flume Oozie Mahout
Flume汇 Oozie
ZooKeeper ZooKeeper ZooKeeper
15
iClient
Hadoop Client
Hbase Client
ZooKeeper Client
Pig Hive Flume源 Client Mahout
6.1 Hadoop 2.0大家族概述 商用版Hadoop部署
13
6.1 Hadoop 2.0大家族概述
部署规划
集群共五台机器,cMaster为主节点,cProxy为主节点代理,其他为Slave节点, 注意iClient并不属于集群,用户还须确保集群中所有机器和iClient都可以连网。
系统 JDK 集群 客户端 执行例题的机器 执行例题时用户
CentOS-6.4 64bit jdk-7u45-linux-x64.rpm cMaster、cSlave0、cSlave1、cSlave2、cProxy
16 Apache Whirr
一套运行于云服务的类库
提供高度的互补性,Whirr支持Amazon EC2和Rackspace服务。
7
6.1 Hadoop 2.0大家族概述 组件简介
17 Apache Bigtop 针对Hadoop及其周边组件的打包、分发和测试工具
解决组件间版本依赖、冲突问题,实际上当用户用rpm或yum方式部署时,脚 本内部会用到它。
18
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
6.2 ZooKeeper
6.2.1 ZooKeeper简介 6.2.2 ZooKeeper 入门
Hadoop 2.0 大家族
本章主要介绍分布式环境下除Hadoop外的其他组件
分布式存储服务 分布式操作系统服务 分布式数据库 分布式锁 数据挖掘库 … …
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
分布式存储系统
高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化
存储集群。
3 Apache Pig
基于Hadoop的大规模数据分析工具
相关主题