当前位置:文档之家› hadoop生态圈

hadoop生态圈


slave slave
slave slave
slave slave zookeeper
proxy
Hadoop client Hbase client Zookeeper client
Pig Hive
zookeeper zookeeper
Flume汇 Oozie Server
Flume源 Oozie client mahout
HBase
实例
①假定Mysql里有member表,要求使用HBase的shell接口,在HBase中新建并存储此表 ②简述HBase是否适合存储问题①中的结构化数据
身份id 201401 201402 201403 姓名 性别 年龄 教育 职业 收入
aa bb cc
0 1 1
21 22 23
e0 e1 e2
cProxy
功能好熟悉
和Pig有和区别
1.编写MR程序 2.组织处理流
iClient
Hive
是什么
Hive是一个构建在hadoop上的数据仓库框架
cSlave2
cMaster
cSlave0
Hive向hadoop提交任务
概 念 工 作 过 程
Hive会将写好的数 据流处理脚本翻 译成多个Hdfs, Map和Reduce操作 向Hive提交任务 程序员或分析师 根据业务逻辑写 好数据流脚本
Hive
为什么
cSlave2
Hive起源于Facebook内部信息处理平台。由于需 要处理大量新兴社会网络数据,考虑到扩展性, Facebook最终选择hadoop作为存储和处理平台 现 实 需 求
cMaster
cSlave0
cSlave1
Hive的设计目的即是让Facebook内精通SQL的分析 师能够以类SQL的方式查询存放在HDFS的大规模 数据集 提交任务
例 题
cMaster
cSlave0 cSlave2
iClient
cProxy
cSlave1
Zookeeper
为什么
部 分 失 败 现 实 需 求
zookeeper
当一条消息在网络中的两个节点之间传送时,由于可能会出现各 种问题,发送者无法知道接收者是否已经接收到这条消息,比如 在接收者还未接收到消息前,发生网络中断,再比如接收者接收 到消息后发生网络中断,甚至是接收进程死掉。发送者能够获取 真实情况的唯一途径是重新连接接收者,并向它发出询问。
是什么
是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统
适合于存储非结构化数据 概 念
基于列的而不是基于行的模式
HBase架构在hadoop之上
怎么架构在hadoop之上
HBase架构
HBase
是什么
Zookeeper
HMaster
iClient
HRegionServer HRegion Store
cProxy
MapReduce
实例
cSlave0
yum install hadoop-mapreduce
cSlave1
部 署
cSlave2
yum install hadoop-mapreduce-historyserver
cProxy
MapReduce
实例
①使用WordCount,统计input目录下文件里单词出现次数 ②使用Grep程序,查询input下所有文件里,以dfs开头且中间字母a到z的单词
iClient
cSlave1
Hive
cProxy
Hive
是什么
cSlave2
cMaster
cSlave0
架 构
cSlave1
Hive
cProxy
Hive
是什么-语法
数据类型 基本类型:数值型、布尔型、字符串 复杂类型:ARRAY、MAP和STRUCT
操作符 语 法
关系操作:如x='a' 算术操作:加法x+1 逻辑操作:如逻辑或x or y
HLog
MemStore MemStore
HRegionServer HRegion Store
HLog
MemStore MemStore
架 构
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
cMaster
cSlave0
现 实 需 求 2006年谷歌发表论文BigTable, 年末、微软旗下自然语言搜索 公司Powerset出于处理大数据 的需求,按论文思想,开启了 HBase项目 在 线 访 问 在线 实时 服务
Hbase
cProxy
cSlave1
分布式 数据库
iClient
HBase
运算符 语 法
操作名称 LOAD FOREACH
功能 载入待处理数据 逐行处理Tuple 过滤不满足条件的Tuple 将结果打印到屏幕 将结果保存到文件
函数
FILTER DUMP STORE
Pig
实例
部 署
iClient
yum install pig
例 题
①使用Pig Latin实现WordCount
例 题
①分别使用命令行接口和API接口向zookeeper存储树中新建一 节点并存入信息 ②假设机器cSlave0上有进程Pa,机器cSlave2上有进程Pb,使 用zookeeper实现进程Pa与Pb相互协作
HBase
为什么
cSlave2
客户欲实 时读HDFS 里数据
太 慢
缓存机制 索引机制
iClient
为什么-是什么
程序员 使用MR 处理 HDFS里 数据
cSlave2
cMaster
cSlave0
1.编写MR程序 2.组织处理流
1.太慢 2.要求高
现 实 需 求 概 念
cSlave1
cProxy
Pig是用来 处理大规模 数据集的脚 本语言平台
提交任务 程序员使用Pig脚本指挥 HDFS、MapReduce 1.编写MR程序 2.组织处理流
例 题
cMaster
cSlave0 cSlave2
iClient
cProxy
cSlave1
Yarn
实例
yum install hadoop-yarn-resourcemanager
cMaster
部 署
cSlave0
hadoop-yarn-nodemanager
cSlave1
cSlave2
yum install hadoop-yarn-proxyserver
zookeeper
概 念
iSend
iReceive iSend iReceive
Zookeeper典型应用-工作过程
Zookeeper
架构
工作原理:Paxos算法
z3 z1
架 构
z2
iSend
iReceive
Zookeeper
实例
cSlave0 cSlave1 cSlave2
部 署
yum install zookeeper-server
HiveQL:SQL类似
函数
Hive内置了上百个函数 基本同SQL一样
count like Rank ------map子句 reduce子句
Hive
实例
部 署 方 式
Hive
实例
部 署
iClient
yum install hive
①在hive里新建member表,并将表6-6中的数据载入hive里的member表中 ②查询member表中所有记录;查询member表中gender值为1的记录;查询member 表中gender值为1且age为22的记录;统计member中男性和女性出现次数 ③试比较pig中“单词计数”和“统计男女出现次数”异同点 例 题
Pig
是什么
cSlave2
cMaster
cSlave0
Pig Latin 解释器 架 构 Pig Latin 环境
Pig
cProxy
cSlave1
Pig
是什么
(1)基本数据类型:int、long、float、double、chararray和bytearray (2)复杂数据类型:字符串或基本类型与字符串的组合 (1)算术运算符:+,-,*,/,% (2)三目运算符:?: (3)比较运算符:==,!= 数据类型
iClient
Pig
是什么
cSlave2
Pig向hadoop提交任务 Pig会将写好的数 据流处理脚本翻 译成多个Hdfs, Map和Reduce操作 向Pig提交任务 程序员或分析师 根据业务逻辑写 好数据流脚本
iCe0
工 作 过 程
cSlave1
Pig
cProxy
实题
为什么
是什么
技术角度:概念、架构
7. Hive
实战:部署、例题
8. Oozie
3.MapReduce模板
相关约定
系统 JDK 集群 客户端 执行例题的机器 CentOS-6.4 64bit jdk-7u45-linux-x64.rpm cMaster、cSlave0、cSlave1、cSlave2、cProxy iClient iClient
Hfile
DFSClient
DFSClient
Hadoop
DataNode DataNode DataNode DataNode DataNode DataNode
相关主题