当前位置:
文档之家› HADOOP大数据平台系统思路流程图
HADOOP大数据平台系统思路流程图
执行hadoop -get命令,将运行结 果从HDFS中下载到服务器上 hadoop集群中HDFS 系统中结果文件
通过mapReduce在集群中运 行处结果输出到文件中去 hadoop集群 中HDFS系统
执行hadoop -put命令, 将文件添加到HDFS中
kettle将文件上传 到linux上去 hadoop集群中 nameNode节 点服务器
关系型数据库与hadoop集群数据交换流程图
kettle读取文件中数据 到mysql数据库中去
kettle所在的 windows本 地结果文件 kettle下载结果文件到 本地windows中
kettle将数据输出.txt文件中去 关系型数据库 数据库
.txt格式的数 据文件(不要 头部列名)
hadoop集群中 nameNode节点 服务器结果文件
通过sql实现读取、查询、操作数据
具 或 现 sq 数 据 oop 全 量 工具 、 增 (建 量 导 议使 入 和 用) 导 出 ,应
该
通过创建表时配置映射实现hbase与hive中数据实时同步
可
hbase表中数据是存储到hadoop集群中的hdfs上
通过命令可以实现HDFS中原有数 据文件与hive表中数据的交互 hive工具
存储hive的元数据信息 mysql数据库
t le
工
上传下载 数据文件
, 用) 议使 导出 建 具( 导入和 p工 跟 qo o 、增来 s 具或 全量 工 t le 现数据 ke t 通过 可以实 应该
通过kettle实现数据文件交互
过
通
数据目录
业务处理数据输出 结果到文件
ke t
hadoopMapReduc e nameNode 通过命令可以实现本地数据文 件与hive表中数据的交互
web项目与hadoop大数据平台结合思路流程图
通过jdbc方式连接,实现大数据统计分析定时查询 通过jdbc方式连接, 实现大数据实时查询 通过类sql操作hbase中表 Phoenix工具 注意: 如果使用此方式,注意 了解通过Phoenix创建 hbase表和视图的优点 缺点,再决定使用创建 表还是视图 通过java代码读取、查询、操作hbase 表中数据,实现大数据实时查询
关系型数据库
linux中存储文件 hadoop集群 管理节点、分发 读取数据文件 存储数据的文件
dataNode hive表中数据实际存储在hdfs 中的dataNode中
通过kettle工具或sqoop工具(建议使用),应该可以实现数据全量、增量导入hive表中和导出
流程说明: 黑色文字:代表过程确定可以实现; 蓝色文字:代表过程可以实现,但暂时还没有亲自尝试; 红色文字:代表过程理论上可以实现,但实际上可能会有问题,暂时还没有亲自尝试
Байду номын сангаас
平台项目系统
hmaster 管理 hbase表信息同步到z k z k管理hbase集群
leader 管理
hbase集群
z ookeeper集群
sqlDeveloper 客户端
统计分析sql
开发人员进行SQL 统计分析数据
hRegionServer
follower 连接hiveServer
以
实
通过hbaseMapReduce实现 读取hadoop集群中文件数 据到hbase表中去