当前位置:
文档之家› 陈龙:云+时代大数据平台应用方案
陈龙:云+时代大数据平台应用方案
7 1 0
ext3 ext4 fat32
本地文件系统
其他文件系统
ftp
内存文件系统
datanode2
归档存储
…
datanode3
文件存储
ntfs
组件深度优化整合
参数优化
环境整合
社区patch
Hive-14029
HDFS参数优化
Lzo,sanppy等压缩支持
YARN参数优化
HIVE参数优化
Hbase参数优化
参数a,b ,c 共同决定集群是需要扩容还是需要缩容
计算存储分离
FileSystem
DistributedFileSystem
CloudStoreFileSystem
LocalFileSystem
OtherFileSystem
HDFS
云存储
namenode
云存储API
datanode1
对象存储
2 C C A S
配置管理
流程驱动中心
业务驱动 模型解析
业务调用
业务调用
api调用
EMR公有服务层
集群创建 集群监控 集群扩容 集群销毁
…
运维指令 组件webui 基础设施层 云服务器
业务指令
2 C C A S
集群缩容 资源管理 配置生成
api接入层
7 1 0
api调用
配置下发 组件管理
拓扑管理 安全策略
流程回调
任务调度 流程管理
启动流程
弹性分析 节点状态上报 监控中心 监控数据
监控汇总 监控分析
服务状态上报
云专有服务器
黑石物理服务器
emragent emr镜像
emragent emr镜像
emragent emr镜像
服务流程化
定义业务流程
流程引擎
集群扩容
业务发起流程
业务模块
集群创建
业务回调
部署流程
业务… 组件管理 配置管理 资源管理
spark
服务生命周期
服务安装
服务启动
监控启动
namenode datanode 进程节点n
hmaster
nodemanager … datanode 进程节点n
…
rm 进程节点n
…
rs 进程节点n
服务管理
EMR服务控制面板 设置告警规则 查看服务状态 EMR公有服务层 订阅告警 监控查看
监控元数据 日志元数据
7 云+时代大数据平台应用方案 1 0 2 C C A S腾讯-陈龙
大数据特征
数据规模大
企业数据数据规模大部在 TB级别以上,像银行电信 等行业数据量都在PB以上, 而且每年都是以40%以上 的速度增长
4V
数据流转快
要在秒级时间范围内给出 分析结果,超出这个时间, 数据就失去价值了
数据类型多
除了以文本为主的结构化数 据、以网页数据为代表的半 结构数据,也存在大量网络 日志、音频、视频、图片、 地理位置信息等非结构化数 据
云环境下的大数据基础平台
平台服务化 人工智能深度应用 机器学习 数据可视化 智能BI 可视交互 专业技术支持
海量计算资源保证
云消息服务 ckafka
托管Hadoop计算服务
离线处理
云服务 ….
云服务
弹性
效率
0 2 C C A S
流式计算
实时数据库
17
低运维和开发成本 ETL 计算存储分离
虚拟网络
海量
节点的内存使用率
c=
������������������������������1+������������������������������2+⋯+������������������������������������ ������ ) usagen为过去一段时间某个时间点的某个 ������=1( ������
代码高度复用
代码维护简单 代码结构高度可扩展 控制逻辑和业务分离
•
通过流程重用业务功能
服务模型
套件集合 服务A 服务B 服务C 服务…
套件集合
套件是软件配置的集合,套件内的软件之间的版本兼容 性在集成前都做过处理
组件集合 hadoop hive hbase
服务组 hdfs yarn spark
hive
kylin
MapReduce
Spark
2 C C A S
oozie
Storm
7 1 0
presto Flink
机器学习数据挖掘
airflow
ES
Zeppelin
phoenix
Flink Hbase
YARN
MESOS
kafka
HDFS
大数据解决方案现状
社区自建 服务选型 组件整合 部分 部分 部分 中 中
弹性规则设置
扩容节点
根据规则缩容
每个节点内存负载
节点内存负载
弹性分析
节点CPU负载
每个节点CPU负载
参数1:任务阻塞因子 参数2:集群总体CPU负载
负载
a= ������������ ������为阻塞任务的变化曲线,������为任务阻塞变化率 b=
������������
2 C C A S
7 1 0
安全
高效
服务深度整合
企业应用服务 企业服务
云存储 云数据库 对象存储 KV存储 文档数据库
快速交付
资源弹性
腾讯云公有云大数据平台实践(EMR)
使用 EMR服务控制面板
扩缩容 弹性规则 服务管理 集群管理 查看监控
EMR服务API接入层
集群创建 扩缩容 集群管理 配置管理
安全校验 安全代理层
HDFS spark hue hive yarn
2 C C A S
….
….
….
组件集合里是一个一个的单个软件,由软件和软件版本 组成,比如hadoop-2.7.3
7 1 0
服务组
组件集合
服务组是一个软件提供的功能集合,比如hadoop提供了 HDFS,YARN,那么HDFS是一个服务组
服务节点
服务节点
datanode rm nm
一个服务组要想提供服务,必须由多种进程提供服务, 服务节点可以理解为一种进程
…….
2 C C A S
……
版本兼容性处理
多版本python支持
7 1 0
Hive-15355
Hive支持中文注释
Spark集群学习库支持
Hbase-16993 ……
基于云的计算存储分离应用模式
数据可视化 智能BI 机器学习 可视交互
人工智能深度应用
机器学习
自助BI数据可视化
企业应用服务 企业服务
离线分析集群
master common
应用系统产生数据
离线分析集群清洗数据
2 C C A S
core task
弹性节点
7 1 0
发现数据之间的关系
数据应用集群 弹性节点
common core task
master
数据应用集群进一步挖掘数据的价值
云存储COS
bucket1
bucket2
bucketn
基于云虚拟子网的海量数据高可靠应用
服务模型
服务进程元数据
namenode datanode
服务拓扑定义
主节点 core节点 协作节点
服务进程
进程1 进程2
hamster
进程n
计算节点 进程n
Hadoop
hive
服务元数据生 成
配置生成
资源分配
2 C C A S
hbase
7 1 0
zookeeper 配置下发 hivemeta
flink
主写入端 同步监控
北京Hbase集群 同步监控
广州Hbase集群
对等网络 VPC网络
2 C C A S
VPC网络
7 1 0
上海Hbase集群
对等网络 VPC网络
延时告警
延时告警
腾讯云EMR服务
组件优化整合 安全加固
计算存储分离
自服务
专业技术支持
2 C C A S
EMR
7 1 0
服务化
免运维
分钟级交付 海量资源保证
需要什么样的平台
价值最大化、聚焦业务 成本最小化
服务管理
交付效率
部分
中
运维能力 数据安全 技术支持
服务整合
中
2 C C A S
差
低
7 1 0
交付 效率 技术 成本
资源 弹性
服务 能力
组件 整合
大数据平台
运维 能力
计算成本
存储成本 网络成本
高 高
高
高 高 高
高
高 高
存储 成本
数据 安全
计算 成本
服务 整合
根据规则扩容
缩容节点
������������������������1+������������������������2+⋯+������������������������������ ������ ) loadn为过去一段时间点某个时间点某个节点的 ������=1( ������
参数3:集群总体内存使用率
集群缩容
配置生成
Job管理
配置下发
业务流程…
任务调度
•
流程设计器设计业务流程
•
• • •
流程管理系统管理流程
流程监控 流程告警 流程mock