当前位置:文档之家› 腾讯云大数据方案交流

腾讯云大数据方案交流

腾讯云 大数据方案交流
议程
腾讯大数据历程 腾讯大数据方案和产品 案例介绍
腾讯数据资产
• QQ月度活跃超过8亿 • QQ空间月活超过5亿 • 微信及Wechat月活超过6亿
• 拥有用户最多的视频门户 • 行业用户最大的浏览器
腾讯大数据现状
数据产品
数据接入
精准推荐/秒级监控/多维 分析/用户画像/…
• 提供安全可靠的存储: • 离线数据直接写入HDFS; • 实时数据写入Tube(腾讯自研的万亿级消息中间件)/Kafka,支持TCP、UDP、HTTP以及 HTTPS方式接入;
大数据套件应用—数据计算
• 计算形式: • 离线: • MR:支持原生MapReduce; • HIVE:支持原生oracle语义,也支持社区hive语义; • 实时: • Spark:支持大数据实时查询; • Storm/Tstorm:流式计算更方便; •工具: • IDE:windows环境下的hive在线调试工具,提升工作效率;
大数据套件应用—任务调度
• 基本特性: • 千万级作业调度能力,例行化调度大数据任务; • 图形化配置依赖关系,保证任务流的时序性; • 自动重调失败任务,并根据配置发送告警; • 可扩展性强,允许用户插件化扩充新的任务类型;
• 默认任务类型: • 数据导入:FTP->HDFS,RDBMS->HDFS,消息->HDFS; • 计算任务: MR计算、Hive计算、Shell脚本任务; • 数据导出: HDFS->FTP,HDFS->RDBMS ,HDFS->K/V存储;
行业产品 方略
数智
产品家族图谱
一站式、全流程大数据服务平台
iData游戏大数据平台
MTA移动分析平台
灯塔移动运营平台
信鸽Push
地图位置大数据
更多
文智NLP
开放推荐
数据分析引擎数据接入引擎搜索Fra bibliotekMPP
离线计算
用户洞察分析
大规模任务调度 多维分析引擎
区域人流分析
语音识别AAI
优图识别FR
小云客服ICS
调度层 任务调度
计算层
离线计算 MapReduce/
Spark
实时计算 Storm/Tstorm/ Sparkstreaming
存储层 对象存储
• 套件使用方只需要接入数据 • 展现层只需要从数据存储层取出数据用于展现
输出层
结果存储
数据分发
展示层
自助报表 API支持
SQL
NoSQL
大数据套件应用—数据接入
功能认证
性能认证
我们的服务
生 态 链
运维
咨询/实施
大数据平台
腾讯大数据方法论 数据分析+机器学习双引擎
数据分析引擎
机器学习引擎
消息中间件
搜索
MPP
离线计算
大规模任务调度
开发、调度及运营一体化平台
多维分析引擎
机器学 习
实时计算
图计算
高性能并行 计算
深度学习框架 (支持Caffe、 Tensorflow)
✓ RDBMS: Mysql、PostgreSQL、Oracle、
SQL Server
✓ NoSQL: MongoDB、Redis
✓ 流数据:Kafka、Flume ✓ 丰富的数据类型
✓ 结构化 ✓ 半结构化 ✓ 非结构化
接入层
内部数据接入 外部数据接入
消息中间件 Tube/Kafka
块存储
分布式文件
资源调度管理(CPU、GPU)
底层存储(结构化、非结构化存储)
数智大数据处理平台—产品架构
数智大数据处理平台—组件架构
管理控制台
部署/监控/告警
全链路数据开发
数据治理
多租户管理
大数据套件 组件层
大数据套件 服务层
Lhotse任务调度

线 实
HIVE
PIG


MapReduce
Spark


HDFS
公众趋势分析
数据可视化
机器学习引擎
开发、调度及运营一体化平台
机器学习 实时计算
图计算
高性能并行计算
深度学习框架 (支持Caffe/Tensorflow)
资源调度管理(CPU、GPU) 底层存储(结构化、非结构化存储)
30+
云化
深度
+
优化组件
私有
社区 +
自研
首批通过 大数据 基础能力和 性能认证
行业合规
大数据套件—工作流架构
数据展现层
数据分析层
即席查询
数据报告
挖掘算法
应用层 控制层 处理器层 组件层
典型应用模板
自定义模板
工作流管理
Processor 控制器
接入类 Processor
数据流控制
调度类 Processor
任务流调度器
计算类 Processor
会话管理
输出类 Processor
Hive数仓
2020/6/30
稳定易用
安全
核心优势
一站式大数据 分析处理平台
技术开放性
数智一站式大数据平台: 应用场景
▪TB到百PB级数仓建设
▪离线数据处理 结构化、半结构化、非结构化
一站式企业级 大数据平台
▪流式数据处理 ▪ 数据分析与探索挖掘
2020/6/30
大数据套件—典型数据处理流程图
✓ 多数据源接入
消息中间件
任务调度
……
大数据套件应用—数据输出
• 提供丰富的输出数据存储方案: • 分布式数据库集群:PGXZ,TB级查询秒级返回; • 全内存高速KV存储方案:TDE; • 数据可输出至各种RDBMS;
• 提供统一的数据分发服务: • 提供完整的权限控制方案,保证数据的安全性; • 单机调用量60000次/秒,满足用户性能需求;
• 快速易用的数据接入方式: • 离线接入: • 用户直接PUT数据至HDFS存储; • FTP、各种数据库数据导入以及磁盘邮寄等; • 腾讯云数据对接,COS和CDB的数据均可接入; • 跟随系统部署的任务调度会默认支持以上数据接入方式,降低用户使用门槛; • 实时接入: • 提供实时接入服务,以消息的形式接入用户数据;

MPP
Spark Streaming
TStorm
Kafka/Tube
Hermes Kylin HBase
TPG
黄金眼 报表展示
TRE 广告推荐
YARN资源调度
统一日志中心
数据连接器
组件协调器
Rest API
服务器
公有云
私有云
非云化环境
社区版本 社区改造版 腾讯自研
数智一站式大数据处理平台核心优势
任5
5万亿条
离线计算 实时计算
务 调 度
0 0
&
业 务 在 线 系
数据分发
100亿次
MR
TRC
15P 3.5万亿条
存储
工万
作 流

HDFS/PG/HBase/… Lhotse

400P
资源调度 Gaia
20000台
腾讯云大数据平台的发展历史
TBDS大数据套件发布
数智:一站式数据分析与挖掘平台 方略:提供开放通用的数据应用及分析服务
相关主题