当前位置:
文档之家› AS深圳2018-《大数据云的数据交换共享平台的架构探索》-李光跃
AS深圳2018-《大数据云的数据交换共享平台的架构探索》-李光跃
18/7/20
Transwarp Confidential
4
大数据行业发展的概况
Admin Simplicity
Mainstream
Big Data 3.0
Fortune 500
Big Data 2.0
Single vendor platform Azure, AWS, Google, Transwarp, Databricks, Confluent
3
新一代的大数据技术软件栈
星环科技
数据装载 与加工
数据工作流 开发
数据资产 管理
可视化 报表
机器学习 建模
统计挖掘 开发
运维与 监控
离线批处理
交互式分析
联机数据库
机器学习
深度学习
图分析引擎
流处理引擎
批处理框架 MapReduce
高性能处理框架 Spark
低延时流处理框架 Flink
向量处理框架 TensorFlow
u 行行行业趋势
u 厚平台、薄应用用 u 单体应用用 -> SOA服务 -> 微服务体系
18/7/20
Transwarp Confidential
9
技术门槛问题
u 大大数据和AI很昂贵
u 平台建设 u 团队建设 u 业务探索
u 技术⻔门槛高高
u 数据科学家,5~8年年经验,Java/R/Python/Spark/Hadoop/Tensorflow/etc u 数据分析师,报表工工具/SQL/ETL工工具/Java/Python/etc u 开发人人员,HIVE/MySQL/Oracle/Spark/Java/Python/etc
2013
2014
2015
2016
Spark被认可为下 一一代计算框架
低延时流处理理引擎Flink 更更多机器器学习框架涌现
首首个基于容器器云的大大数据 平台TDH 5.0 Inceptor替换Teradata数仓
2017
AWS商用用,标 志着云计算诞 生生
2006
2008
商用用私有云系 统开始出现
Openstack兴起, 开源云涌现
星环科技
大数据云的数据交换共享平台架构探索
星环信息科技(上海海)有限公司 李李光跃
guangyue.li@transwarp.io
18/7/20
Transwarp Confidential
1
大纲
u TDC简介 u 云上数据共享交换探索
u 需求介绍 u 架构设计 u 权限管控 u 资源管控 u 高高可用用设计 u 下一一步迭代
u 数据管理理是一一个管理理问题,同时也需要有个可操作的技术方方案 u 不不同的技术定义、缺乏数据管理理流程、没有可靠的数据管理理工工具 u 依赖人人与人人之间的沟通来做数据沟通,出现数据问题后无无法有效追溯并修正
18/7/20
Transwarp Confidential
8
烟囱开发问题
星环科技
u 不不同团队独立立建设、独立立开发
u 时间:建设周期⻓长,初次获取成本高高 u 人人才:各个团队技术架构不不同,需要多个技术团队建设,总投入入成本高高,建设时间⻓长 u 互通:不不同的开发模式,各个应用用和服务之间无无法打通 u 管理理:研发管理理的梦魇,内部五花八八⻔门无无法形成统一一的研发管控和质量量提升 u 成本:每种开发模式都涉及到各自自的安全、运维、升级、部署等通用用功能的重复开发和投入入
u 如何降低技术⻔门槛
u 数据服务化 – 所有用用户可用用 u 数据资产化 – 技术开发和业务分析师可用用 u 数据在线化 – 技术开发和数据科学家可用用
18/7/20
Transwarp Confidential
星环科技
10
大数据业务演进路线
星环科技
数据统一化
• 数据集中处理 • 统一的元数据 • 统一的计算平台
u 通过冗余给用用户提供故障恢复能力力力 u 服务本身高高可用用和自自愈设计
Transwarp Confidential
7
数据孤岛问题
星环科技
u 不不同团队各自自建设,各个应用用内数据没有打通
u 想要数据的人人找不不到合适的数据 u 提供数据的人人不不知道如何输出 u 分析数据的人人不不知道数据的质量量如何 u 有价值的数据不不能够沉淀
18/7/20
Specialization
Development
Simplicity
Big Data 3.0 = Artificial Intelligence + Big Data + Cloud
星环科技
5
星环科技
大数据云化是下一阶段技术发展的趋势
18/7/20
Transwarp Confidential
u 客户痛点
u 业务部⻔门想要建自自己己的业务系统去分析数据 u 不不能挨个从生生产系统拿,省公司要能够做到数据归集并下发 u 能够做统一一的应用用,标准化数据接口口
星环科技
18/7/20
Transwarp Confidential
17
需求分析和思考
u 需求分析
u 需要能够支支持多租户,且租户之间完全隔离 u 需要提供统一一的数据中台,提供数据目目录 u 需要提供租户自自助申请,管理理员审批,自自动化数据交换 u 需要打通数据中台和租户的双向连接,且保证权限管控 u 需要提供审计功能
AI PaaS
业
台
应
用
市
场
Universal Service Management Framework
统一的安全体系
多租户管理体系
应用资源管理
计费系统
API网关
Transwarp Operating System (Full Edition) 原生云平台
18/7/20
Artificial Intelligence + Big Data + Cloud
租户N
…ห้องสมุดไป่ตู้
数据分析集群 1
数据分析集群 2
10.1.2.1/24
数据仓库集群
Namespace tenantN 10.n.0.1/24
星环科技
镜像市场
计费
服务治理平台
服务升级管理
Namespace billing 172.16.21.1/24
监控告警 日志管理
产品部署1 Ockle
产品部署2 Ockle
u 客户痛点
u 原有数据下发流程需要较多的人人工工辅助,时效性低 u 原有数据下发流程缺乏灵活性,无无法自自助自自定义下放数据内容 u 二二级法人人的数据需要足足够的隔离,不不同法人人之间不不能看到对方方的数据 u 缺乏有效的权限管控,审计流程 u 二二级法人人机构对数据的运用用还停留留在早期阶段,没有大大数据平台辅助分析和决策
数据资产化
• 数据整合 • 数据质量管理 • 资产化与计量
数据业务化
• 数据化运营 • 智能应用 • 在线数据服务
数据生态化
• 数据域业务闭环 • 运营数据 • 服务和应用共享
18/7/20
Transwarp Confidential
11
TDC – 大数据云的产品形态
星环科技
Transwarp Cloud Portal 云平台门户
u …..
u 思考
u 如何建立立多租户模型?保证合规性要求? u 如何保证整个数据访问,数据流转的安全? u 如何构建数据流转任务?如何管理理任务生生命周期? u 如何控制资源消耗?保证数据流转不不影响主集群运转? u 如何保证高高可用用?
u …...
18/7/20
Transwarp Confidential
Transwarp Cloud Console 云管理控制台
服
数
数
务
Big Data & Machine Learning Services
企
据 资 产 目 录
据 模 型 市 场
发 布 与 治 理 平
OLTP DB PaaS
数据仓库 PaaS
数据集市 PaaS
实时处理 PaaS
搜索引擎 PaaS
数据分析 PaaS
2010
2014
Docker和 Kubernetes兴起, 原生生云技术开始被 广广泛采用用
Kubernetes,
Mesos和Docker Swarm之争
星环发布大大数据 云平台TDC 1.0
2016
2017
Kubernetes成为原生生 云的事实技术标准
2018
18/7/20
Transwarp Confidential
Hadoop ecosystem
Hortonworks, Cloudera, MapR
Tech companies
Big Data 1.0
Tech vendors internal development MapReduce, BigTable, GFS, Cassandra
Specialization
u 同一一份数据在多个业务系统内保存,并且存在不不一一致问题
u 早期淘宝的商品表存在于20多个业务系统内,并且都不不一一致,只能人人工工校验和甄别 u 不不同的业务的加工工和处理理方方式不不一一致,无无法从上层统一一,只能依赖DBA的繁重的手手工工校对
u 无无法做数据管控和质量量提升,缺少统一一的数据标准
安全管控 租户管理
服务运维
工单服务 工单服务 工单服务
审计
Namespace operating 172.16.11.1/24
产品部署3 Ockle