当前位置:文档之家› 滴滴数据资产管理实践

滴滴数据资产管理实践


Hbase Phoenix
机器学习 TensorFlow
高质量的 元数据
内置 规范 产出
语义明确

元数据
2019
极致简单
只要会SQL,人人都是数据玩家!
完整闭环
• 一站式数据开发生产平台 • 底层封装、模块中心化、平台应用模块智能联
动,提升开发效率
安全保障
• • 权开限发控生制产责 数任 据到 隔人 离, 多权 种限 措到 施字 保段 障数据安全
告警
实时任务告警 ML任务告警
2019
中国数据智能管理峰会
梦工场-典型的离线场景
数据库导入
离线同步
实时同步
日志数据导入 实时同步
其他来源数据 实时同步
数据导入
导入1 导入2 导入3
导入4 导入5
导入6
日志 check
计算1
计算2
计算3
计算4
计算5
计算6
计算7
计算8
数据加工 数据导出
导出1
导出2
2019
• 结合算法,预测可能的数据延迟,提前预警, 将影响面降到最低。
• 升级逻辑,避免漏处理。
中国数据智能管理峰会
产品功能
数据同步
数据开发
调度系统
监控报警
数据质量
全链路的数据质量管控,实现数据质量校验、通知、管理能力
项目管理和权限管理
1)完整配置 VS 快速配置 2)强规则 VS 弱规则 3)表规则 VS 字段规则 4)预设规则 VS SQL规则
滴滴数据资产管理实践
目录 / Contents
01
滴滴的数据资产概述
02 平台建设 之 数据开发平台
03 04 平台建设 之 数据应用平台
平台建设 之 资产管理平台
2019
中国数据智能管理峰会
滴滴的数据资产概述
2019
中国数据智能管理峰会
滴滴的数据资产
5.5亿+ 用户
1000+座 全球城市
700亿 日ETA请求
150亿 日定位数据
日新增106TB+数据 日均处理处理4875+TB数据

• 司机 • 乘客
2019

• 静态信息:全球、全国、 城市等各粒度
• 动态信息:行程轨迹

• 静态信息:归属人/公司、 车牌号、车型…
• 动态信息:里程数、维保 记录
中国数据智能管理峰会
滴滴的数据特色 03
02 01
实时数据占比高 结构化数据为主, 价值密度高
数据质量
项目管理和权限管理
2019
中国数据智能管理峰会
产品功能
数据同步
数据开发
调度系统
监控报警
数据质量
项目管理和权限管理
针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验:
)智能编辑器,支持各种库表、函数、变量 想输入、动态语法检查等 )提供SQL格式化、错误提示,提供更顺滑 SQL开发体验 )支持各种SQL(Hive、Spark、Presto)、 hell、PySpark等类型任务支持, )支持文件多版本、任务回滚; )直通调度,字段检测依赖,方便测试和上 线任务。 6)提供历史查询记录和大规模数据下载能力 (经过安全审批)
41%
2019
中国数据智能管理峰会
产品功能
数据同步
数据开发
调度系统
统一便捷的进行项目管理和权限管理。
监控报警
数据质量
项目管理和权限管理
数据加工者 数据管理者
个人资产
我的资产 我的应用 数据管理
资产概览 大盘 待办 趋势
资产明细 应用概览

任务
单应用管理 趋势&明细
成本管理
表管理
数据编目
1)项目管理提供项目自身的增删 改查以及项目内的人员、角色、 生产账号、库表、存储和队列等 资产管理功能。
2019
中国数据智能管理峰会
产品功能
数据பைடு நூலகம்步
数据开发
调度系统
智能监控任务运行情况,异常时发出告警。
体系化解决“是否
监控报警
数据质量
项目管理和权限管理
警”, 杜绝无效报警;
数据 接入
•数据量 •流量 •异常数据
•表规则监控 •字段规则监 控 •自定义监控
资源 告警
•存储告警 •计算告警
• 抽象“数据基线”保证重要数据的及时产出, 并动态规划相关任务优先级。
导出3
导出4
导出5
中国数据智能管理峰会
梦工场-优先级上推策略
基线(业务)->任务 -> 调度机 -> yarn 全流程打通
2019
中国数据智能管理峰会
产品功能
数据同步
数据开发
调度系统
监控报警
支持百万级的离线例行任务调度,保障业务稳定运行。
数据质量
项目管理和权限管理
1)提供开发、生产两套环境,相互隔离 2)支持MR/Hive/Spark/Shell等不太任 务类型的任务调度 3)支持小时、天、周、月多种调度周期 配置 4)数据回溯简单易用:支持重跑、支持 多维度运维
全局资产
资产管理
资产仪表盘 数据量 数据流 趋势
资产分析

任务
quota
业务
全局管理
应用血缘
2)权限管理针对人员、角色的权 限申请和主动授权,以及过期权 限、闲置权限的回收和权限审计 等功能。
2019
中国数据智能管理峰会
梦工场-模块关系图
同步
项目 管理
权限 管理
实时数据源 提交
开发
提交
质量
触发 质量告警 触发
数易
BI实时监控
监控大屏
北极星
把脉
Omega
标签系统
智能地图 ……
一站式智能数据开发、生产平台——数据中台(数据梦工场)
数据开发
调度
同步中心
数据安全
机器学习
数据地图
监控告警
数据质量
资产管理
算法平台
离线计算引擎Hive 、 Spark
流计算引擎 Flink
衍生
更智能化

平台服务

数据检索 ES
消息队列 Kafka、DDMQ
地理位置、轨迹相关 的数据占比高
2019
中国数据智能管理峰会
滴滴的数据平台业务架构
• 元数据打通,更准确识别公司核心数据资产,辅助资产信息的完 善,从而沉淀数据资产
业务应用/DS
内部用户/DS
大屏用户 数据消费
数据应用
统一数据门户
PC
产品平台 BI自助分析 工具
决策分析
APP-H5 看板分析
数据大屏
行业领先
• 基于开源引擎 • 基线监控机制,标记最核心计算通路,确保核心
数据及时产出
经验积累
国内领先的大数据体系建设及数据治理经验
中国数据智能管理峰会
产品功能
数据同步
数据开发
调度系统
监控报警
稳定高效异构数据源同步服务。
1)集成实时、离线两种方式; 2)快速扩展,插件式拓展多种同步类型; 3)自主运维,同步相关指标清晰可见; 4)为流计算提供实时数据源;


数据服务化



指标管理平台

设 资产管理平台
数据开 发平台
数据同 步
离线引擎
数据开 发
调度
监控告 警
实时引擎
数据质 量
项目管 理
权限管 理
机器学习引擎
技 术 & 业 务 元 数 据 打 通
数据接入
2019
中国数据智能管理峰会
平台建设 之 数据开发平台
2019
中国数据智能管理峰会
数据梦工场
数据应用产品
相关主题