当前位置:
文档之家› 大数据治理基础-Training
大数据治理基础-Training
01.数据架构失控
04.数据质量参差
02.元数据管理混乱 03.数据标准缺失
数据资产管 理遇到问题
05.数据增长无序 06.数据安全问题突出
企业拆 分兼并
业务频 繁变更
无序开发 孤岛系统
传统企业的数据资产问题归根到底是由于企业中对企业数据缺少统一而有力的 组织、制度、流程的管控,引起的“数据孤岛”问题。
1 | 张三 A|张 三 ZS | San Zhang
?
1001 | 张三 | San Zhang
现实问题3
• 比“没有数据”更可怕的是“错误的数据”
10000 我们的程序员每月产出代码约
行
现实问题4
• 数据打架
现实问题5
• 数据会“说谎”
纳税额
100万
月收入
500万元
新增
200个
去年同期
150万
我要本月 新签客户详单
销售经理
我要本季度的 交易流水
财务经理
我要近3年的 数据做性能测试
软件一部
大数据治理现状
14
数据治理的三个重要阶段
15
数据治理主要品牌和产品
相关理论与规范: • CWM 1.1 • MOF • DAMA- DMBok
数据资产管理 机械工业出版社 高伟
大数据治理与服务 海科学技术出版社 张绍华,潘蓉,宗宇伟
产品名称 HW Mate 9 …
型号 5.5’ …
颜色
…
红色
…
编号 M0901 …
产品名称 Mate 9 …
型号
颜色
…
5.5寸
Red
…
…
编号
产品名称
20195
Mate9
…Байду номын сангаас
…
型号 5.5 C …
颜色
…
RGB
… 编号
产品名称
型号
M9910
华为 Mate 9
35寸5
…
…
…
颜色
…
#F00
…3
企业面临数据资产的问题
129
100
30 100
第五年 ……
大规模计算场景数量
(如评分模型、画像 、深度学习、预测
3
6
10
等)
非结构化查询数量
(PDF、XML、图片
3
5
10
、影像等)
接入数据源数量
12
15
20
接出数据目标数量
3
5
10
爬取国内网站数量 爬取国外网站数量
30
50
90
15
22
40
?
?
现实问题2
• 源系统这个字段值各不相同,甚至为空,ETL中如何处理?
16
议程
1 关于数据治理 2 解决方案探讨 3 过往案例分享 4 交流和问答
17
数据治理的主要关注点
18
功能框架
19
数据治理体系逻辑结构
20
三大分析之一:血缘分析
ODS层 ETL过程 APP层及多个ETL过程
DW层
数据模型
OLAP/报表
21
三大分析之二:影响度分析
22
三大分析之三:业务术语分析
大数据治理基础培训
——陈玉林@ 20180711
WebChat: 15369887
议程
1 关于数据治理 2 解决方案探讨 3 过往案例分享 4 交流和问答
2
认识数据
Field Type Length Null PK
Id
Vchar 18
N
√
Name Vchar 32
N
sex
Int
N
Age
Int
N
Tel
23
议程
1 关于数据治理 2 解决方案探讨 3 过往案例分享 4 交流和问答
24
案例1:银行
25
案例2:企业
26
案例3:税务
27
实现效果截图
28
1 关于数据治理 2 解决方案探讨 3 过往案例分享 4 交流和问答
29
Q&A
vchar 20
Y
Id
Name Sex
Age
Tel
43**12 张三 1
25
xxx
41**31 李四
0
35
xxx
50**16 王五 0
26
xxx
44**87 赵六 1
32
xxx
21**0X 周七 0
23
xxx
56**10 王八 0
29
xxx
45**05 刘九 1
30
xxx
元数据
数据
主数据
编号 P1701 …
复杂查询数量(关联 20张以上的表) 复杂报表数量(多源 取数、内部带复杂计 算逻辑) 实时查询数量 Dashboard数量
第一年 4000 1000
15000 2000
30
20
10 20
第二年 2000 3000
10000 3000
100
50
16 50
第三年
第四年
1800 ……
3200
8000
5000
4
为何要数据治理
? 有哪些数据 ? 分布在哪里 ? 数据间的关系
? 能不能取得到 ? 被谁使用 ? 如何理解
? 数据质量如何 ? 是否安全 ? 成本、收益如何
我们不缺数据,缺的是让 数据持续产生价值的机制
5
现实问题1
• 今天要做张报表,连哪个数据库,读哪张表,取哪些字段,如何计算?
类型 基础查询数量 格式报表数量 在线交易数量(场景 数量,不是笔数) 表单数量
成本
600万元
目标是
1000个
! 数据是关联的,要发现数据后面、数据之间隐藏的信息
现实问题6:加工过程需要可管控
如何跟踪数据从源头 到结果的洐变过程?
出错后如何追踪?
如何保证得到的结果 是正确的?
现实问题7
• 花了上亿资金建设大数据平台,投入象个无底洞,收益甚微
现实问题8
• 都问我要数据,给还是不给,如何给,谁说了算,有何风险?