当前位置:文档之家› 元数据及数据质量介绍-文档资料

元数据及数据质量介绍-文档资料


Excel
XML
Perl
管安 理全
Admin
DBA 9
数据管控门户
元数据
数据质量
数据标准
业 务 数据安全 应 用 需求管理
仓库资源计费
灵活查询
管控知识库
数据生命周期
技 术 企业级ECTL 应 用 EDW开发
10
数据管控平台应用
• 数据管控的统一的登录网站,下列的数据管控系统均部署在数据管控门户上
• 元数据是数据管控的IT基础,包含业务元数据和技术元数据。建立企业级的元数据管理平 台,支持双向的、动态的元数据。
管理层
仓库过程
仓库操作
分析层
转换
OLAP 分析
数据挖掘
信息可视化
业务术语
资源层
对象 关系型资源 记录型
多维
XML
基础层 业务信息 数据类型 表达式
键和 索引
类型映射
软件部署
对象模型层
对象模型
ቤተ መጻሕፍቲ ባይዱ
CWM标准涉及到的元数据模型结构
13
13
数据仓库为什么需要元数据管理
• 普通应用系统为什么不需要元数据管理?
元数据管理
• 用来描述如何、何时和由谁来负责数据的接收、创建
、访问、修改和格式的数据
数据标准
• 数据的业务、技术规范性文档
数据质量
• 数据满足特定使用的适用度,包括完整性和业务规则
遵从性
数据整合
• 对各主题进行数据清理、转换、整合和丰富的流程
数据安全与隐私
• 各业务主题对安全性和保密性的要求,包括审计能力
1.数据管理平台开 发完成,数据质量 与元数据、数据标 准等集成在一起, 并在建行、工行部 署。 2.大量的技术和业 务检查规则。 3. 主动的技术检 查;被动的业务检 查。
1.完善数据管理平 台。 2.抽象出规范化的 金融行业的业务检 查规则。 3:推动质量检查的 闭环工作。 4:实现主动式的业 务检查。
✓ 一致性分析
• 定期分析元模型中的元数据是否与实际情况一致。
✓ 版本比对
• 选择任意两个时点的版本进行比对。
✓ 质量分析
• 分析数据仓库中的元数据的质量。
18
18
彻底解决影响/血缘分析放大的 问题 • 由于DW的LDM大多采用三范式建模,因此LDM的核心表会有大量的来源
与目标,一旦做影响分析,结果就会扩散放大。最终导致分析结果无法 使用。 • 采用智能SQL解析器模块,能分析数据的真实来源与目标。此项技术是 业界领先的。
5
5
数据管控特点
• 企业的分析型应用发展到一定的成熟度,就能发现数据管控的价值。 • 数据管控是跨系统、跨部门的管理。 • 数据管控必须有先进的管理方法论支持。 • 数据管控是需要长期的、渐进式的工作。 • 数据仓库是执行数据管控理想的平台。
6
6
成熟度1: 未知级
系统A
企业数据管控成熟度
人员
成熟度2: 被动级
• 向后看——查看对象的下游信息对象,例 如该表的数据的目标表。
• 看历史——查看对象的历史变更信息。例 如该表在上一个版本中的内容。
• 看友邻——查看与对象有关系的其他对象,
。 例如涉及该表的脚本等信息
17
所属 对象
历史 对象
本体 对象
目标 对象
包含 对象
友邻 友邻 对象 对象 友邻 友邻 对象 对象
人员
流程
系统B
系统n
数据A 系统A
数据B 系统B
系统n
成熟度3: 主动级
数据管控部门
人员
流程
标准
成熟度4: 预测级
企业级数据管控环境
人员
数据管控部门
流程
标准
服务
统一的数据管控系统
系统A 7
系统B
系统n
符合业界规范的双向数据管控系统
系统A 系统B
系统n 非系统 7
数据管控成熟度模型
我们建立了企业数
据管控成熟度模
• 企业级的数据质量管理平台,拥有统一的检查规则管理、检查规则的审批流程定义,并在 各业务系统上部署检查Agent程序,汇总检查结果与错误明细。
• 数据标准管理平台,数据标准的维护与发布,标准与元数据建立对应关系。在各业务系统 部署标准执行监控Agent程序,统计标准执行情况。
• 统一的数据安全管理平台,根据与元数据的关系,定义数据在整个业务线、数据线的安全 管理规则。
16
元数据浏览的灵活性
• 元数据对象关系呈立体网状
• 看本体——查看对象本身定义,例如表的 名称、注释等信息。
• 向上看——查看对象所属对象的定义,例
如表所归属的数据库。
来源
• 向下看——查看对象包含的对象的定义,
对象
例如表所包含的字段、索引等。
• 向前看——查看对象的上游信息对象,例 如该表的数据的来源表。
• 数据生命周期管理平台,能够在企业范围统一定义的数据生命周期,数据的业务请求级别, 备份策略,数据分布。
• 统一的ECTL平台,定义与规划高效率的ECTL流程与策略,并能有效的嵌入其他管控工具。
• 集成的EDW、BI应用开发管理平台。 10
议程内容
• 数据管控 • 元数据 • 数据质量 • 问题与讨论
流程
• 流程:根据管控要求建立可执行工作流程,并严格执行工作流程。 • 规范:企业的各工作岗位有数据管控团队制订的工作规范。 • 制度:企业须建立数据管控的制度。
技术
• 平台:数据管控团队的工作必须建立在自动化的高效的信息平台。 • 接口:企业的信息系统之间应按照数据管控接口规范进行交互。 • 模板:信息系统向数据管控平台提交数据可以通过标准模板。
21
21
议程内容
• 数据管控 • 元数据 • 数据质量 • 问题与讨论
22
22
中国金融行业数据质量管理的发 展历程
2003
2006
2008
2010
……
1.简单的检查脚本 。
2.少量的技术和业 务检查规则。
3.没有专门的数据 质量检查团队,包 含在ETL工作中。 4.被动式检查,救 火队式工作。
1.第一次开发出数 据质量检查管理系 统,并且在建行 DW部署。 2.大量的技术检查 ,少量的业务检查 。 3.有了专门的质量 小组。
元数据及数据质量介绍
20160303
1
议程内容
• 数据管控 • 元数据 • 数据质量 • 问题与讨论
2
2
随着数据仓库的不断成长,你能回 答下面的问题吗?
• 源系统发生变化后数据仓库到底需 要修改多少程序?
• 发生了多少次变化?从年初到现在 哪些系统变化最频繁?
• 某个ETL加工程序到底经过多少开发 人员的修改?每次改动的内容是什 么?
23
23
数据质量管理的指标
• 我们需要什么样的数据
• 完整的
– 所需求的数据是否都已经获得
• 一致的
– 从不同应用获得数据能否保持一致
• 有效的
– 数据是否容易理解而不被曲解
• 准确的
– 数据是否在任何时间点都反应了数据的真实情况
•24 相关的
24
数据质量问题成因鱼骨图分析
• 数据质量问题来源广泛、复杂
业务单元
独立单元
系统管理
Application Platform (TAP)
MVC
数据管控平台 C/S应用
需求开发 信息调研 SDM 版本控制 ETL开发 测试
工作模板
ETL DBC
Database
数据管控知识库
DQ
DS
ETL
Metadata
Mart
PDM Stage
DDL
SQL
Source Data
• 管理需求生命周期,需求确认、需求跟踪、需求变更等内容,以及需求与开发模块之间的 关系,需求与最终的接口、映射加工内容等元数据的关系。
• 通过给出资源(磁盘、CPU)的价格,计算出应用在中消耗的资源成本,以计算应用的 ROI
• 基于B/S的灵活查询平台,能进行企业BI知识管理,数据挖掘与分析。
• 数据管控的培训与交流平台、支持远程网络培训、仓库WiKi、学习材料下载、BI信息发布、 提供企业的BI用户交流、用户投诉与反馈等
11
11
什么是元数据
• 定义
– 官方定义(CWM):描述数据的信息。Metadata is structured information that describes the characteristics/attributes of a data element.
– 数据分析界定义:分散在企业中的关键数据描述。 Metadata describes critical elements of data scattered across the organization.
– 表的数量少
– 数据加工简单
– 数据来源单一
– 访问方式单一
– 交钥匙的应用
• 数据仓库为什么必须元数据管理?
– 上下游系统多,变更频繁
– 数据加工复杂
– 用户访问方式复杂
14
14
元数据架构
15
功能清单-元数据
浏览
元数据地图浏览 元数据统计信息浏览 全局版本比对 DW来源系统元数据 DW集市元数据 DW/PDM元数据 LDM元数据 ETL、映射信息元数据 数据文件元数据 用户查询样例 元数据对象版本查看与比对 影响分析 血缘分析 元数据质量分析 孤立对象分析 全局检索 用户注释 元数16 据下载
• 哪个源系统的数据质量最好?哪个 小组开发质量最高?
• 哪些字段采用了公共代码?代码映 射规则是什么?
相关主题