元数据管理
疑问:一定需要元数据么?
虽然元数据有这么多作用,我们原来没有元 数据不也好好的吗? 使用元数据是不是需要对系统有很深入的 认识? 元数据会加大项目实施的难度么?
这些问题如果从另一个角度来考虑则会轻 松很多:为什么我们没有元数据?
BI@Report的元数据
实际上BI@Report中也有元数据,例如报表的 属性,主题集查看的右边栏等
元数据讲座
讲座大纲
元数据的概念 元数据的实现
什么是元数据?
元数据就是描述数据的数据 例如:
位图数据(数据)
快门,光圈,拍摄时间,相机厂商, 相机产品编号…(元数据)
元数据的众多定义
数据的数据 (data about data); 结构化数据 (Structured data about data); 用于描述数据的内容(what),覆盖范围(where, when),质 量,管理方式,数据的所有者(who),数据的提供方式(how) 等信息,是数据与数据用户之间的桥梁; 资源的信息 (Information about a resource); 编目信息 (Cataloguing information); 管理,控制信息(Administrative information); 是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource); 定义和描述其他数据的数据(data that defines and describes other data (ISO/IEC 11179-3:2003(E))); ...
BI系统中元数据及其转换
由于BI系统往往是基于对现有数据 的抽取转换加载后形成的一个分析 应用,因此其技术元数据可以再次细 分为数据源的元数据和BI元数据.这 些元数据都只是对系统数据的静态 属性的一个描述,而BI中最重要的部 分却是这些数据之间的转换关系.这 里将对这些转换的描述元数据划分 为三 种类型: • 后台元数据(Back Room) • 前台元数据(Front Room) • 对比元数据(CounterPoint)
更重要的是:
从商业角度来看:
元数据管理是企业管理数据质量的必要设施.一 个良好定义的元数据系统将为企业提升数据质量 提供坚实的基础. 随着国内信息化环境的不断进化,将会有越来越 多的企业和部门产生对元数据的管理需求. 通过引入元数据功能,能提升我们产品的价值.
当然,元数据也将带来挑战
元数据的引入确实可能会给项目的实施带 来新的要求,它将需要我们更多地关注数据 的质量; 目前混乱的元数据工具市场环境也会给相 应的集成工作带来麻烦; 元数据的引入还将带来客户培训等问题;
商业术语:例如客户ID,税收代码,所得税税率等 实体/交易:实体指代的是商业活动的参与者,例如:客户, 工具提供商,合作伙伴等,而交易则是指代内部的业务系 统,例如领导驾驶舱,重点税源分析等 概念/主题范围:例如卫生直报项目,进出口银行项目.
技术元数据
元数据/数据列/字段,每一个商业术语都应该有对应的 数据记录. 对象/数据表/报表映射关系,每一个商业实体和交易,都 会有一个对象,数据表,或者报表映射存在与之对应 IT系统,对应为卫生直报系统,进出口银行分析系统
报表属性 主题集信息
元数据内容和管理的残缺
但这些元数据只是对系统某些数据的静态特性的 简单描述,我们缺乏对数据的结构,转换等动态内 容的细致描述,也缺乏对分散在各个地方的各种元 数据的集中管理. 从技术角度来看,由于没有元数据管理系统,我们:
丢失了数据处理过程中的一些重要信息; 难以了解数据从哪里来,更新频率有多大,数据的含义 是什么,都经过了那些运算,转换,筛选; 难以控制数据定义的依赖关系,难以实现对数据定义 修改的自动依赖解决; 等等等等…
BI技术元数据
BI技术元数据就是对一些BI的基本元素的 描述信息. 从底层到高层他们分别是:
数据列,维度,度量的描述元数据 报表元数据,包括各种报表,主题表,维表等 主题集,主题域等的描述元数据.
这些BI技术元数据分别对应于数据源中的 字段,数据表,系统的概念.
实例:Olap中的维度
商业元数据架构
在一个商业系统中元数据往往被分成业务 元数据和技术元数据两种主要类型.
业务和技术是相互依存的,技术是业务的 后台,而没有业务也不会有技术的需求.对应 于业务逻辑的层次划分,相应的技术概念也 会有对应的层次级别.通常情况下将商业系统 划分为三个层次
商业元数据层次划分实例
业务元数据
例如,为了描述Olap中的一个维度,我们需要将以 下信息记录:
维的类型(缓慢增长维、可以度量的维) 维的级次信息 自定义分组信息 维的属性、级次与数据库字段的关系,比如id字段、文字 字段 关联的主题集 默认的显示方式 (例如树形)
元数据贯穿BI数据处理的整个过程
BI数据处理过程
数据源
数据源 数据库 ETБайду номын сангаас 数据仓储
数据集市 数据集市 数据集市
OLAP
数据挖掘 数据展现
数据源
…
ODS元数据
ETL元数据
DW元数据
DM元数据
OLAP等元数据
BI元数据的作用
通过分析这些元数据,我们将有能力解决何 人在何时,何地为了什么原因及怎样使用数 据仓库的问题. 再具体化一点,元数据在数据仓库管理员的 眼中是数据仓库中的包含了所有内容和过 程的完整知识库和文档 而在最终用户(即数据分析人员)眼中,元数 据则是数据仓库的信息地图.
元数据无处不在
书的目录 字典词典药典 Windows中文件的属性查看 MYSQL中的INFORMATION_SCHEMA表 Java 代码中的Annotation …
BI元数据的定义
BI元数据描述了数据如何在商业智能工具 上查询,过滤,分析以及展现.这些工具包括 报表工具,OLAP工具,数据挖掘工具等; BI元数据描述了定义于数据仓库中的任何 一个对象,无论它是一个表,一个列,一个查 询,一个业务规则,或者还是数据仓库内部 的数据转移等等.