当前位置:文档之家› 数据仓库建模方法论

数据仓库建模方法论

• 全局考虑,提炼需求,侧重业务规则理解
数据服务
• 存储细节的、整合的所有数据,为全面风险管理应用需求提供数据支撑,为实 现高效、及时的风险管理报表自动化提供数据基础
• 为风险计量提供数据准备服务,并对风险计量结果进行整理和存储
• 外系统供数服务,实现统一的风险数据来源。
主题 数据仓库概念 数据仓库模型 逻辑数据模型 数据模型标准化工艺流程
•面向具体应用 •按需设计 •形式各异,依 具体应用不同;
•针对业务目标、挖掘算法 设计数据模型 • 一条记录表示一个观测 • 多条记录表示一个观测
重点
•理解源结构
•整体性 •一致性
• 业务理解 • 数据理解 • 数据准备 • 特定业务专题
用途
•业务原貌查询 •即时报表 •数据质量检查
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据架构形态
各数据架构比较
数据集市类型
源系统 ODS
EDW
从属数据集市 Data Mart #1 Data Mart Conformed Dimensions and Conformed Facts Data Mart #2
数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未 知需求。
数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的 风险最小。 支持数据挖掘、统计分析和即席查询 总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据 仓库模型将为企业提供长久的服务,将提供如下回报: 整个环境端到端一致性和集成性
持续维护
易于建立新的数据集市
加强现有数据集市 数据仓库和有关数据集市的维护和可持续发展
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术 满足对数据进行多角度、快速、一致、交互、深入观察 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要 将数据从关系数据库中转载到多维数据库中方可访问。
为什么需要逻辑数据模型
为复杂的数据仓库系统实施提供了规范和 基础结构-蓝图
促进业务部门用户和IT分析人员之间的有 效沟通 明确业务需求 解决业务问题
形成对重要业务定义和术语的统一认识
具备跨部门,能够表达所有的业务
LDM在数据仓库系统中的地位
风险引擎数据接口 报表模型 多维分析模型 星型模型
企业数据仓库EDW
企业数据仓库定义: 企业数据仓库作用: 基于数据/信息来回答相关的业务 详细交易及相关业务数据的集合������ 问题和提供决策支持,并确保:一 包含必要的内部与外部信息������ 致、集成的数据存储������ 来自于多个数据源/业务操作系统������ 任意的数据粒度������ 保存一定的时间周期������ 在整个企业的业务范围������ 按照企业内业务规则所决定的模型来存储 保持企业内一致的信息视图 企业内一致的信息视图(Single Version of the Truth) >集成的企业信息(Integrated corporate information) >不针对特定应用(Application neutral) >无冗余(Non redundant) >用于报表和决策支持(Reporting and decision making) 最详细的数据和信息(Detailed Data) 任何时候,针对任意数据,提出任意业务问题(Ask any question, any data, any time)
OLTP与OLAP
OLTP
用户 操作人员,低层管理人员
OLAP
决策人员,高级管理人员
功能 DB 设计
数据 存取 工作单位 用户数 DB 大小
日常操作处理 面向应用 当前的, 最新的细节的, 二 维的 读/写数十条记录 简单的事务 上千个 100MB-GB
分析决策 面向主题 历史的, 聚集的, 多维的集成的, 统一的 读上百万条记录 复杂的查询 上百个 100GB-TB
应用集市层
面向应用 按需定制 多维建模 汇总数据
汇总层
数据挖掘模型
当事人 资产 协议
财务 事件 计量结果
产品
内部机构 市场数据
整合模型层
面向整合 主题设计 提供规范和共享
技术缓冲层
核心 系统 对公 信贷 票据 系统
…..
复杂 交易
储蓄 国债
市场 数据
ETL专用的纯技术层 完全与源系统结构一致
核心 系统
数据仓库建模方法论
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball 数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD)
主要著作:《数据仓库工具箱-维度建模的完全指南》、
《数据仓库生命周期工具箱- 设计、开发和部署数据仓库的专家方 法》
Bill Inmon
数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》
对公 信贷
票据 系统
…..
近源模型层
复杂 交易 储蓄 国债 市场 数据
基本依照源系统建模 尽量保持业务系统原貌
设计思路比较
ODS
目标
•短期的,细节的,同源的 数据存储; •直接提供基于源系统结构 的简单原貌访问; •为BI环境中适合的业务需 求提供支持 •简单处理,不考虑整合; •关注保留策略; •偏源系统模型; •根据支持应用情况可以保 留短期历史
数据转载速度慢 需要进行预计算,可能导致数据爆炸, 维数有限,无法支持维的动态变化 受操作系统平台文件大小限制,难以达 到tb级
存储空间耗费小,维数没有限制
借助rdbms对数据存储,无文件大小限 制
可以通过sql语句实现详细数据和概要数 缺乏数据模型和数据访问的标准 据的存储 不支持预计算的读写操作 无法完成维之间的运算 无法完成多行计算 支持高性能的决策支持计算 复杂的跨维计算 多用户读写操作 行级计算
优先考虑业务单位范围 关心业务部门的需求 多维建模师以企业视角,建立一致性维度。 实施方法采用自底向上的:如何快速的获取由用 户控制的业务部门专有的数据,并最小限度的考 虑整个企业的使用 快速需求收集和实现过程使得为整个环境提供一 致而可靠数据的任务变得复杂。
企业信息工厂体系结构
优先考虑企业总体范围 从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处 理。相反而是选择企业所有数据的一个子集。 实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方, 其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。 为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多 的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题 域的业务单位更是如此。 实现对存储空间最小需求,非冗余方式防止了在多个位臵存储数据。这种特性使更新或删 除异常最小化或者消除。
数据仓库的特点
面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、 机构、财务、事件、产品等主题。 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过 系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内 的信息是关于整个企业的一致的全局信息。 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。
数据流
聚集数据集市:当业务过程发生变化,为了消除
易失性
数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化 或减少对事实表重建,需要增加新的维或改变维。 数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。 原子数据集市:由于事实表可能包含几亿甚至更 如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合 多的数据,重建将会带来严重后果 理且快速地进行重建
灵活性 复杂性 功能性
多维设计是很多业务过程聚集在一起的结果。当 处理请求发生变化时,多维数据库的设计未必能 够适度地变化。 数据集市模型易于业务人员理解。可以很容易构 建数据集市,然而,当一个一个地建立数据集市 时,由于数据的企业视图的复杂性,对于这种结 构,完成更新时相当复杂的。 为多维处理提供了理想环境,切片和切块、上钻 和下钻等查询提供良好的性能
反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一 时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对 企业的发展历程和未来趋势做出定量分析和预测。
企业信息工厂
数据仓库总线
企业总线
总线架构矩阵
多维体系结构与企业信息工厂体系结构比较
方面 范围 角度 多维体系结构
• 整合全面风险相关业务系统ቤተ መጻሕፍቲ ባይዱ据,实现全面风险的完整视图,为未来业务 拓展提供可扩展的架构。 • 通过集市数据模型处理,面向业务主题的模型设计,灵活易扩展。同时按 照业务应用需求驱动,进行多维度、多粒度的加工汇总。
支撑银行全面风险管理
• 实现全面风险数据的统一管理和全景视图,为实现全面、高效、及时的风险计 量、识别、报告提供数据基础,提升风险管理水平。
相关主题