当前位置:文档之家› 数据仓库基础 PPT

数据仓库基础 PPT

• 粒度
– 指数据仓库的数据单位中保存数据的细化或综合程度的级别 – 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 – 粒度影响数据仓库中数据量的大小 – 粒度问题是设计数据仓库的一个重要方面 – 在数据仓库的细节级上创建两种粒度
• 短期储存的低粒度(真实档案),满足细节查询 • 具有综合的高粒度(轻度综合),做分析
• 面向主题的(Subject -Oriented) • 集成的 • 可变的 • 当前或接近当前的
• ETL
– 数据抽取、转换、装载(Extract/Transformation/Load)
元数据、分割、粒度
• 元数据
– 关于数据的数据。用于构造、维持、管理使用数据仓库。
• 分割
– 数据分散到各自的物理单元中去,它们能独立地处理。
数据仓库 数据存储
元数据管理
分析
数据使用 门 户

数据标准管理



数据质量管理

数据获取:ETL
• 职责
– 负责将数据从源系统提取到数据仓库中
• 功能
– 去掉操作型数据库中不需要的数据 – 统一转换数据的名称和定义 – 计算汇总数据和派生数据 – 估计遗失数据的缺省值
• 关键问题
– 增量数据获取 – 异常处理
• CDC组件
– Change Data Capture 改变数据捕获
CDC整体连接示意图
system
CDC for Oracle
S1(实例)
S11(数据存储)
CDC for Accessserver
D11(数据存 储)
CDC for Datastage
D1(实例)
userA(登录服务器用户)
AAddmmiinn((客客户户端端用用户户)) cdd user(登录服务器用户)
Relational
Package
Legacy
External source Data Clean Tool
Data Staging
Enterprise Data
Warehouse
Data Staging:数据 处理区域,为了实现 ETL过程的临时存储
Datamart
RDBMS
Datamart
RDBMS ROLAP
RDBMS
Metadata
Sourceபைடு நூலகம்
Data Extraction,
Databases Transformation, load
Central Data Warehouse
Architected Data Marts
MidTier
MidTier
MDB
End-User DW Tools
Data Access and Analysis
MDB
End-User Tool
End-User Tool
End-User Tool
End-User Tool
体系结构 [Pieter,1998]
Relational
Appl. Package
Legacy
External Data
Cleansing Tool
Warehouse Admin. Tools
• 模拟多维方式显示(观察)数据
ROLAP架构
MOLAP与ROLAP
• MOLAP
– 计算速度较快 – 支持的数据容量较小 – 缺乏细节数据的OLAP – 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指
针结构 – 以关系数据库存放细节数据、以多维数据库存放综合数据
• ROLAP
• 触发器
– 源表中创建触发器,通过触发器 捕获数据的增、删、改
插入 修改 删除
…… 增量2 增量1
ETL
存量数据
数据仓库
• 数据库日志
– 对事务数据库的日志文件进行分析,获取变化的数据
• Hash值
– 通过比对记录的hash值,识别出变化的数据
• 业务日期
– 根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付 费表的实收日期,保全生效日等
• 可以理解为交叉表的数据格
钻取和上卷
旋转
示例:钻取-操作
示例:钻取-效果
基于多维数据库的OLAP——MOLAP
• 以多维方式组织数据(综合数据) • 以多维方式显示(观察)数据 • 多维数据库的形式类似于交叉表,可直观地表述一对多、
多对多的关系
– 如:产品、地区、销售额
• 关系 • 多维
—— [Ladley,1997]
……是一组方法、技术、工具…… • Data warehouse is a process of crating, maintaining,and
using a decision-support infrastructure.
—— Appleton,1995][Haley,1997][Gardner 1998]
Source Hub - Data Extraction, Central Data Ware-
Databases Transformation, load
house and ODS
Architected Data Marts
Data Access and Analysis
小结:体系结构
调度管理
ETL 数据获取
数据仓库基础
信息技术部 开发三处 徐景春
日程
日程:技术知识
• 基本概念 • 体系结构 • 设计方法 • 技术实现
背景:数据处理的发展历程
数据库
OLTP处理交易 统计类需求 数据源繁杂 文件方式
数据与程序混杂 管理复杂 并发问题 一致性问题
传统数据仓库
OLAP处理分析 性能问题 非结构化数据 实时
– 结构较复杂 – 以关系模拟多维 – 支持适当细节的OLAP – 较成熟
• 多维数据库由许多经压缩的、类似于数组的对象构成,带 有高度压缩的索引及指针结构
• 以关系数据库存放细节数据、以多维数据库存放综合数据
MOLAP架构
基于关系数据库的OLAP——ROLAP
• 以二维表与多维联系来表达多维数据(综合数据)
– 星型结构 – 事实表,存储事实的量及各维的码值(BCNF) – 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) – 事实表通过外键与每个维表相联系 – 雪花、星座、雪暴
—— [Inmon,1996]
数据仓库是一个面向主题的、集成的、非易失的且随时间 变化的数据集合,用来支持管理人员的决策。
数据仓库其他定义
• Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform .
数据使用:分析
• 职责
– 负责数据的使用、分析、展现
• 常见方式
– 报表:常规的制式固定报表 – OLAP:联机分析处理 – 数据挖掘 – 即席查询 – 自助查询
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
联机分析处理(OLAP)
• 是针对特定问题的联机访问和分析 • 通过对信息的很多种可能的观察形式进行快速、稳定一致
Central Data
Warehouse
Local Metadata
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
DW2.0 大数据平台
……
说明 不是“替代”关系 本文档重点介绍“传统数据仓库”
OLTP与OLAP
OLTP 处理交易 流程 运转
OLAP 分析数据 数据 记录、观察
数据仓库定义
• Data warehouse is a subject oriented, integrated,nonvolatile and time variant collection of data in support of management’s decision.
• 异常捕获、异常处理
– 非功能需求
• 如何复用代码 • 性能:是否使用存储过程、如何转换 • 易用性:并行开发、维护
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
增量数据获取方式
• 时间戳
– 源表有时间戳字段,记录新增、 修改、删除更新时间戳字段
和交互性的存取,允许分析人员对数据进行深入观察 • 概念
– 变量是数据的实际意义,描述数据是什么 – 维是人们观察数据的特定角度 – 维的层次是维在不同细节程度的描述 – 维成员是维的一个取值 – 多层次维的维成员是各层次取值的组合 – 对应一个数据项,维成员是该数据项在该维中位置的描述 – 多维数组可以表示为(维1,维2,……,变量),如(地区,时间,销售渠道,销售额) – 多维数组的取值称为数据单元(单元格)
如何选择增量获取方式
数据存储:数据仓库
• 职责
– 负责存储数据
• 功能
– 快速存取,适应变化
相关主题