当前位置:文档之家› 第2章 数据仓库的数据存储与处理

第2章 数据仓库的数据存储与处理


三 层 数 据 结 构
操作型元数据
2.1、数据仓库的数据结构
各个组成部分的含义 操作性数据 :来源于业务系统中的数据。 调和数据:存储在企业级数据仓库中的数据。
导出数据:从数据仓库中导出并存储在各个数据集市中的数据。
企业数据模型:企业组织所需数据的整体轮廓。 元数据 :有关数据的说明。
星型模型
维度 表
维度 表
事实表 维度 表 维度 表
维度 表
2.4.3多维建模技术
雪花模型
维度 表
维度 表 维度 表 详细类 别表
事实表
维度 表
维度 表
详细类 别表
2.4.3多维建模技术
一个星型模式的例子
产品维表 PK 产品编号 产品类别 产品名称 销售分析表 PK,FK2 PK,FK1 PK,FK3 时间编号 产品编号 地址编号 销售数量 销售金额 PK 地区维表 地址编号 国家 省份 城市 门店
数据仓库的ETL过程:包括抽取、清洗、转换、加载与索引等;
多维数据模型的物理实现方法与多维建模技术 。
2.3、数据仓库的数据ETL过程
ETL概念 数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽 取(Capture/Extract)、清洗(Scrub or data cleansing)、转 换(Transform)、装载与索引(Load and Index)等数据调和工 作。
2.3、数据仓库的数据ETL过程
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换
加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS
2.3、数据仓库的数据ETL过程
数据抽取的几点要求 数据源命名的透明度。 源系统实施的业务规则的完整性和准确性。 数据格式的一致性。
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.3、数据仓库的数据ETL过程
ETL概念 ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract)
清洗(Scrub/Cleanse)
转换(Transform) 加载和索引(Load/Index)
轻度综合级
每“天”电话 呼叫情况信息
电话呼叫情况 信息
当前细节级 早期细节级
数 据 仓 库 层
后备数据 后备数据 后备数据
电话呼叫明细 情况信息
2.4.2多维数据模型的物理实现
多维数据库(MDDB),其数据是存储在大量的多维数组中,而不 是关系表中 ,与之相对应的是多维联机分析处理(MOLAP) 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关 系联机分析处理(ROLAP)
关系数据库中,将 “多对多”的关系转 化为多个“一对多” 的关系
具有汇总值的多维数据库
江苏 上海 北京 汇总 电器 940 450 340 1730 服装 830 350 270 1450 汇总 1770 800 610 3180
不直观
直观
2.4.2多维数据模型的物理实现
二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据 库MDDB就成了一种“超立方”体的结构 ,理解就困难多了。 在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对 象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许 多存储数据的单元块联结在一起 。
维度表
按照两种结构设计: 星型模型 雪花模型
2.4.2多维数据模型的物理实现
星型模式在关系数据库中的表示
产品维 表
产品ID
产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入
时 间 维表
销售商 维度表
时间ID
销售商ID
地址ID
地理位 置维表
2.4.2多维数据模型的物理实现
组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、
扫描。
2.4.1多维数据模型
关于数据综合级别与粒度的确定: 一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级
2.4.1多维数据模型
一个典型的数据仓库的数据组织结构图
高度综合级
每“月”电话 呼叫情况信息
2.3、数据仓库的数据ETL过程
数据ETL过程的实施要点
ETL过程是一个数据流动的过程,中间的“T”(转换)是关键 ;
ETL工具的选择非常重要,运用合适的工具会事半功倍 ; 如何保证数据质量?数据质量在一定程度上决定了数据仓库的价 值。
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
SELECT……INTO、存储过程等方法。
2.3、数据仓库的数据ETL过程
数据清洗 原因:操作型业务系统中的数据质量很差。 错误拼写的名字和地址。 不可能的或错误的出生日期。 不匹配的地址和电话区号。
缺失的数据。
重复的数据。 ……
2.3、数据仓库的数据ETL过程
数据转换 在ETL过程中处于中心位置,又很麻烦。 将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格 式。 数据加载和索引 将整理好的数据添加到数据仓库中。 建立索引。
时间ID
销售商ID
销售商 维度表
地理位 置维表
图5.9 雪花模式的关系数据库表示
2.4.3多维建模技术
两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由
Kimball提出的多维模型 ;
基于关系数据库的多维数据建模,如星型,雪花和事实星座模式; 关于事实表、维表及键的设计 。
2.4.3多维建模技术
雪花模式在关系数据库中的表示
产品ID 产品名称 公司ID 公司名称 产品颜色ID 产品颜色 产品维表 产品ID 公司ID 产品颜色ID 产品商标ID 产品类型ID
产品ID 产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入 地址ID
产品商标ID 商标名称
产品类型ID 产品类型名
时间 维表
2.4.1多维数据模型
维类别
维的类别即维的分层。
可分为: 简单层次 复杂层次 西南
云南
贵州
四川
2.4.1多维数据模型
西南
贵州
四川
云南
贵阳市
安顺市
平坝县
复杂层次
2.4.1多维数据模型
维属性 维的一个取值。 度量 度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫
事实。
2.4.1多维数据模型
实际组合中往往由于各种原因会导致某些组合没有具体的值,或值
是空的或者为零。 产生了多维数据库的稀疏矩阵问题。 稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。
2.4.2多维数据模型的物理实现
关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析 处理(ROLAP) 将数据的多维结构划分为两类表: 事实表
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.4.1多维数据模型
多维数据模型及其相关概念
多维数据模型的物理实现 多维建模技术简介 一个星模式的例子
2.4.1多维数据模型
多维数据模型及其相关概念
有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度
及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期 细节级、当前细节级、轻度综合级、高度综合级 有关多维数据模型的几个概念 维、维类别、维属性、度量、粒度及分割等
2.4.2多维数据模型的物理实现
具有汇总数据项的关系数据库
产品名 称 电器 电器 电器 电器 服装 服装 服装 服装 汇总 汇总 汇总 汇总
销售地 区 江苏 上海 北京 汇总 江苏 上海 北京 汇总 江苏 上海 北京 汇总
销售数 量 940 450 340 1730 830 350 270 1450 1770 800 610 3180
2.4.2多维数据模型的物理实现
多维数据库(MDDB) 关系数据库存储方式 产品名称 电器 电器 电器 服装 服装 服装 销售地区 江苏 上海 北京 江苏 上海 北京 多维数据库存储方式 销售数量 940 450 340 830 350 270
江苏 电器 服装 940 830
上海 450 350
北京 340 270
数据仓库与数据挖掘
第2章 数据仓库的数据存储与处理
教师:郭荣熙
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.1、数据仓库的数据结构
导出数据 (如:数据集市) 数据集市 元数据
调和数据 (EDW & ODS)
EDW元数据
企业数据模型 操作型数据 (如:业务处理系统)
时间维表 PK 时间编号 年度 月份 周 日
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2Hale Waihona Puke 3 4 5数据仓库的数据ETL过程 多维数据模型 小结
2.5小结
数据仓库的三层数据结构及其相关元数据:操作型业务数据层、调和
数据层和导出数据层(如数据集市);
数据仓库的特征与数据分类:状态数据与事件数据、当前数据与周期 数据、元数据等;
粒度与分割 数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般 分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节 级) 分割:将数据分散到各自的物理单元中去以便能分别处理,提高数 据处理效率,数据分割后的数据单元称为分片。
相关主题