数据仓库技术
编码
数据仓库 m,f
属性度量
管道cm
数据仓库技术
集成
应用A 描述 应用B 描述 应用C 描述 应用D 描述
多重信息源 冲突的键码
应用A char(10) 应用B dec fixed(9,2) 应用C pic ‘9999999’ 应用D char(12)
描述 char(12)
数据仓库技术
操作性
人寿保险
数据仓库技术
2.数据抽取技术
o 当前值。
n 源系统中存储的数据都代表了当前时刻的值。当商业交 易时,这些数据是会发生变化的。
o 周期性的状态。
n 这类数据存储的是每次发生变化时的状态。例如,对于 每一保险索赔,都经过索赔开始、确认、评估和解决等 步骤,都要考虑有时间说明。
数据仓库技术
3.5.2 数据转换
J Jones 女
1945年7月20日 。。。。。
汽车保险
J Jones 去年有两张罚单 一次大事故 。。。。。
房产保险 健康保险
J Jones Main大街123号 已婚 。。。。。
J Jones 两个孩子 高血压 。。。。。
数据仓库
顾客
J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压 。。。。。。
数据仓库技术
2.数据装载类型
o 最初装载
o 这是第一次对整个数据仓库进行装载。
o 增量装载
o 由于源系统的变化,数据仓库需要装载变化的数据。
o 完全刷新
o 这种类型的数据装载用于周期性重写数据仓库。
数据仓库技术
3.5.4 ETL工具
o 数据转换引擎 o 代码生成器 o 通过复制捕获数据
数据仓库技术
数据仓库技术
3 数据仓库中的数据组织
3.1 数据的粒度 3.2 数据仓库的数据组织结构 3.3 数据的分割 3.4 数据仓库的数据组织模式 3.5 数据的追加
数据仓库技术
3.1 粒度
o 粒度——是指数据仓库的数据单位中保存数 据的细化或总合程度的级别。
o 细化程度越高,粒度级就越小; 细化程度越低,粒度级就越大。
高度综合级
每月销售 1994-2001
轻度综合级 (数据集市)
元 数 据
当前细节级
每周销售 1994-2001
销售细节级 2000-2001
操作型转换 早期细节级
销售细节级
1994-1999
数据仓库技术
3.3 分割
o 分割——将当前细节数据分散到各自的物 理单元中去以便能分别独立处理,以提高 数据处理效率。
4.1 数据集市的概念
o 数据集市(Data Mart)——具有特定应用 的数据仓库,主要针对某个具有战略意义 的应用或者具体部门级的应用,支持用户 利用已有的数据获得重要的竞争优势或者 找到进入新市场的具体解决方案。
人力资源数据集市 财务数据集市 销售数据集市 市场数据集市等
数据仓库技术
4.2 数据集市的种类
数据仓库技术
3.5.1 数据抽取
1. 确认数据源 2. 数据抽取技术
数据仓库技术
1.确认数据源
o 列出对事实表的每一个数据项和事实 o 列出每一个维度属性 o 对于每个目标数据项,找出源数据项 o 一个数据元素有多个来源,选择最好的来源 o 确认一个目标字段的多个源字段,建立合并规则 o 确认一个目标字段的多个源字段,建立分离规则 o 确定默认值 o 检查缺失值的源数据
1. 数据转换的基本功能 2. 数据转换类型 3. 数据整合和合并 4. 如何实施转换
数据仓库技术
1.数据转换的基本功能
o 选择:从源系统中选择整个记录或者部分记录。 o 分离/合并:对源系统中的数据进行分离操作或者合并操作。 o 转化:对源系统进行标准化和可理解化。 o 汇总:将最低粒度数据进行汇总。 o 清晰:对单个字段数据进行重新分配和简化 。
维
维表
事实表 量
o 星型模式(star schema)
中间有一个单一表,沿半径向外连接到多个表
o 雪花模式(snowflake sc径向外连
接到多个点
o 混合模式
数据仓库技术
3.5 ETL
o 数据抽取、转换、装载(ETL)是建立数 据仓库的重要步骤,需要花费开发数据仓 库70%的工作量。
数据仓库技术
2020/11/21
数据仓库技术
提纲
o 数据仓库技术的产生 o 数据仓库的定义和特征 o 数据仓库中的数据组织
n 数据的粒度 n 数据仓库的数据组织结构 n 数据的分割 n 数据仓库的数据组织模式 n ETL o 数据集市 o OLAP n 定义和实例 n OLAP的多维数据分析 n OLTP与OLAP o 数据仓库系统(DWS)
数据仓库技术
2.3 非易失性
数据库
数据仓库
插入
修改
删除
访问 删除
插入 修改
数据的逐个记录方式处理
访问
数据的批量载入/访问
数据仓库技术
2.4 随时间变化
数据库
数据仓库
时间期限:当前到60—90天 记录更新 键码结构可能包括也可能不
包括时间元素
时间期限:5—10年 数据的复杂快照 键码结构包括时间元素
o OLTP与OLAP对比
数据仓库技术
OLTP 数据库数据(操作型)
细节性数据 当前数据 经常更新
一次处理的数据量小 对响应时间要求高 用户数量大
面向操作人员,支持日常操作 面向应用,事务驱动
OLAP 数据库/数据仓库数据(分析型)
综合性数据 历史数据
周期性更新 一次处理的数据量大
响应时间合理 用户数量相对较少 面向决策人员,支持管理需要 面向分析,分析驱动
(1)实体识别问题
数据来源于多个不同的客户系统,对相同客户可能分别 有不同的键码,将它们组合成一条单独的记录。
(2)多数据源相同属性不同值的问题
不同系统中得到的值存在一些差别 ,需要给出合理的值。
数据仓库技术
4.如何实施转换
o 自己编写程序实现数据转换 o 使用转换工具
数据仓库技术
3.5.3 数据装载
操作性环境
汽车
主题是数据归类的标准
数据仓库
顾客
应
人寿
主
用
题
健康
保险单 保险费
意外伤亡
索赔
数据仓库技术
2.2 集成
数据进入数据仓库之前,必须经过加 工与集成
数据库
应用A m,f 应用B 1,0 应用C x,y 应用D 男,女
应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds
o 数据仓库(Building the Data Warehouse) W.H.Inmon 机械工业出版社
o 数据仓库技术及联机分析处理 王珊等编著 科学出版社
数据仓库技术
Q&A
谢谢!
数据仓库技术
决策支持系统对数据库系统的要求: o 详细数据与总结数据(summary data) o 当前数据与历史数据 o 数据源的异构性和分布性 o 即时更新与按需更新 o 联机事务处理OLTP与联机分析处理OLAP
数据仓库技术
5.1 OLAP的定义
o 联机分析处理是是一种软件技术,他使分 析人员能够迅速、一致、交互地从各个方 面观察信息,以达到深入理解数据的目的。
o 联机分析技术是共享多维信息的快速分析。
—快速性
5秒内作出反应
—可分析性
逻辑分析和统计分析
—多维性
支持多维表
—信息性
及时获取信息
数据仓库技术
OLAP实例
o 独立的数据集市(Independent Data Mart),数据直接来源于数据源。
o 从属的数据集市(Dependeant Data Mart),数据来源于中央的数据仓库。
数据仓库技术
两种数据集市
数据源
数据源
数据源
数据源
中央数据仓库
独立数据集市
从属数据集市
分析工具
分析工具
分析工具
分析工具
分析工具
o 分片——数据分割后的独立单元。 o 数据的分割 提高了数据管理的灵活性
重构、索引、重组、恢复、监控 o 分割的标准:日期、地域、业务领域。
数据仓库技术
分割的一个例子
健康保险 生命保险 事故保险
1999 分片1
分片2
分片3
2000 分片4
分片5
分片6
2001 分片7
分片8
分片9
数据仓库技术
3.4 数据仓库的数据组织模式
数据仓库技术
6 数据仓库系统(DWS)
数据仓库系统=数据仓库(DW)+仓库管理+分析工具
关系数据 数据文件 其它数据
数据仓库 管理工具 抽取、转换
装载
元数据库
数据建模 工具
综合数据 当前数据 历史数据
用户查询 工具
C/S工具
OLAP工具
DM工具
源数据
仓库管理
数据仓库 分析工具
数据仓库技术
参考书籍
o 粒度——细节的级别 o 粒度的划分决定了数据仓库中数据量的大小
和查询的详细程度。 o 多重粒度
数据仓库技术
粒度的一个例子
高细化
每月200个记录 每月40,000个字节
低细化 每月一个记录 每月200个字节
询
通过检索
问
可以回答
某
一
电
话
的
细
无细节
节
无法回答
数据仓库技术
3.2 数据仓库的数据组织结构
平面数据的坐标轴转换。