当前位置:文档之家› 数据仓库_3_数据仓库的基本结构

数据仓库_3_数据仓库的基本结构

临时索引技术等等
多技术接口:用不同技术实现数据的接收和传送
2015/6/3
Data Warehouse
14
3.2 数据仓库管理
存储和管理
控制数据存放的物理位置:在物理块/页一级上进行 控制,存放在合适的位置
并行处理:DW中数据管理最强大的特征,目的就 是极大提高性能
针对决策支持的查询优化:数据冗余、多语言接口 支持多维分析的查询模式 变长数据的有效管理:变长数据经常更新和变化,
基本数据的管理方式:前者具有自由空间(数据更新时临时数据使 用的附加空间),后者没有自由空间;
索引:前者限制索引数量,后者则需要多种索引优化访问。 物理上的优化:前者是针对事务访问,而后者则是针对分析访问。
2015/6/3
Data Warehouse
18
3.2 数据仓库管理
2. 数据仓库管理 - 数据仓库建模
工作:抽取、筛选、清理、加载等 高速装载大量数据:
并行装载:将数据分为几个独立的工作流 设立缓冲区:对数据进行缓冲处理,在缓冲区中合并数据
2015/6/3
Data Warehouse
7
3.2 数据仓库管理
数据仓库中的数据
企业内部各个部门当前及其历史上的细节性业务数据 为了进行分析决策操作而生成的分析型综合数据
优点
采用此方法可避免对整个数据库的对比扫描,具有较高的刷 新效率。
缺点
这样的应用程序并不普遍,修改现有的应用程序的工作量又 太大。
2015/6/3
Data Warehouse
24
3.2 数据仓库管理
3.2.3 数据仓库管理 - 数据刷新方法 - 建立映象文件
实现方法
在上一次数据刷新后对数据库作一次快照 在本次刷新之前再对数据库作一次快照 比较两个快照的不同,从而确定数据仓库的数据刷新操作。
数据抽取的实现方法
通过通用的数据库接口程序或协议从中抽取数据 编制特殊的数据抽取函数进行数据抽取
2015/6/3
Data Warehouse
21
3.2 数据仓库管理
3.2. 数据仓库管理 - 数据刷新
数据仓库系统必须能够感知到在OLTP数据库中数据的 变化情况,并及时有效地把这些变化反映到数据仓库 中去,以使得数据仓库中的数据能真实地反映实际情 况,因此必须对数据仓库进行数据刷新。一般数据刷 新的方法包括:
2015/6/3
Data Warehouse
19
3.2 数据仓库管理
3. 数据仓库管理 - 数据的抽取与刷新
数据抽取
对数据源中数据通过网络进行抽取,并经加工、转 换、综合后形成数据仓库中的数据。
数据刷新
对数据仓库中数据的修改、删除和增加 数据刷新的过程与抽取类似,但刷新的数据量往往
缺点
大多数数据库系统中的数据并不含有时间属性。
2015/6/3
Data Warehouse
23
3.2 数据仓库管理
3.2.2 数据仓库管理 - 数据刷新方法 - DELTA文件
适用情况
有些OLTP数据库的应用程序在工作过程中会形成一些DELTA 文件以记录该应用所作的数据修改操作,可根据该DELTA文 件进行数据刷新。
时间戳
DELTA文件
建立映象文件
日志文件
2015/6/3
Data Warehouse
22
3.2 数据仓库管理
3.2.1 数据仓库管理 - 数据刷新方法 - 时间戳 适用情况
若数据库中的记录有时间属性,则可根据OLTP数 据库中的数据有无更新,以及在执行更新操作时 数据的修改时间标志来实现数据仓库中数据的动 态刷新。
会带来性能问题,例如char和varchar 快速恢复数据
2015/6/3
Data Warehouse
15
3.2 数据仓库管理
数据仓库管理层一般由如下几部分组成:
数据仓库管理系统 数据仓库建模 数据抽取与刷新 元数据管理
2015/6/3
Data Warehouse
16
3.2 数据仓库管理
一个重要活动的发生,随机的,例如:一次销售、一次货物 入库、一次通话、一次发货;
规律性的时间推移,有规律,例如:一天的结束、一个星期 的结束、一个月的结束。
2015/6/3
Data Warehouse
26
3.2 数据仓库管理
快照:操作型环境数据的拷贝
快照的组成:
2015/6/3
Data Warehouse
17
3.2 数据仓库管理
1. 数据仓库管理 - 数据仓库管理系统
数据仓库管理系统类型
传统的通用的DBMS 数据仓库专用的DBMS:在原来DBMS基础上的改进
区别:
数据更新的方式:前者具有一般DBMS的特征(即记录锁定、基于 事务等),后者则将特征最小化;
小于抽取的数据量。 由于仅需要对修改过的数据进行刷新,因而其实现
难度与复杂性要大于数据抽取。
2015/6/3
Data Warehouse
20
3.2 数据仓库管理
3.1. 数据仓库管理 - 数据抽取 数据抽取的注意点
必须屏蔽底层数据的结构复杂性和物理位置的复杂性 能够实现对数据仓库中数据的自动刷新 对数据仓库的元数据和数据进行维护
对数据仓库中数据的管理
需要借助成熟的数据库技术对其进行存储管理 利用改造过的关系数据库系统来组织和管理DW中的数据。
增加必要的技术:多介质的管理、多接口的实现、数据并行处 理等
关闭不需要的技术:事务完整性、行/页级的锁定、参照完整 性等等
2015/6/3
Data Warehouse
数据仓库建模
建立数据仓库的模式。
数据仓库的模式结构
如同数据库的模式设计一样,我们也需要设计建立数据仓库 的数据模式。
如果采用关系数据库系统作为数据仓库管理的工具,则数据 仓库的模式结构在形式上与关系模式一样。
数据仓库的建模过程
数据仓库的建模方式有别于传统的关系数据库建模,需要有 独立的数据仓库建模工具作为数据仓库管理工具的一部分。
(4)高度综合数据:对轻度综合数据再进行综合(粒度变大), 即形成高度综合数据。这一层的数据十分精练,损失了大量信 息,是一种难决策数据。通常存储在快速且相对昂贵的存储介 质上。
(5)整个数据的组织结构由元数据统一来组织,它不包含任何 业务数据库中的实际数据信息。
2015/6/3
Data Warehouse
2015/6/3
Data Warehouse
2
3 数据仓库的基本结构
数据集市 建模
数据集市
……
数据集市


数据仓库
元数据管理
仓 库




软 件
ORACLE
2015/6/3
SYBASE …… SQL Server
数据仓库系统示意图
Data Warehouse
文件
3
3.1 数据源
多数据源
数据仓库的数据来源于多个数据源。
2015/6/3
Data Warehouse
6
3.1 数据源
数据从数据源到数据仓库
方法:
通过一个语言接口(C、COBOL等)一次载入一条记录; 使用一种工具全体批量的转载(较快)。
数据抽取软件
ETL工具(Extraction/Transformation/Loading) 清洗工具(Cleaning)
张三上个星期给他在杭州的女友打过电话没有?(事务型) 上个月某顾客在某超市一共购买了多少钱的物品? 去年南京大学信息管理系在情报学报上发表了多少篇论文?
2015/6/3
Data Warehouse
11
数据仓库的数据组织
(3)轻度综合数据:指从当前基本数据中提取出来,以较小的 粒度(时间段)统计而形成的数据。这类数据较细节数据的数 据量小得多。数据集市中的数据多为轻度综合数据。
(2)当前细节数据:指最近时期的业务数据,它反映了当 前业务的情况,数据量大,是数据仓库用户最感兴趣的部分, 也称为当前基本数据层。通常存储在直接存储存取设备和磁 带上。该层数据一旦过期,就成为早期细节数据。
2015/6/3
Data Warehouse
9
数据仓库的数据组织
元 数 据
高度综合 数据层
缺点
需要占用大量的系统资源 可能较大地影响原有数据库系统的性能
2015/6/3
Data Warehou的拷贝
“事件 - 快照”交互:引起数据仓库数据加载的基 本业务交互活动;
某个事件 -> 数据快照 -> 转移到数据仓库环境中 事件:业务活动产生的事件
2015/6/3
Data Warehouse
4
3.1 数据源
数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是 一个独立的数据环境,它需要通过抽取过程将数据从 联机事务处理系统、外部数据源、脱机的数据存储介 质中导入数据仓库。
2015/6/3
Data Warehouse
5
3.1 数据源
轻度综合 数据层
当前基本 数据层
2015/6/3
Data Warehouse
历史数据层
10
数据仓库的数据组织
细节数据的特点
细节数据==低粒度;
例如: 一个顾客一个月中每次通话的费用(细节); 一个顾客一个月内在某超市每次购买的一种物品(细节);
数据量大; 能够回答任何问题,例如:
相关主题