当前位置:文档之家› 数据仓库的概念和体系结构概述

数据仓库的概念和体系结构概述

维度层次越高、代表的数据综合度越高,数据量 越少。
维度层次越低、代表的数据综合度越低,细节越 充分,数据量越多。
有关操作:“上卷”(roll_up)、“下钻”( drill_down)、“钻过”(drill_across)和“ 钻透”(drill_through)等。
2020/8/11
数据仓库与数据挖掘
部门 部门1 部门2 2020/8/11 部门3
表1 (单位:万美元)
部门
销售
部门1
90
部门2
60
部门3
下 钻
80
上 卷
2004年
1季度
2季度
3季度
20
20
35
25
5
15
20 数据仓库与1数5 据挖掘 18
4季度
15
15
27
24
OLAP根据其存储数据的方式可分为 三类:ROLAP、MOLAP、HOLAP
维度是数据仓库中识别数据的索引。 维度具有层次性。 可以根据数据的组织层次进行“上卷”或“下钻” ,了解具体信息。
维是人们观察数据的特定角度
2020/8/11
数据仓库与数据挖掘
12
3.数据立方体
从不同角度对同一数据进行观察得到的数据 交点,构成了数据立方体。
当观察的角度(参数)超过三个所构成的数 据结果集称为超立方体,也称为超维数据集。

2002年
2003年
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市 123 56
45
66 134 56
23
55
上海市 134 103
98
87 102 139 97
82
天津市 67
73
59
96
73
69
62
94
1季度
2002 2003
北京市 123
134
上海市 134
102
天津市 67
SQL查询
Database 服务器
查询结果
前端工具
Load
OR
SQL查询 MOLAP 服务器 用户请求
2020/8/11
查询结果 数据仓库与数据挖掘 查询结果
28
OLAP工具
2020/8/11
数据仓库与数据挖掘
29
1.3 数据仓库的技术、方法与产品
数据仓库实施中的三个关键环节
数据抽取; 数据存储与管理 数据表现
历史数据
不更新,但周期性刷新 一次处理的数据量大
响应时间合理 面向分析,分析驱动
2020/8/11
数据仓库与数据挖掘
10
OLAP技术的有关概念 :多维数据集、
维度、数据立方体、度量值和多维分析

1.多维数据集是数据的集合(多维数组)
多维数据集是决策支持的依据,也是OLAP的核 心。
OLAP展现的结果是一幅幅多维视图。
查询结果
2020/8/11
数据仓库与数据挖掘
26
2. MOLAP体系结构 将OLAP分析所用到的多维数据物理上存储
为多维数组的形式,形成“立方体”的结 构。维的属性值被映射成多维数组的下标 值或下标的范围,而总结数据作为多维数 组的值存储在数组的单元中。由于MOLAP采 用了新的存储结构,从物理层实现起,因 此又称为物理OLAP(physical olap)。
库中并根据应用的需要有选择地定义一批 实视图作为表也存储在关系数据库中。不 必要将每一个sql查询都作为实视图保存, 只定义那些应用频率比较高、计算工作量 比较大的查询作为实视图。
Database 服务器
ROLAP 服务器
SQL查询
用户请求
前端工具
查询结果
Metadata Request Processing
4季度
55 8库与数据挖掘
19
旋转后的维方向(不同维度间的旋转操作

2002年
2003年
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市 123 56
45
66 134 56
23
55
上海市 134 103
98
87 102 139 97
82
天津市 67
2020/8/11
数据仓库与数据挖掘
16
服装切片
产品
北京 上海 江苏
12 3 4
销售数量: 10000
化妆品 玩具 服装 电器
时间(月)
2020/8/11
数据仓库与数据挖掘
17
(2)多维的切块
与切片类似,如果在一个多维数据集上对两个及 其以上的维选定维成员的操作称为切块。
如有多维数据集(维1,维2,……,维i,…… ,维k,……,维n,观察变量),对维i,…… ,维k,选定了维成员,那么(维1,维2,…… ,维i成员,……,维k成员,……,维n,观察 变量)就是多维数据集(维1,维2,……,维i ,……,维k,……,维n,观察变量)在维i, ……,维k上的一个切块。
73
2季度 2002 2003
56
56
103 139
73
69
3季度 2002 2003
45
23
98
97
59
62
4季度 2002 2003
66
55
87
82
96
94
2020/8/11
数据仓库与数据挖掘
21
(4)其它OLAP操作
维度是有层次性的,如时间维可能由:年、季、 月、日构成,维度的层次反映了数据的综合程度 。
2020/8/11
数据仓库与数据挖掘
30
从数据仓库的概念结构看,应该包含: 数据源、数据准备区、数据仓库数据库 、数据集市/知识挖掘库以及各种管理工
具和应用工具。
业务系
数据源

外部数 据源


数据
据 准 备
据 仓 库 数
集市/ 知识 挖掘 库
应用工具



数据
集市/
知识
应用工具
挖掘

管理工具
图1.1 数据仓库的概念结构
Database 服务器 Load MOLAP 服务器 用户请求
前端工具
2020/8/11
查SQ询L查结询果数据仓P库MRr与oeectq数aeudse据saistnt挖ag 掘
查询结果
27
3. HOLAP体系结构
由于molap和rolap有着各自的优点和缺点,且它们
的结构迥然不同,这给分析人员设计olap结构提
2020/8/11
数据仓库与数据挖掘
2
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
2020/8/11
数据仓库与数据挖掘
3
2020/8/11
数据仓库与数据挖掘
4
数据库与数据仓库的比较
数据库
细节的 在存取时准确的
可更新的 一次操作数据量小
2020/8/11
数据仓库与数据挖掘
18
(3)旋转
改变多维数据集显示的维方向。 旋转前的维方向
1季度
北京市 123 上海市 134 天津市 67
2002年 2季 3季度 度
56 45 103 98 73 59
4季度
66 87 96
2003年 1季度 2季度 3季度
134 56 23 102 139 97 73 69 62
MOLAP是以多维数据库的方式组织存储数 据
ROLAP是利用现有的关系数据库技术来模 拟多维数据。
HOLAP是一混合模式,对于常用的维度和 维层次,使用多维数据表来记录,对于 用户不常用的维度和数据,采用类似 ROLAP星型结构来存储。
2020/8/11
数据仓库与数据挖掘
25
1. ROLAP体系结构 OLAP将分析用的多维数据存储在关系数据
多维数据集可以用一个多维数组表示。例如经典 的时间、地理位置和产品的多维数据集可以表示 为:(时间,地理位置,产品,销售数据),类 似地,其它多维数据集可表示为:(维1,维2, 维3,……,维n,观察变量)形式。
2020/8/11
数据仓库与数据挖掘
11
2.维度
数据仓库是用于决策支持的,管理人员在进行 决策分析时,经常需要选择一个对决策支持活动有 重要影响的因素去进行决策分析,这些决策因素就 构成了分析问题的角度,这些分析角度就是数据仓 库中的维度。从而构成了三维、多维空间。
第1章 数据仓库的 概念与体系结构
2020/8/11
数据仓库与数据挖掘
1
1.1 数据仓库的概念、特点与组成
数据仓库的概念
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相 对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,通常用 于辅助决策支持(DDS)
面向应用 支持管理
数据仓库
综合或提炼的 代表过去的数据
不更新 一次操作数据量大
面向分析 支持决策
2020/8/11
数据仓库与数据挖掘
5
1.1 数据仓库的概念、特点与组成
数据仓库的组成:
数据仓库数据库; 数据抽取工具; 元数据:技术元数据与业务元数据; 访问工具; 数据集市(Data Marts); 数据仓库管理; 信息发布系统。
数据仓库与数据挖掘
14
5.多维分析 OLAP的多维分析是指对多维数据集中的数
据用切片、切块、旋转等方式分析数据。 使用户能从多个角度、多个侧面去观察数
相关主题