当前位置:
文档之家› 第1章数据仓库的概念与体系结构
第1章数据仓库的概念与体系结构
的结构迥然不同,这给分析人员设计olap结构提
出了难题。为此一个新的olap结构——混合型
olap(holap)被提出,它能把molap和rolap两种
结构的优点结合起来。迄今为止,对holap还没有
一个正式的定义。但很明显,holap结构不应该是
molap与rolap结构的简单组合,而是这两种结构
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.1 数据仓库的概念、特点与组成
l 数据仓库的特点:
l 面向主题; l 集成的; l 相对稳定的; l 反映历史变化。
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
“上卷”是指沿某一个维的概念分层向上归约 ;
下钻”是上卷的逆向操作,它是沿某一个维的概 念分层向下或引入新的维来实现;
“钻过”是指对多个事实表进行查询;
“钻透”是指对立方体操作时,利用数据库关系, 钻透立方体的底层,进入后端的关系表。
技术优点的有机结合,能满足用户各种复杂的分
析请求。
•SQL查询
•Database 服务器
•查询结果
•前端工具
•Load
•OR
•SQL查询 •MOLAP 服务器 •用户请求
PPT文档演模板
•查询结果
2020/11/25
•查第询1章结数果据仓库的概念与体系结构
•2.维度
• 数据仓库是用于决策支持的,管理人员在进行 决策分析时,经常需要选择一个对决策支持活动有 重要影响的因素去进行决策分析,这些决策因素就 构成了分析问题的角度,这些分析角度就是数据仓 库中的维度。从而构成了三维、多维空间。 • 维度是数据仓库中识别数据的索引。 • 维度具有层次性。 • 可以根据数据的组织层次进行“上卷”或“下 钻”,了解具体信息。
第1章数据仓库的概念与 体系结构
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.1 数据仓库的概念、特点与组成
l 数据仓库的概念
l 数据仓库就是一个面向主题的(Subject Oriented ) 、 集 成 的 ( Integrate ) 、 相 对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,通常用 于辅助决策支持(DDS)
第1章数据仓库的概念与体系结构
(2)多维的切块
与切片类似,如果在一个多维数据集上对两个及 其以上的维选定维成员的操作称为切块。
如有多维数据集(维1,维2,……,维i,……, 维k,……,维n,观察变量),对维i,……, 维k,选定了维成员,那么(维1,维2,……, 维i成员,……,维k成员,……,维n,观察变 量 ) 就 是 多 维 数 据 集 ( 维 1 , 维 2 , …… , 维 i , …… , 维 k , …… , 维 n , 观 察 变 量 ) 在 维 i,……,维k上的一个切块。
82
天津市 67
73
59
96
73
69
62
94
2002年 2003年
PPT文档演模板
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市 123 56 45 66 134 56 23 55
2020/11/25
上海市
天津市
134
67
103
73
98
59
87
96
102
73
139
69
97
62
82
•维是人们观察数据的特定角度
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
•3.数据立方体
• 从不同角度对同一数据进行观察得到的数据 交点,构成了数据立方体。
• 当观察的角度(参数)超过三个所构成的数 据结果集称为超立方体,也称为超维数据集。
•城市 •武•汉长•沙北京
•广PT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.1 数据仓库的概念、特点与组成
l 数据仓库的组成:
l 数据仓库数据库; l 数据抽取工具; l 元数据:技术元数据与业务元数据; l 访问工具; l 数据集市(Data Marts); l 数据仓库管理; l 信息发布系统。
在多维分析过程中,如果对多维数据集的某个 维选定一维成员,这种选择操作,就可以称之 为切片。
有多维数据集(维1,维2,……,维i,……, 维n,观察变量),如果确定了某个维成员维i 的值,则称:在维i上的一个切片为(维 1,维 2,……,维i成员,……,维n,观察变量)。
一个多维数组的切片最终是由该数组中除切片 所在平面之外的其他成员值确定的。
HOLAP是一混合模式,对于常用的维度和 维层次,使用多维数据表来记录,对于 用户不常用的维度和数据,采用类似 ROLAP星型结构来存储。
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1. ROLAP体系结构 OLAP将分析用的多维数据存储在关系数据
库中并根据应用的需要有选择地定义一批 实视图作为表也存储在关系数据库中。不 必要将每一个sql查询都作为实视图保存, 只定义那些应用频率比较高、计算工作量 比较大的查询作为实视图。
OLAP展现的结果是一幅幅多维视图。
多维数据集可以用一个多维数组表示。例如经典 的时间、地理位置和产品的多维数据集可以表示 为:(时间,地理位置,产品,销售数据),类 似地,其它多维数据集可表示为:(维1,维2, 维3,……,维n,观察变量)形式。
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.2 数据挖掘的概念与方法
l 数据挖掘的方法:
l 直接数据挖掘 l 间接数据挖掘。
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.2 数据挖掘的概念与方法
l 数据仓库与数据挖掘的关系
l 若将数据仓库(Data Warehouse)比 作矿井,那么数据挖掘(Data Mining) 就是深入矿井采矿的工作
l 数据挖掘是从数据仓库中找出有用信息 的一种过程与技术
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.3 数据仓库的技术、方法与产品
联机事务处理(OLTP)与联机分析处理 (OLAP)的比较;
OLTP
OLAP
细节性数据
综合性数据
当前数据
经常更新 一次性处理的数据量小
对响应时间要求高 面向应用,事务驱动
•Database 服务器
•ROLAP 服务器
•SQL查询
•用户请求
•前端工具
PPT文档演模板
•查询结果
•Metadata •Request •Processing
•查询结果
2020/11/25
第1章数据仓库的概念与体系结构
2. MOLAP体系结构 将OLAP分析所用到的多维数据物理上存储
为多维数组的形式,形成“立方体”的结 构。维的属性值被映射成多维数组的下标 值或下标的范围,而总结数据作为多维数 组的值存储在数组的单元中。由于MOLAP采 用了新的存储结构,从物理层实现起,因 此又称为物理OLAP(physical olap)。
•Database 服务器 •Load •MOLAP 服务器 •用户请求
•前端工具
PPT文档演模板
•SQL查询 •查20询20结/11果/25
•Metadata •Request •Processing
•查询结果
第1章数据仓库的概念与体系结构
3. HOLAP体系结构
由于molap和rolap有着各自的优点和缺点,且它们
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
OLAP的其它操作还有统计表中最高值和最低值的 项数,计算平均值、增长率、利润、投资回报率 等统计计算。
PPT文档演模板
部门 部门1 部门2 部门3
表1 (单位:万美元)
部门
销售
部门1
90
部门2
60
部门3
•下 •钻
80
•上 •卷
2004年
94
第1章数据仓库的概念与体系结构
旋转后的维方向(维度层次上的旋转操作)
北京市 上海市 天津市
1季度 123 134 67
2002年
2季度 3季度
56
45
103 98
73
59
4季度 66 87 96
1季度 134 102 73
2003年
2季度 3季度
56
23
139 97
69
62
4季度 55 82 94
PPT文档演模板
2020/11/25
第1章数据仓库的概念与体系结构
1.2 数据挖掘的概念与方法
l 数据挖掘的概念
l 数据挖掘(Data Mining),就是从大量数 据中获取有效的、新颖的、潜在有用的、 最终可理解的模式的过程,简单的说,数 据挖掘就是从大量数据中提取或“挖掘” 知识,又被称为数据库中的知识发现 (Knowledge Discovery in Database, KDD)
1季度
2002 2003
北京市 123
134
上海市 134
102
天津市 67