当前位置:文档之家› 第4章 联机分析处理概述及模型

第4章 联机分析处理概述及模型


2015-4-20
39
3. 事实群模型
在某些复杂应用中,可能需要多个事实表来共享维
表,这种模型类似于星形模型的集合,被称之为星
系模型或事实群模型。 销售事实表和货运事实表共享时间维、产品维和地 区维举例。
2015-4-20
40
3. 事实群模型(续)
2015-4-20
41
4.3 多维分析操作
常见的度量有:销售量、供应量、营业额等。
通常是具体数据值。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
究竟想了解什么?
商品
1 2
3
4
21
日期
2. 度量(续)
2015-4-20
22
3. 数据立方体
多维数据模型构成的多维数据空间称作为数据立方 体(Data Cube,简记为cube)。
2015-4-20
13
1. 维(续)
维成员(member) 维由一些维成员构成。维的一个取值称为维的一个
成员。如果维已经分成了若干个维层次,那么维成
员就是不同维层次取值的组合。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
商品、城市、日期维 工业 国家 年
多维数据模型是一个多维空间。 核心概念主要涉及:维、维成员、维层次、度量等。
2015-4-20
12
1. 维
维是人们观察数据的特定角度,是每个事物的属性。 如:在分析产品销售数据时,需要知道在什么时候?
什么地区?销售什么产品?就涉及到观察的时间、
地区、产品三个角度。 维是商业活动中的一个基本要素。 每个维都有一个唯一的名字,如:时间维、地区维、 产品维等。
区维是指商店所在地区。假设数据仓库中有一张销 售表(如下图),只列出在时间T1、商品P1在济南
地区的商店( S 1 、 S 2 、 S 3 )的销售额,分别为:
(T1,S1,P1:100),(T1,S2,P1:78),(T1, S3,P1:97)
求和 计数 求最大值 求最小值
求平均值
2015-4-20 43
4.3.1 多维分析基础:聚集(续)
举例:零售商对产品的销售尽心给分析时,设置了 时 间 维 ( T i m e ) 、 地 区 维 ( S t o re ) 和 商 品 维
( Product ),度量是销售额(Sales),其中该地
是以海量数据为基础的复杂分析技术。
支持各级管理决策人员从不同角度,快速灵活地对 数据仓库中的数据进行复杂查询和多维分析处理。
2015-4-203Leabharlann 4.1.1 OLAP的起源
最早由关系数据库之父E.F.Codd于1993年提出。 原因:E.F.Codd认为联机事务处理已经不能满足终
端用户对数据库数据进行查询、分析的需要。
4.1.3 OLAP与OLTP的区别
OLAP与OLTP数据比较
OLTP数据 OLAP数据
原始数据
细节性数据 当前数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
2015-4-20
导出数据
综合性或提炼性数据 历史数据 不可更新,但周期性追加和刷 新 一次处理的数据量大 面向分析,分析驱动 面向决策人员,支持管理需要
(“山东省”,“2009年第一季度”,“彩电”,“500万”)
2015-4-20
28
4.2.2 星形、雪花和事实群模型
常见的多维数据模型有: 星形模型
雪花模型
事实群模型
2015-4-20
29
1. 星形模型
星形模型是多维数据模型的基本结构,通常由一个 很大的中心表(事实表)和一组较小的表(维度表)
是从不同角度对同一数据进行观察得到的数据交点。
当观察的角度(参数)超过三个所构成的数据结果 集称为超立方体,也称为超维数据集。
2015-4-20
23
3. 数据立方体(续)
一个二维数据立方体对应的某地区商店销售额表
时间(季度) 彩电 第一季度 第二季度 第三季度 第四季度 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 产品类型 洗衣机 240万 420万 250万 320万 家用电器 1500万 2100万 1000万 1700万
19
1. 维(续)
维属性(attribute) 维属性说明维成员所具有的特征。
如:在地区维的商店这一层定义“负责人”、“商
店类型”等属性,在城市层上定义“人口”、“面 积”等属性。
2015-4-20
20
2. 度量
度量是要分析的目标或对象,是多维数据集的核心 值,是最终用户在数据仓库应用中需查看的数据。
OLAP是基于多维数据库和多维分析的。
2015-4-20
4
4.1.2 OLAP的定义
OLAP委员会给出的定义: 定义 1 : OLAP 是针对某个特定的主题进行联机数 据访问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使用者。
定义 2 : OLAP 是使分析人员、管理人员和执行人
求作出响应。
可分析性:用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户所希望的方式给 出报告,处理与应用相关的各种逻辑分析和统计分 析。 多维性:提供对数据的多维视图和分析。
及时性:不论数据量有多大、数据存储在何处,应
能及时获得信息,并且管理海量信息。
2015-4-20 7
维度表上用了多于一张的维表表示,称为详细类别 表。
2015-4-20
35
2. 雪花模型(续)
地域维上用了多于一张的维表表示。
2015-4-20
36
2. 雪花模型(续)
2015-4-20
37
2. 雪花模型(续)
产品ID 产品名称 公司ID 公司名称 产品颜色ID 产品颜色 产品维表 产品ID 公司ID 产品颜色ID 产品商标ID 产品类型ID 产品ID 产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入 产品商标ID 商标名称 产品类型ID 产品类型名
时间 维表
时间ID
销售商ID
销售商 维度表
地址ID
地理位 置维表 2015-4-20
雪花模式的关系数据库表示
38
2. 雪花模型(续)
星形模型和雪花模型的主要区别是雪花模型中的维
表是规范化的。
维表不但易于维护,而且节省存储空间。 雪花模型在执行查询操作时需要进行较多的链接操 作,可能会影响系统的性能。
日期
4.2 多维数据模型
研究内容:主要研究多维数据的抽象表示问题。 采用方式:通常采用数据立方体的方式表示。
实现目标:允许管理决策人员对多维数据从不同的
角度进行快速、稳定和交互式的观察和存取。 存在三种模型:星形模型、雪花模型、事实群模型。
2015-4-20
11
4.2.1 基本概念
8
4.1.3 OLAP与OLTP的区别(续)
两者最终结果: OLAP通过逐层细化、切片、切块、数据旋转等操 作,采用非数据处理专业人员容易理解的形式(多 维报表、统计图形)展现结果。
OLTP 大多使用操作人员常用的固定表格方式显示
数据。
2015-4-20
9
4.1.4 OLAP核心技术
程度就称为不同的维层次。 如:销售地区维有分区、省、市,对于时间维有日、 月、季度。
2015-4-20
16
1. 维(续)
地区维的维成员之间的层次关系实例。
总部
中国
美国
......
华北
华东
......
北京
河北
......
商店
2015-4-20
商店
......
17
1. 维(续)
维层之间以及维层与成员的关系。
河北省所有商店销售额 产品类型
冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
福建省所有商店销售额 产品类型
彩电 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
组成。
产品 维表
时 间 维 表
事实 表
销售 商维 度表
......
2015-4-20
30
1. 星形模型(续)
2015-4-20
31
1. 星形模型(续)
2015-4-20
32
1. 星形模型(续)
产品维表
产品ID
产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入
时间维 表
销 售 商 维度表
员能够从多角度对信息进行快速、一致、交互地存 取,从而获得对数据的更深入了解的一类软件技术。
2015-4-20 5
4.1.2 OLAP的定义(续)
OLAP基本功能: 能够对用户提出的各类复杂查询快速响应。
具备多维建模能力。
2015-4-20
6
4.1.2 OLAP的定义(续)
主要特点: 快速性:能在很短的时间内对用户的大部分分析要
时间ID
销售商ID
地址ID
地 理 位 置维表
2015-4-20
星形模型的关系数据库表示
33
1. 星形模型(续)
相关主题