当前位置:
文档之家› 第四章 数据仓库的建立和维护
第四章 数据仓库的建立和维护
(6)按使用的DBMS和分析用户工具,证实设计方案的有效 性
(7)随着需求变化修改设计方案
从的E—R图转换成星型模型实例说明
18
(1)业务数据的E-R图
地区 地区号 地区名 1 1 m 商店 商店号 商店名 地址 城市 省 邮编 地区号 1 m 销售 销售日期 商店号 商品号 销售数量 销售单位
名称
类型
长度
注释
包括公司所有产品 的信息
逻辑模型
产品维表
产品维表
Product-Key Product-Name Product-SKu
integer char char
10 25 20
主键 产品名称 库存单位 包括不同地区的所 有销售员信息
产品键 产品名 库存单位 品牌
订单事实表 订单键 订单名 产品键 销售员键 销售额 订单成本 销售员维表 销售员键 姓名 地域 地区
预连接表格
对于两个或多个表格共享一个公用链。
预聚集数据
以每天为基础存储数据。在一周结束时,以每周为基础存储数 据(即累加每天的数据)。月末时,则以每月为基础存储数据。
聚类数据 聚类将数据放置在同一地点,这样可以提高对聚类数据的查询。
知识探索
42
发现的问题并找出原因。
创建一个单独的探索仓库,不影响数据仓库的常规用户。同时采用“标识技术” 进行数据压缩,提高数据分析速度。
数据仓库评估
数据仓库评估
45
系统性能评定
投资回报分析 数据质量评估
系统性能评定
46
硬件平台是否能够支持大数据量的工作和多 类用户、多种工具的大量需求? 软件平台是否是用一个高效的且优化的方式 来组织和管理数据? 是否适应系统(数据和处理)的扩展?
数据仓 库维护
数据仓 库增长
概念 设计
维护与 评估 决策 支持
分析与 设计 数据 获取
逻辑 设计
知识 探索
物理 设计
信息 查询
数据 抽取
数据 装载 数据 转换
数据仓库开发过程
9
分析与设计阶段
10
需求分析 数据路线 技术路线 应用路线
需求分析
11
确定决策主题域 分析主题域的商业维度 分析支持决策的数据来源 确定数据仓库的数据量大小 分析数据更新的频率 确定决策分析方法
数据路线
13
概念设计 逻辑设计 物理设计 数据装载接口设计 数据装载功能 数据综合功能
概念设计
14
建立概念模型:对每个决策主题与属性以及主 题之间的关系用E-R图模型表示。 E-R图将现实世界表示成信息世界,便利向计 算机的表示形式进行转化。
逻辑设计
15
将概念模型(E-R图)转换成逻辑模型,即计算 机表示的数据模型。 数据仓库数据模型一般采用星型模型。
低级数据模型:
物理模型
DIS的基本结构
3
基本数据组
类型数据组
连接数据组
二级数据组
基本数据组:应包括主题的码和属性,一个主题只存在一个基本数据组。 如: 顾客 主题中的顾客号、顾客名、性别等。
联接数据组:反映主题之间的联系,往往是一个主题的公共码键。 二级数据组:相对稳定的数据组。如:顾客的地址、电话、文化程度等。
数据仓库开发过程
43
分析与设计阶段
数据获取阶段 决策支持阶段 维护与评估阶段
维护与评估阶段
44
数据仓库增长
数据仓库建立以后,随着用户的不断增加,时间 的增长,用户查询需求更多,数据会迅速增长
数据仓库维护
数据增长的处理工作有:去掉没有用的历史数据; 根据用户使用的情况,取消某些细节数据和无用 的汇总数据,增加些实用的汇总数据。 正常系统维护:数据仓库的备份和恢复
m 1
m 商品类 商品类号 商品类名 部门号
1 1
m
m 存货 星期 商店号 商品号 数量
商品 商品号 商品名 商品类号
销售业务的多维数据
销售数据 商品 促销 时间
部门
城市
地区 商店 销售数据和维
19
E-R图向多维表的转换
20
该问题的多维表模型中,商品维包括部门、商品 和商品大类,地点维包括地区和商店,忽略存货, 而只注意销售事实。在E-R图中不出现的时间, 在多维模型中增加时间维。
数据仓库的基础构造元素分成两大类: 1、操作型基础构造 2、物理基础构造
技术路线
29
1、操作型基础构造 包括人员、流程、培训和管理软件。
2、物理基础构造 (1)计算机平台 硬件和操作系统 服务器硬件 数据库管理系统 (2)工具
应用路线
30
1、OLAP模型设计
(1)总体维度分析 确定与任务相关的所有维 定义维度的层次及名称 确定层次信息的位置 确定目标维 (2)主题的维度设计 (3)确定事实表度量变量和数据粒度 (4)定义OLAP模型
主键 销售员姓名 销售员所在区域 所在地区 包括公司收到的所 有订单 订单键 订单名称 参考产品主键
Salpers-ref
Order-Amount Order-Cost
integer
Num Num
15
8,2 8,2
参考销售员主键
销售额 订单成本
26
数据仓库设计的基本步骤
27
数据仓库运行与维护
概念模型设计 界定系统边界
捕获数据的方法
36
完全刷新
对移入DW的数据进行完全复制 经常变化
增量更新
捕获数据源中修改的数据 流水型增长、数据量大
对两者结合的数据先考虑增量更新,再考虑完 全刷新
数据转换
37
数据格式的修正 字段的解码 单个字段的分离 信息的合并 变量单位的转化 时间的转化 数据汇总
数据仓库开发过程
33
分析与设计阶段
数据获取阶段 决策支持阶段 维护与评估阶段
数据获取阶段
34
数据抽取
数据转换 数据装载
数据抽取
35
对数据源的确认,确定数据抽取技术,确认数 据抽取频率,按照时间要求抽取数据。 由于源系统的差异性,如计算机平台、操作系 统、数据库管理系统、网络协议等的不同造成 了抽取数据的困难。
6
第五章 数据仓库的建立和维护
第五章 数据仓库的建立和维护
7
数据仓库的开发
数据仓库的建立过程 数据仓库的开发方法
数据仓库的维护
提高数据仓库性能 数据仓库的安全性
数据仓库开发过程
8
分析与设计阶段
数据获取阶段 决策支持阶段 维护与评估阶段
数据仓 库评估
需求 分析
销售员维表
Salpers-Key Salpers-Name Territory Region 订单事实表 Order-Key Order-Name Product-ref integer char integer 10 20 10 integer char char char 15 30 20 20
在多维模型中,实体与维之间建立映射关系,联 系多个实体的实体就成为事实,此处销售实体作 为事实,其他实体作为维。然后用维关键字将它 转换为星型模型。
E-R图向多维模型的转换
商品维
地区维
时间维
部门 商品大类
地区 商店
年 月 周
日
商品
销售事实
21
22
在各维中,只有部门,商品类,地区,商店的 编号没有具体的说明。 为了打印报表将增加这些编号的名称说明,即 部门名、商店名等,在维表中增加这些说明, 即修改该星型模型
地区 地理位置键 地理位置名 地区号 地区名 商店号 商店名 级别号
商品 商品键 商品名 部门号 部门名 商品类号 商品类名 级别号
修改后的星型模型
24
物理设计
25
对逻辑模型设计的数据模型确定物理存储结构和 存取方法。
数据仓库的星型模型在计算机中仍用关系型数据 库存储。 物理设计还需要进行存储容量的估计;确定数据 存储的计划;确定索引策略;确定数据存放位置 以及确定存储分配。
数据装载
38
初始装载:第一次装入数据仓库
增量装载:根据定期应用需求装入数据仓库 完全刷新:完全删除现有数据,重新装入新的数据
数据仓库开发过程
39
分析与设计阶段
数据获取阶段 决策支Байду номын сангаас阶段 维护与评估阶段
决策支持阶段
40
信息查询
知识探索
信息查询
41
创建数据阵列 将相关的数据(每月的数据)放在同一个物理位置上。
时间 时间键 时间说明 日期 星期 月 年 级别号
销售事实 时间键 地理位置键 商品键 销售数量 销售单位
地区 地理位置键 地理位置名 地区号 商店号 级别号
商品 商品键 商品名 部门号 商品类号 级别号
利用维关键字制定的星型模型
23
时间 时间键 时间说明 日期 星期 月 年 级别号 销售事实 时间键 地理位置键 商品键 销售数量 销售单位
使用一些模型帮助决策分析,例如客户分段、欺诈监测、信用分险、客户生存期、 渠道响应、推销响应等模型。 通过模型的计算来得出一些有价值的商业知识。