当前位置:文档之家› 数 据 仓 库 设 计

数 据 仓 库 设 计

提高系统的物理I/O性能
粒度划分
——细节级、轻度综合级、高度综合级 数据分割 ——分割的标准:时间、业务领域、地理分布 物理设计中的其他问题 —表合并 —引入冗余 —建立广义索引 —建立数据序列 —表的物理分割 —生成导出数据
粒度划分
粒度划分的决定性因素是表的总行数 数据存取是通过存取索引来实现的,索引是对应 表的行来组织的。因此与表的数据量无关。 估算数据仓库中数据的行数 对每一已知表 统计一年内数据行数的最大行数和最小行数; 统计五年内数据行数的最大行数和最小行数。 根据估算出的数据行,决定是否要划分粒度
建立广义索引
处理最值问题的方法——广义索引。
这个月销售最差的十种商品是什么? 从操作型数据库抽取数据并装载到数据仓库的同 时,根据用户需要建立广义索引。
数据序列
1 3 6
1 2 3 4
6
5
4 7
2
5 7
物 理 块 1
物 理 块 2
物 理 块 3
物 理 块 1
物 理 块 2
表的物理分割
“数据分割”——表的逻辑分割。 将一个表按一定的分割标准分成两个或多个表。
数据仓库 面向分析 不确定的分析需求
数据分析需求的收集、分 析和理解一般贯穿整个系 统设计过程。
事务处理性能
数据的全局一致性
数据来自于组织外部
数据获取;存储数据; 数据查询;数据更新; 数据安ຫໍສະໝຸດ ;数据有效。数据来自于系统内部
数据转换、重组、综合; 数据分析效率、准确性。
1.2 SDLC与CLDS
SDLC——操作型环境中,业务过程和规则比较
OLAP的旋转功能
平面数据的坐标轴转换。
1999 服装
家具
66005 69000 -2995 -4.3
汽车
其它
现有
销 售 量 计划 差量 差量%
381102 350000 31102 8.9
325402 306677 300000 350000 25402 -44322 8.5 12.7
1999 销售量 现有 服装 计划 差量 31102 差量% 8.9 381102 350000
DSS应用 开发与设计
2 数据仓库设计的三级数据模型
概念模型 现实世界到机器世界的中间层次——信息世界 E-R法(实体-联系法) 逻辑模型 关系模型
数据模型——对现实世界进行抽象的工具。
物理模型 逻辑模型在数据仓库中的实现。 物理存取方式、数据存储结构、数据存放位置 以及存储分配等。
3 提高数据仓库的性能
家具
汽车 所有其他
66005
69000
-2995
25402
-4.3
8.5 12.7
325402 300000
306677 350000 -44322
数 据 仓 库 设 计
1.1 系统设计的差异
操作型数据库 面向应用 确定的应用需求
应用需求的收集和分析在 系统设计前期确定;一旦 确定,一般不再改变。
应用1
应用B
收集应用需求 分析应用需求
应用C
DB
外部数据 数据仓库建模
DB
数据获取与集成 构建数据仓库 DSS应用编程
DB
构建数据库 应用编程
DW
系统测试
系统实施
系统测试
“数据驱动”
理解需求
SDLC方法
CLDS方法
1.3 “数据驱动”的系统设计 思路
识别出当前系统设计与已做工作的共同
性;
——出发点
表的物理分割 依据数据的存取频率和数据的稳定性来进行; 将一张表按照各属性被存取的频率分成两个或 多个表。
生成导出数据
事先在原始数据的基础上进行总结或计算,生
成导出数据。 ——减少了I/O的次数,免去计算和汇总的步骤; ——建立了公共数据源,避免了不同用户进行 重复计算可能产生的偏差。
4 数据仓库设计步骤
1确定存储结构
据 仓
1 设 计
2 数 据
技术准备工作
1技术评估 2技术环境准备
2数据分割策略 3关系模式定义 4记录系统定义
一年105行左右 一年106行以上 五年106行左右 五年107行以上
细节级、综合级 细节级、轻度综合级、高度综合级 细节级、综合级 细节级、轻度综合级、高度综合级
表合并
当查询涉及到分散在几个物理块的多个表
的数据,表的存取和连接操作会影响系统 的性能。
为了节省I/O开销,可以把这些表的数据
规范和固定。系统设计人员能够清晰地了解应用 的需求和数据流程,系统的设计一般采取系统生 命周期法 (Systems Development Life Cycle) 。
CLDS——分析型环境中,DSS分析对决策分析
的需求不能预先作出规范说明,只能给设计人员 一个抽象模糊的描述。设计人员必须在与用户不 断的交流中,将系统需求逐步明确与完善。为了 强调这种开发的不确定型,将此设计方法定名为 CLDS方法(与SDLC相反)。
从已有数据库系统出发,按照分析领域
对数据及数据之间的联系重新考察,组 织数据仓库中的主题;
利用数据模型有效识别原有数据库中的
数据和数据仓库中主题的数据的共同 性。 ——中心
数据驱动系统设计方法的中心——数据模型
操作型数据库设计 数据仓库设计
数据仓库 数据库 数据模型
操作型数据库 应用开发与设计
混合存放在一起。
表的合并只是物理上的合并,并非逻辑上
的合并
学生选课表SC
学生表C 学号 S# S1 姓名 N A 系别 D CS 学号 S# S1 S1 课程号 C# C1 C3 成绩 G# A B
S1
S2 S2 S3 S3
C4
C1 C4 C1 C2 S2B
A
B B B C S2C1B
S2
S3
数据驱动的系统设计方法 设计步骤
—概念模型设计 —技术准备工作 —逻辑模型设计 —物理模型设计 —数据仓库生成 —数据仓库运行与维护 实例:商店的数据仓库设计
数据仓库运行与维护
概念模型设计 分析主题域,针对每一个当前实施的主题域
1界定系统边界 2确定主题域
逻辑模型设计
1粒度层次划分
物理模型设计 数
B
C 物理存储块 S1A S3C
MA
EN
S2C4B
S1C1A SAC3B S1C4A S3C1B S3C2C
引入冗余
一些表的某些属性经常会被使用到,且不常更
新,就可以将这些属性复制到多个表中,从而 减少处理时被存取的表的个数。 商品固定信息表(商品号、商品名、类别… ) 商品销售表(商品名、销售量、销售日期… ) 商品销售表(商品名、商品名、类别、销售量、 销售日期… )
相关主题