当前位置:文档之家› 第二章数据仓库开发模型

第二章数据仓库开发模型


来描述 ——高层模型(E-R图)、中层模型
(逻辑层)和底层模型(物理层)。但要注
意两者之间的差异:
➢ 数据类型的差异
DW中不包含操作型数据,只包含用户感
兴趣的分析数据(如,商品的销量、企业的
利润等)、描述数据(如,销售时间、地点)
第二章数据仓库开发模型
以及细节数据(如,所销售商品的详情、客 户详情等)。 ➢ 数据的历史变迁性
第二章数据仓库开发模型
•CH
进而,实际应
2
用中,会有大量数
据载入订单实体,
其他实体只有少量
数据载入——因此
需要一种有别于传
统ER图的数据模型
来描述某个实体需
载入大量数据的结
构——星形模型就是这样的模型之一。
第二章数据仓库开发模型
•CH
一个星形模型包含一个对应于某个主题 2 的事实表和若干个非正规化描述事实的维表。 星形模型具有以下特性:
•CH
§3 逻辑模型
2
逻辑模型是三层模型中的中层模型,它
是对高层模型(概念模型)的细化,如下图。
第二章数据仓库开发模型
•CH
① 逻辑模型的基本结构
2
逻辑模型有四种基本结构:基本数据组、
二级数据组、连接数据组和类型数据组。
第二章数据仓库开发模型
•CH
基本数据组
2
其中存在着唯一的主要主题域。基本数 据组在每个主题域中只出现一次,包含属性 和键码。
最近信用发生时间 date 8,……)
第二章数据仓库开发模型
•CH
B.事实表中的事实特性
2
➢ 事实指标的可加性;
完全可加性,半可加性,非可加性
➢ 派生事实
可加性的派生事实,不可加性的派生事实
总之,事实表是DW中的最大表,要尽可 能设计得小(思考:哪些方法?),同时还 要考虑数据的精度和粒度。
第二章数据仓库开发模型
第二章数据仓库开发模 型
2020/12/10
第二章数据仓库开发模型
•CH
§1 引言
2
创建DW时,需用各种数据模型对DW进行
描述。DW的开发者依据这些数据模型,才能
开发出一个满足用户需求的DW。
为了使开发人员能够将注意力集中在数
据仓库开发的主要部分,模型要有很好的适
应性,更易于修改,且,当用户的需求改变
客户基本情况表(账号 int 9,姓名 ch 12,客户类型 ch 20, 初次交易时间 date 8,……)
客户变动情况表(账号 int 9,住址 ch 50,文化程度 ch 10, 电话 int 11,邮政编码 ch 6,……)
第二章数据仓库开发模型
•CH
➢ 客户交易事实表
2
商品交易情况表(账号 int 9,商品编号 ch 10,
称 述 式 据 系成 源 引 别







动态元数据
入更数统状处存存引
库新据计态理储储用
时周质信
位大处
间期量息
置小
第二章数据仓库开发模型
•CH
② 元数据的作用
2
A.元数据的重要性
➢ 导航(DW的使用);
➢ 描述并记录数据从业务系统的操作型
环境到DW的转换,以便利用其(灵活地、可
变地)管理数据的转换以及进行数据回溯等。
② 反规范化处理
2
业务处理系统中的数据库设计,是以规 范化数据模型为目标的,如,RDBMS中的3NF 等,规范化数据模型具有存储的高效性和灵 活性的特点。
数据仓库中,若仍采用规范化数据模型 的话,就会存在一系列“小”表,在进行大 量的数据处理时,会频繁地与这些小表进行 动态连接,从而产生大量的I/O操作。
第二章数据仓库开发模型
•CH
③ 星形模型
2
• 仅从概 念设计的角度 来看,右图给 出了一个简单 的ER图,其中 的•五个实体相互间是平等关系。 然而,从管理 决策的角度看,这五个实体绝对不会是“平 等关系”,例如,决策者真正关心的是“订 单”,其他实体(供应商、产品、客户等) 只是针对“订单”的诸多说明。
关维的一个点对应,是管理人员衡量业务好
坏及其处理难度的基础。
第二章数据仓库开发模型
•CH 2
随着时间的推移,以及数据仓库需求的 变化,指标实体中的数据量会日益膨胀,因 此,指标实体是数据仓库管理的重点。
其主要特性如下:是分析中心,提供基 本数据;包含多个数据访问路径;包含标准 数据;能扩充成很大的表——以容纳日益增 长的数据。
时,仅对模型做出相应的变化就能反映这个
改变。
第二章数据仓库开发模型
•CH 2
模型是对现实世界进行抽象的工具。 信息管理中,需要将现实世界的事物及 其有关特征转换为信息世界的数据才能对信 息进行处理与管理,这就需要依靠数据模型 作为这种转换的桥梁。 上述的转换一般需要经历从现实到概念 模型,从概念模型到逻辑模型,从逻辑模型 到物理模型的转换过程。
元数据是DW的重要构件,是DW的指示图。 一般,元数据的来源有: ➢ 数据源的元数据; ➢ 数据模型的元数据; ➢ 数据源与数据仓库映射的元数据; ➢ 数据仓库应用的元数据。
第二章数据仓库开发模型
•CH
① 元数据的类型与组成
2
元数据通常分为静态元数据和动态元数据
两类,其组成如下表所示:
静态元数据
名 描 格 数 关生 来 索 类 域 业
二级数据组
基本数据组中,有一组链接指向二级数 据组,表示主要主题域所具有的属性,有多 少个属性就有多少个二级数据组。
第二章数据仓库开发模型
•CH
连接数据组
2
用于本组主要主题域与其他主要主题域 间的关联,体现了概念模型中实体间的联系。 一般,它是一个主题的公共码主键。
类型数据组
用于指明数据的类型,主要有超类型和 子类型两种。
•CH
④ 维模型设计
2
维,是人们观察某个数据集合的特定角 度,是以对数据某个共性的提取为前提的。 例如,前例中,可设计出客户主题的维表模 型如下:
时间维表(年 date,月 date,日 date); 地点维表(省 ch 20,市 ch 20,县 ch 20,街道 ch 20); 交易维表(现金交易 ch 20,信用交易 ch 20)
➢ 管理数据,包括:粒度划分、数据分 割、索引;不同时期的数据内容及形式;主
题的增加及删除——这些管理工作均需在元
数据中有相应的描述。
第二章数据仓库开发模型
•CH
B.元数据在DW开发期间的作用
2
➢ DW的应用管理,比如,捕获数据转化、 净化、概括、聚集的规则(商业规则与处理
规则)等;
➢ 向用户提供大量的数据关系;
➢ 逻辑模型设计中,DW开发者关心的是DW结 构的完整性——数据仓库中的所有数据元素 都应该包含在逻辑模型中ຫໍສະໝຸດ —至于如何获取 数据,在此并不感兴趣。
第二章数据仓库开发模型
•CH
③ 事实表模型设计
2
A.事实表的设计
确定了中层模型之后,就要设计事实表
模型了。例如,根据上例,可以设计出以下
事实模型:
➢ 客户事实表
关于维的讨论,将在OLAP一章进行。
第二章数据仓库开发模型
•CH
§4 物理模型
2
•RAID是“Redundant Array
所谓物理模型,就o写f是,In中中de文p层e意n(d思en是逻t独D辑i立s)k冗”余模的磁缩型盘
(包括事实表和维表)阵的列。物理实现。具体包
括以下内容:
➢ 确定存储结构(一般用RAID);
第二章数据仓库开发模型
•CH
详细类别实体
2
与现实世界的某一实体(一个客户/一个 产品/一个销售点)对应,为用户提供更为详 细的分析数据。
其主要特性为:含参考数据及有助于完 成指标数据职能的支持信息;与事务结构有 映射关系;是标准的数据结构;数据量比指 标实体少,比维实体多。
第二章数据仓库开发模型
•CH
业务处理系统中,一般只包含当前数据 而不含历史数据;
数据仓库中,为了反映出组织的历史变 迁、业务的发展等,需要增加时间属性进行 描述(即把时间作为关键字的一部分)。
第二章数据仓库开发模型
•CH
➢ 数据的概括性
2
为了提高使用的性能,往往在数据仓库 中增加一些由基本数据导出的衍生数据,它
们在业务处理系统中是不存在的。
➢ 了解数据环境、数据的使用频度、使 用方式、数据规模以及响应时间要求等—— 平衡、优化时间和空间效率的重要依据;
➢ 了解外部存储设备的特性,如分块原 则,块大小的规定,设备的I/O特性等。
第二章数据仓库开发模型
•CH
§5 元数据模型
2
DW中元数据定义了许多对象——表、列、 查询、商业规则以及DW内部的数据转移等。
第二章数据仓库开发模型
•CH 2
反规范化处理,就是为了减少I/O次数而 把上述的诸多“小”表合并在一起的处理方 法。
可见, 反规范化处理是以增加数据的冗 余为代价来减少I/O次数的——由于数据仓库 中要进行海量的数据处理,因此,这种以 “空间换时间”的尝试,在数据仓库应用中 是值得的,也是易于被用户所接受的。
物的描述,包括:记号、内涵、外延,其中
记号和内涵(视图)最具实际意义。
和业务处理系统一样,数据仓库构建过 程中,也可以用E-R图来表示概念模型——这 样做的直接好处是,数据仓库与业务处理系 统能够得到很好的协调。
第二章数据仓库开发模型
•CH
① 改进的E-R图
2
与业务处理系统中的数据库概念设计一
样,数据仓库也可以用三个层次的数据模型
为此,对传统的E-R图进行了一些改进:
相关主题