当前位置:
文档之家› 数据仓储与数据挖掘讲义 第3章 数据仓库设计
数据仓储与数据挖掘讲义 第3章 数据仓库设计
维度表
维度表
详细类别表
图3-10 雪花模型示例
3. 事实星座模型
这种模型用于更为复杂的情况。它的中心不只 一个中心,而是由多个中心组成,即存在多个 事实表,而每个事实表拥有自己的一组维度表, 这些维度表又有可能共享一个事实表,形成一 个交叉,复杂的关系网络。但是这种模型在实 践中运用较少。
3.3逻辑模型设计 . 逻辑模型设计
从属型数据集市结构如图3-19所示
从属数据集市
图3-19 从属型数据集市结构
3.3物理模型设计 . 物理模型设计
定 义 数 据 存 储 结 构
RAID0 数据带状分布在多个磁盘上,无冗 余。 高性能,低成本,但磁盘损坏导致 整个磁盘整列无法使用。 RAID1 磁盘镜像,数据写入成对的冗余驱 动器。 可读性能高,可靠性高,昂贵。
3.1.3企业数据模型 . . 企业数据模型
抽 象 目标、结构 总 体
具 体
业务数据分类
分 步
概念数据模型
逻辑应用视图
物理数据库设计
图3-3分层数据模型
3.2概念模型设计 . 概念模型设计
3.2.l企业模型的建立 1.E-R模型的概念模型设计过程
对主题的选择进行调整
任务和 环境评 估
需求的 收集分 析
图3-1 现实世界到计算机世界的演化过程
现实世界
概念模型
逻辑模型 粒 度 模 型
物理模型
元 数 据 模 型
数据仓库
图3-2 数据模型关系
3.1.2数据仓库模型构建的原则 . . 数据仓库模型构建的原则
1.满足不同用户的需求 2.兼顾效率与数据粒度的需要 3.支持需求的变化 4.避免对业务运营系统造成影响 5.考虑未来的可扩展性
(4)来源于装载的数据
从数据准备文件到装载 映像的映射规则 为每个文件分配键 时的分配规则
完全刷新的计划
元数据
数据准备到装载映 像的审查跟踪
增量装载的计划
数据装载任务流
图3-26 从数据装载中收集元数据
(5)来源于存储的数据
集中式数据仓库和独立 数据集市数据模型 多个表组成的主 题区域
物理文件
元数据
RAID2 数据按位或块交错分布,校验码由 额外驱动器存储。 高性能,纠错一位,验错两位,昂 贵。
RAID3 数据按位或块交错存储,一个驱动 器存储校验数据。 对大块数据性能较高,不支持运行 恢复。
RAID4 数据按扇区交错存储,校验数据由 专门驱动器存储。 处理多个系统的I/O操作,两个驱 动器。
存储分配优化
1.设定正确的块大小 2.设置适当的块使用参数 3.数据迁移管理 4.块使用管理 5.解决动态扩展 6.采用文件分带技术
数据加载设计
数据仓库要求的一个重要技术就是能高效地载 入数据。有两种方式:通过一个语言接口一次 载入一条记录或使用一种工具全体批量地装入。 注意,在装载数据时,索引也必须随之装入。 若数据装载的容量负荷太大的情况下,可以采 用并行装载。它将数据分为几个工作流,这样 所需时间就大大降低。此外,还有一种高效装 载方法是在装载前先对数据进行缓冲处理。这 种方法一般在数据量大且复杂程度高的情况下 使用。
3.4.l元数据的类型 . . 元数据的类型
按照不同的依据对元数据分类各不相同,可有 以下的分类依据: 元数据描述的内容 用户的角度 元数据在数据仓库中承担的任务 数据仓库功能区域划分
3.4.2元数据的作用 . . 元数据的作用
1.元数据在数据求精,开发,重构中的作用 (1)描述业务规则与数据之间的映射。 (2)数据分割。 (3)概括与聚集。 (4)提高系统灵活性。 (5)定义标准处理的规则。 (6)预算与推倒。 (7)转换与再映射。
3.4元数据模型 . 元数据模型
为了让读者能更准确的了解什么是元数据,我们用下 例进行说明,它定义了数据仓库中的一个表,如表3-3 所示。
表3-3 元数据举例 Table 逻辑名 定义 物理存储 建立日期 最后更新日期 更新周期 表逻辑程序名 学生 学校的主要成员,主要进行学习任务 Student.table(数据库表) 2006年9月13日 2007年9月13日 每月 STUDENT(程序名称)
RAID5 数据按扇区交错存储于多个驱动器。 不需专门的校验驱动器,需要两个 或三个驱动器,写入能力弱。
图3-20 RAID 技术
索引策略
20020701001-20020701050 20020701051-20020701100 20020701001-20020701025 20020701026-20020701050 20020701051-20020701070 20020701071-20020701100
3.3.3维度表的设计 . . 维度表的设计
维度表的设计是对事实表的进一步细化。它也要根据 逻辑模型来设计。每个事实表都需要大量的数据来对 其属性和细节进行详细说明,而维度表就是将这些详 细说明的数据按其逻辑关系存放的工具。一个维度表 拥有很多属性,这些属性可以是文字,离散值和有规 定的限制,在分析过程中可以作为信息的行标题。 需要注意的是,在设计事实表和维度表之间的关系时, 尽量让维度表中的数据直接参考事实表中的数据,而 不是通过其他维度表间接参考事实表。这样,可以最 小化表之间的连接数量,减少系统CPU和I/O通道及 存储设备的负担。
3.3.4事实表的设计 . . 事实表的设计
事实表是星形模型的核心。它一般包含两部分: 键和详细指标。其中,键又分为主键和外键, 它们将各维表组织起来,共同满足用户的查询 需求,而详细指标则是记录在事实表中的具体 数据,供查询使用。
3.3.5数据集市设计ቤተ መጻሕፍቲ ባይዱ. . 数据集市设计
独立数据集市
用户 图3-18 独立型数据集市结构
主题选取, 确定主题 间关系
容描述 主题内
E-R 图
图3-4 E-R模型的概念模型设计过程
2.E-R模型设计中的一些说明 (1)模糊性:无法表述数据仓库中各数据间的关系,比 如:分析数据,描述数据和细节数据间的关系; (2)静态性:时间参数的存在及作用无法体现; (3)局限性:无法揭示数据仓库中数据的导出关系。 为了规避这些不足,在E-R图法中,实体被分为事实实体 (Fact Entity),维度实体(Dimension Entity),引用实体 (Quotation Entity),用图3-5中的图形分别表示:
20020701001 20020701002 ……
20020701026 20020701027 ……
20020701051 20020701070 ……
20020701071 20020701072 ……
20020701026——地址 20020701027——地址 ……——地址
指向数据行的指 针
第3章 数据仓库设计 章
3.l数据仓库中数据模型概述 . 数据仓库中数据模型概述
3.1.1数据模型的概念
现实世界 概念世界 个体 特性 整体 整体间联系 逻辑世界 实体 属性 同质总体 异质总体 计算机世界 记录 字段 表文件 数据库
Grace Female Students Students &Courses
图3-21 B-TREE索引示例
数据存储策略
物理模型设计过程中,要注意考虑数据存储。 因为,数据仓库不要求把同一主题的数据放在 同一介质上,所以我们可以根据数据的重要程 度,使用频率和响应时间来存放数据,一般而 言,将那些重要程度高,使用频率高和响应时 间要求高的数据存放在高速存储设备上,比如: 硬盘,而其它的数据则可以放在低速存储设备 上,比如磁盘等。
程序规范
元数 据
物理文件布 局及字段定 义
外部数据来源的 文件布局和字段 定义
其他来源(如: 电子表格)
图3-23 源系统中元数据收集
(2) 来源于抽取的数据
源平台的 数据和连 接 所选择的数据 源的布局和定 义 每个平台上初始 抽取文件的合并 准则
用于抽取 的字段定 义
元数据
标准化字段类 型与长度的规 则
关系规范范式: 关系规范范式:1NF\2NF\3NF,反规范化处理,P87-88 ,反规范化处理,
3.2.3常见的概念模型 . . 常见的概念模型
1.星形模型
维度表 维度表
维度表
事实表
维度表
维度表
维度表
图3-8 星形模型结构示意图
2.雪花模型 雪花模型
维度表 详细类别表 维度表
维度表
事实表
维度表
统一化数据集市 数据模型
表和列定义
有效性检查的商业规则
图3-27 从数据装载中收集元数据
(6)来源于信息传递
预定义查询和报表的 列表 查询和报表工具 列表
为 OLAP 检 索 数 据的计划
元数据
特 殊 OLAP 数 据 库德数据模型
图3-28 从数据装载中收集元数据
2.元数据的维护 (1)元数据的存储 (2)元数据的管理 (3)元数据的维护
3.5数据仓库的粒度模型 . 数据仓库的粒度模型
3.5.l粒度的划分 所谓粒度是指数据仓库中数据单元的详细程度 和级别。在数据仓库环境中主要是分析型处理, 粒度的划分将直接影响数据仓库中的数据量以 及所适合的查询类型。一般需要将数据划分为: 详细数据、轻度综合、高度综合三级或更多级 粒度。不同粒度级别的数据用于不同类型的分 析处理。粒度的划分是数据仓库设计工作的一 项重要内容,粒度划分是否适当是影响数据仓 库性能的一个重要方面。
2.元数据在数据抽取,转换中的作用 (1)确定数据来源。 (3)实现属性间的映射与转换。 (2)保证数据仓库中内容的质量。
3.4.3元数据的收集与维护 . . 元数据的收集与维护
1.元数据的收集 (1)来源于源系统
COBOL写字 板及控制块 规范 系统文档的 数据元素定 义 操作型系 统数据模 型