企业数据仓库概念模型设计
数据源
数据准备区
数据仓库
数据集市
用户
外部数据 操作型系统业务数据
文档资料数据
元数据
概要数据
原始数据
采购 销售
图 1 数据仓库概念结构
库存
查询工具 报表工具 分析工具 数据挖掘工具
— 145 —
科技信息
计算机与网络
3. 数据仓库的数据组织结构 数 据 仓 库 中 的 数 据 存 在 于 不 同 综 合 级 别 , 将 其 称 之 为“ 粒 度 ”。粒 度 越 粗 , 表 示 的 细 节 程 度 就 越 低 , 综 合 程 度 就 越 高 。历 史基本数据经过综合后, 首先进入当前基本数据, 并根据具体 需要进行进一步的综合, 然后进入轻度综合级乃至高度综合 级。 数据仓库中还有一部分重要的数据是元数据。元数据是 “ 关 于 数 据 的 数 据 ”, 整 个 数 据 仓 库 的 组 织 结 构 都 是 由 它 来 组 织的, 用来对数据仓库中的各种数据进行详细的描述与说明,
科技信息
计算机与网络
企业数据仓库概念模型设计
陕西财经职业技术学院 曾贵荣 马勇
[ 摘 要] 计 算 机 应 用 于 企 业 管 理 先 后 经 历 了 MR P 、闭 环 MR P 、MR PⅡ 和 ER P 四 个 阶 段 , 目 前 正 向 基 于 数 据 仓 库 技 术 的 智 能协同商务系统方向发展。数据仓库就是为了满足企业对海量历史数据处理分析的决策支持应运而生的信息新技术。本文首 先探讨了数据仓库的基本理论, 然后讨论了企业数据仓库数据组成结构及组织方式, 最后设计出了面向企业销售主题的数据仓 库概念模型。
表 2 面向主题的数据组织
主题
信息类
数据字段
销售信息
产品固有信息 销
客户固有信息 售
时间信息
员工固有信息
时 间 编 号 、客 户 编 号 、产 品 编 号 、员 工 编 号 、销 售 金 额 、销 售 数 量 , …… 产 品 编 号 、产 品 名 称 、产 品 类 别 、单 价 , …… 客 户 编 号 、客 户 名 称 、地 址 、所 在 市 、所 在 县 、电 话 , …… 时 间 编 号 、年 度 、季 度 、月 、日 , …… 员 工 编 号 、员 工 姓 名 、性 别 , ……
“ 雪 花 模 式 ”是“ 星 型 模 式 ”的 扩 展 , 它 将 星 型 模 式 的 维 表 进一步层次化, 把维表中的数据分解到附加表中, 以提供更加 细化的深层次维度, 如图 4 所示。
customer
time
customer
time
Sales_fact
Sales_fact
store production
( 2) 面 向 销 售 主 题 的 数 据 仓 库 概 念 模 型 按照数据仓库的数据组织方式, 应该以企业原有的信息 系统数据平台为基础, 结合企业各种分析领域的实际需求抽 取出包含有各自独立的逻辑内涵的主题, 并且确定每一个主
题 所 应 该 包 含 的 数 据 内 容 , 将 其 对 应 为 一 个 分 析 对 象 。在 企 业 的经营销售子系统中主题应该是销售, 其主题的数据组织如 表 2 所示, 数据关系如图 6 所示。
高度综合级
2001 年—2006 年 周销售情况
轻度综合级
2001 年—2006 年 月销售情况
元
数
据
2001 年—2006 年
当前基本数据
年销售情况
历史基本数据
1996 年—2001 年 销售情况
图 2 数据仓库数据组织结构
4. 数据仓库的数据组织方式 数 据 仓 库 的 数 据 组 织 有 两 种 方 式 , 一 种 是 通 过“ 维 度 - 事 实 ”表 的 方 式 组 织 , 另 一 种 是 基 于 多 维 的 超 立 方 体 结 构 来 组 织 数 据 。通 过“ 维 度 - 事 实 ”表 的 方 式 组 织 数 据 的 方 式 可 以 以“ 星 型 模 式 ”( star schema) 或 者“ 雪 花 模 式 ”(snowflake schema)存 在 。 “ 星 型 模 式 ”的 数 据 模 型 有 一 个“ 事 实 ”表 和 多 个“ 维 度 ”表 构 成, 事实表包含数字数据事实, 而这些数字数据可以汇总, 以提 供有关单位作为历史数据。维度表包含描述事实数据表中事实 记录的特性, 它包含的列可用于将信息分为不同的层次结构级,
其成员会按照金字塔形布局排列, 水平布局有维度层次结构中 具有相同级别的列的列值构成, 而垂直布局由维度层次结构中 具 有 不 同 级 别 的 列 值 构 成 。 例 如 , 图 3 中 Sales_fact 表 是 一 个 反 映 某 个 商 场 销 售 情 况 的 事 实 表 , 其 它 表 分 别 从 时 间 、地 点 、客 户 、 商 品 、 促 销 的 角 度 来 描 述 Sales_fact 表 的 每 一 行 数 据 发 生 的 背 景 , 它 们 就 是 与 Sales_fact 事 实 表 相 关 联 的 维 度 表 。
说明每个数据的上下文关系, 使每个数据具有符合现实的真 实 含 义 , 使 最 终 用 户 了 解 这 些 数 据 之 间 的 关 系 。它 的 作 用 可 以 归纳为: 定位数据仓库的目录; 解决面向应用的操作型环境和 数据仓库的复杂关系。从面向应用的操作型数据环境到数据 仓库环境的转换是很复杂的, 元数据包括对这种转换的描述, 即 包 含 了 所 有 源 数 据 项 名 、属 性 及 其 在 数 据 仓 库 中 的 转 换 ; 指 导从当前基本数据到轻度综合级, 轻度综合级到高度综合级 的综合算法选择。可以将数据仓库的数据组成表示为如图 2 所示的结构。
( 3) 时 变 的 数据仓库中的数据是随着时间的变化而发生变化的。尽 管数据仓库中的数据不像事务处理系统中的数据需要随时反 映业务处理后数据的变化, 但是数据仓库中的数据也不是不 变的, 它需要随时捕获事务处理系统中变化了的数据, 将那些 变化了的数据追加到数据仓库中, 在数据仓库中不断的生成 事 务 处 理 数 据 库 的 快 照 , 以 满 足 决 策 对 数 据 信 息 的 需 要 。数 据 仓库中数据的变化还反映在数据的删除上, 数据仓库中的数 据如果超出了规定的期限, 就会被自动删除。 ( 4) 非 易 失 性 数据仓库中的数据不像事务处理系统中的数据那样需要 进行频繁的更新, 它里面的数据大多都是历史数据, 在进入数 据仓库之前已经经过加工和集成, 很少需要修改, 主要用来进 行分析决策。 2. 数据仓库的概念结构 数 据 仓 库 包 含 数 据 源 、数 据 准 备 区 、数 据 仓 库 数 据 库 、数 据 集 市 、知 识 挖 掘 库 以 及 各 种 管 理 工 具 和 应 用 工 具 , 如 图 1 所 示。数据仓库创建后首先从数据源中抽取所需要的数据到数 据准备区, 在数据准备区中对数据进行必要的处理, 再加载到 数据仓库数据库中, 最后根据用户的需求将数据发布到数据 集 市 、知 识 挖 掘 库 中 。当 用 户 使 用 数 据 仓 库 时 , 可 以 通 过 OLAP ( Online Analytical Processing) 等 数 据 仓 库 应 用 工 具 向 数 据 集 市 、 知识挖掘库进行决策查询分析或者知识挖掘。
表 1 经营销售子系统数据库子系统模式名称源自属性经订单
订 单 编 号 、客 户 编 号 、员 工 编 号 、日 期 , ……
营
订单明细
订 单 编 号 、产 品 编 号 、单 价 、数 量 、折 扣 ……
销
产品
产 品 编 号 、产 品 名 称 、产 品 类 别 编 号 、单 价 、库 存 量 ……
售
子
产品类别
时间信息
时间编号
年度
1
季度
月
日
n
……
n 产品固有信息
产品编号
产品名称
产品类别
1
单价
……
销售信息
时间编号
客户编号
产品编号
员工编号
n
销售金额
销售数量 n
……
图 6 面向主题数据关系图
客户固有信息
客户编号
1
客户名称
客户地址
所在市
所在县
电话
……
员工
员工编号
员工姓名
性别
1
出生日期
授雇日期
电话
……
结论 企业采用数据仓库可以帮助企业利用历史数据以及外部 信 息 辅 助 决 策 分 析 , 提 高 了 企 业 的 信 息 共 享 度 和 集 成 度 。企 业 数据仓库建立是一项庞大的系统工程, 需要在企业原有信息 系统基础之上, 对企业业务层和数据层进行彻底的再思考和 综合的分析, 从而建立适合企业决策分析的数据仓库。
产 品 类 别 编 号 、类 别 名 称 、产 品 说 明 、……
系
客户
客 户 编 号 、客 户 名 称 、客 户 地 址 、所 在 市 、所 在 县 , ……
统
员工
员 工 编 号 、员 工 姓 名 、性 别 、出 生 日 期 、授 雇 日 期 、电 话 , ……
— 146 —
科技信息
计算机与网络
production
store
production
production
production_class
图 3“星型模式”
5. 面向销售主题的数据仓库概念模型 ( 1) 原 始 数 据 组 织 企业已经建立了自己的面向事务处理的信息系统数据
图 4“雪花模式” 库, 其中经营销售子系统的数据库模式如表 1 所示, 各个模式 之间的联系如图 5 所示。
n
产品
产品编号
1
产品名称
产品类别编号
n
单价