数据仓库及其案例介绍
Shenzhen Hirisun Technology Incorporated
IBM数据仓库解决方案
Shenzhen Hirisun Technology Incorporated
Oracle解决方案
数据获取
源数据
中调 实时 接口
电量数据
人力资源
电厂KPI
……
电厂KPI
环保数据
……
中间库
RDATA MDATA
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
数据集市
人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即 “自顶向下”的方法。但在开发的过程中会出现以下问题。
时间相关的、不可修改的数据集合。 与其他数据库应用不同的是,数据仓库更像一种过程,对分
布在企业内部各处的业务数据的整合、加工和分析的过程。
Shenzhen Hirisun Technology Incorporated
企业管理与决策
数
据
决策信息
分析型(战略)数据
范
(辅助决策) 分析型(战略)应用
高层
数据仓库及其案例
张千福 zhangqianfu@
Shenzhen Hirisun Technology Incorporated
目的
➢ 掌握数据仓库的基本概念和数据中心的体系架构。 ➢ 掌握有关商业智能和数据仓库的重要术语 ➢ 了解数据中心建设过程 ➢ 了解公司数据仓库项目重要案例
Sales Table
Time_id Product_id Market_id Scenario
Dollars Units Discount%
"Fact Table"
Market Table
Market_id Market_Desc
MOLAP将OLAP分析所用到的多维数据物 理上存储为多维数组的形式,形成“立方 体”的结构。维的属性值被映射成多维数 组的下标值或下标的范围,而总结数据作 为多维数组的值存储在数组的单元中。
Shenzhen Hirisun Technology Incorporated
OLAP分类
OLAP
按照存储方式
Shenzhen Hirisun Technology Incorporated
星型模式(Star Schema)
Period Table
Time_id Period_Desc Quarter Year
"Dimension Table"
Product Table
Product_id Product_Desc Brand Size
EHR KPI
数据存储
数据展现
数据转换 粤电数据仓库
信息展现
OWB
抽取 转化 过滤 加载
Oracle 9i
关型模型
元
立方体
数
据
挖掘
转换
Report
Portal
报表
粤电用户
随即查询
BI Bean
多维分析
Discoverer KPI分析
应用 服务器
粤电用户
数据管理
OEM
页面集成
直接用户 (开发人员)
Shenzhen Hirisun Technology Incorporated
– 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标
存在的问题:
数据集市的数据都是可用的吗? 能生成数据模型吗? 如何解决不一致性?
操作数据 (全局) &
外部数据
操作数据 (局部)
操作数据 (局部)
数据集市
数据集市
企业数据仓库
Shenzhen Hirisun Technology Incorporated
− 1973年加州大学伯克利分校开发出关系数据库系统Ingres。后来由Oracle公司、 Ingres公司等厂商商品化。
− 在20世纪70年代提出了决策支持系统概念。在1970年, 联机分析处理工具—— Express诞生了。 1980年明确了其部件结构(对话部件、数据部件、模型部 件)。
− 1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语— 信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H. "Bill" Inmon出版《如何构建数据仓库》。
Shenzhen Hirisun Technology Incorporated
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
历史沿革
计算机数据管理的历史:
− 1961年通用电气开发出网状数据库管理系统— 集成数据存储(Integrated DataStore IDS)。1968 年IBM 公司开发出层次数据库的IMS (Information Management System)。1970年关系模型建立。IBM研发全功能关系DBMS — System R。
构建数据仓库--自顶向下
– 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据
– 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性
操作数据
外部数据
问题
投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ?
OLTP与OLAP
数据处理系统可以分成两大类: 联机事务处理OLTP(on-line transaction processing):OLTP是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如 银行交易、电力营销系统。 联机分析处理OLAP(On-Line Analytical Processing):OLAP是数据 仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提 供直观易懂的查询结果。 OLAP的目标是满足决策支持或多维环境特 定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也 可以说是多维数据分析工具的集合。数据仓库的核心是联机分析处理。
围
决策人员
管理信息 (数据分析)
基础数据 (统计查询)
分析型(战术)数据 分析型(战术)应用 企业级操作型数据 企业级操作型应用
操作型数据 操作型应用
中层 管理人员
基层 业务人员
数据Sh汇enz总hen粒Hi度risun Technology Incorporated
数据仓库的特点
➢ 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织的。
Shenzhen Hirisun Technology Incorporated
数据仓库与OLAP
数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
➢
-概括来说,数据仓库系统是指具有综合企业数据的能力,能够对
大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
它本身包括三部分内容:
− 把数据仓库、联机分析处理、数据挖掘、模型库、数据库、知识库结合起来形 成综合决策支持系统(Synthetic Decision Support System, SDSS)是今后的 发展方向。
Shenzhen Hirisun Technology Incorporated
数据仓库的概念
[William H.Inmon]: 数据仓库是在企业管理和决策中面向主题的、集成的、与
3. 维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间 维上位置的描述)
4. 多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变 量)。(时间,地区,产品,销售额)
5. 度量(数据单元,单元格):多维数组的取值。(2000年1月,上海,笔记本电脑 , $100000)
物资
产品
使用产品信息
客户
资产信息
物资相关部门
资产
资产设备
设备管理人员 招投标信息
设备
电网所属的组织
物资项目信息 项目信息
人员组织
客户所属的组织信息
项目所属 组织信息
员工薪水
项目
核算对象
客户设备信息
组织相关指标 电网提供产品
核算对象
交易产品
综合
参与市场交易 的组织信合息同信息
项目账目信息
计划、统计
财务
➢ 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。
➢ 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保 留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很 少,通常只需要定期的加载、刷新。
(1)如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。 (2)在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的—个难 题。 (3)各个部门希望能定制数据仓库中的数据,但数据仓库是面向企业的。
Shenzhen Hirisun Technology Incorporated
用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖
的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主 题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析 等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实 际上只是数据仓库系统的一部分。