当前位置:文档之家› 数据仓库技术介绍

数据仓库技术介绍


Oracle Financials
PeopleSoft
Baan
ODS 用于集成相关应用系统并且为决策支持
系统提供数据基础
近线存储器
活动监控器
交叉介质 数据管理器
近线存储器 扩展数据到近线存储器,可以极大地降低数据仓库 环境的成本,并且可以将存储能力扩展到无限大
探索仓库
探索仓库
relational
----著名的数据仓库专家Ralph Kimball
如何获得信息
数据仓库 获得信息
OLTP系统 归档文件 PC 电子表格 早期应用系统
获得有用的信息并非想象的那么容易(1)
第一,所有联机事务处理强调的 是数据更新处理性能和系统的可靠性 ,并不关心信息查询的方便与快捷; 联机分析和事务处理对系统的要求不 同,同一个数据库在理论上难以做到 两全;
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致巨 大的数据存储在文件系统、数据库和其它的信息 库中 。
– 我们会淹死在数据中, 但却为信息、知识所饿!
面临的挑战
如何在堆积如山的企业交易数据中 发现具有商业价值的闪光点?
如何使您的企业或组织在激烈的市 场竞争中保持对客户的吸引力?
如何预先发现和避免企业运作过程 中不易察觉的商业风险?
数据仓库的通俗定义
数据仓库是一个作为决策支持系 统和联机分析应用数据源的结构化数 据环境。
数据库与数据仓库的辩证关系
以辩证的眼光来看,数据仓库的兴起实际 上是数据管理的一种回归,是螺旋式的上升。今 天的数据库就好比当年的层次数据库和网型数据 库,它们面向事务处理;今天的数据仓库就好比 是当年的关系数据库,它针对联机分析。所不同 的是,今天的数据仓库不必再为联机事务处理的 特性而奔忙,由于技术的专业化,它可更专心于 联机分析领域的发展和探索。
存储和管理
数据仓库的真正关键是数据的存储和管理。 数据仓库的组织管理方式决定了它有别于传 统数据库,同时也决定了其对外部数据的表 现形式。
要决定采用什么产品和技术来建立数据仓库 的核心,则需要从数据仓库的技术特点着手 分析。
信息探索
信息探索实际上相当于数据仓库的门面,其 性能主要集中在多维分析、数理统计和数据 挖掘方面。
宝钢股份的质量方针
“重用户、重改进、重效率、重价值,为社会提供世 界一流的产品和服务。”
----- 宝钢股份质量方针
随着市场竞争的加剧和用户要求的提高,从大量数 据中挖掘规律性知识,制定正确的生产策略和市场 策略,显得越来越重要。
市场需求是技术发展的源动力
数据仓库的出现和发展是数据库和OLTP技术 发展、数据库应用深化的产物;
Loader
SAS External
Scheduler
Metadata Manager
数据的抽取
Metadata
Information Database
Web
EIS
Visualize
ODLSS AP
Quality Risk
Customer
Data Mining Query
Reporting
Product Market Future
分析型数据 综合的,或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一集合 分析驱动 面向分析 一次操作数据量大 支持管理需求
1990
数据仓库概念的诞生
业务系统 DSS(决策支持系统)
数据集市
现在
ODS
探索 仓库
近线存储器
数据仓库的定义
数据仓库是面向主题的、综合的、 不同时间的、稳定的时间集合,主 要用于支持经营管理中的决策制定 过程
多维分析又是数据仓库的重要表现形式,近 几年来由于互联网的发展,使得多维分析领 域的工具和产品更加注重提供基于Web前端 联机分析界面,而不仅仅是在网上发布数据 。
数据仓库的组成
ODS
数据集市
探索 仓库
近线存储器
集成和转换
自动处理数据
ETL
Hale Waihona Puke 如何避免脏数据进入1
2
3
4
1、通过不干净的遗留系统;2、不合适的集成;
- 我要写个汇总报告.
获取信息的重要因素
computer
- 贯穿公司的数据集成? - 公司的历史数据? - 详细数据及汇总数据?
决策的需要
应用在不断地进步,当 联机事务处理系统应用到一定 阶段的时候,企业家们便发现 单靠拥有联机事务处理系统已 经不足以获得市场竞争的优势 ;他们需要对其自身业务的运 作以及整个市场相关行业的态 势进行分析,从而做出有利的 决策。
企业数据仓库
- 综合数据 - 分粒度的数据 - 历史数据 - 共享的数据 - 决策的基础 - 大的存储量
数据集市
财务
销售
市场 会计 - 汇总的数据
- 部门级的数据
- 有限的历史数据
- 有限的存储量
- 重度索引
宝钢追求的目标
宝钢作为中国的特大型钢铁企业,它的主要建设目 标是在激烈的国际国内市场竞争中立于不败之地, 并且要加强管理、优化资源,追求效益最大化。这 就要求使其生产和经营过程共同达到优化,例如, 能够快速准确地提供报价、确定交货期、以及确保 产品质量等,并且制定有正确的企业发展战略,以 适应市场需求的变化,能做出及时反应。
获得有用的信息并非想象的那么容易(2)
第二,业务数据往往被存放于分散的 异构环境中,不易统一查询访问,而 且还有大量的历史数据处于脱机状态 ,形同虚设;
获得有用的信息并非想象的那么容易(3)
第三,业务数据的模式是针对事务处 理系统而设计的,数据的格式和描述 方式并不适合非计算机专业人员进行 业务上的分析和统计。
- 我的帐户现在有多少钱?
- 历史数据的缺乏是另一个 应用问题
- 你有 2,704.87元
- 在过去的三年中,我的帐户每月平均余额 是多少?
- 我怎样才能知道这些数字?
汇总问题
computer
另一个问题是汇总 ….
- 发往A公司的货物在哪里? - 在出厂中心,将于下周一运到
-我们上个月、去年有多少货物发往A公司? - 有多少货物准时到达? 晚到? 发生货损?
联机分析处理
决策需要对大量的业务数据包括历史业务 数据进行分析才能得到,而这种基于业务数据 的决策分析,我们把它称之为联机分析处理。 如果说传统联机事务处理强调的是更新数据库 ——向数据库中添加信息,那么联机分析处理 就是要从数据库中获取信息、利用信息。
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数 据库,如今是该将它们拿出来的时候了。”
从数据库到数据仓库
传统的事务处理环境不适宜于决策支持应用 •事务处理和分析处理的性能特性不同 •数据集成问题 •数据动态集成问题 •历史数据问题 •数据的综合问题
操作型环境和分析型环境的分离
操作型数据 & 分析型数据的区别
操作型数据 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合 SDLC 对性能要求高 一个时刻操作一单元 事务驱动 面向应用 一次操作数据量小 支持日常操作
在计算机系统应用的早期,还没有积累大量的 历史数据可供统计与分析。从而,联机事务处 理成为整个80年代直到90年代初数据库应用的 主流。
联机事务系统的功能
在数据仓库以前大都是事物处理 系统(OLTP)的天下(1965 -1990)
这个现状持续了 25 年,它主要实现 - 数据的收集 - 数据的存储 - 数据的在线存取
3、数据仓库的过期;
4、用户需求的改变。
数据质量管理
如果数据质量不能被信任,则数据仓库将失去价值
,数据管理是一个循环往复的过程,包括四个基本
功能:
定义
定义
量度标准
量度标准
报告 改善
连续的改善 循环
改善
报告
操作数据存储(ODS)
探索数据仓库
ODS “遗产”系统
DSS
商业系统
客户开发系统
SAP
home grown
数据仓库技术介绍
了解你的组织
嵇晓
了解你的客户
了解你的供应商
内容提要
动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语
面临的问题
人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一
起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征
; 医学研究人员希望从已有的成千上万份病历中找出
数据仓库的通俗解释
针对这一问题,人们专门为业务 的统计分析建立一个数据中心,它的 数据可以从联机的事务处理系统、异 构的外部数据源、脱机的历史业务数 据中得到;它是一个联机的系统,专 门为分析统计和决策支持应用服务, 通过它可满足决策支持和联机分析应 用所要求的一切。这个数据中心就叫 作数据仓库。
患某种疾病的病人的共同特征,从而为治愈这种疾 病提供一些帮助;
……
企业面临的问题
经过多年的计算机应用和市场积累,许多企业保存 了大量原始数据和各种业务数据, 它是企业生产经营 活动的真实记录
由于缺乏集中存储和管理,这些数据不能为本企业 加以利用, 不能进行有效的统计、分析及评估,无法 将这些数据转换成企业有用的信息
数据仓库之父--Bill Inmon
数据仓库的四个基本特征
数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化

数据仓库的体系结构
SAP RDBMS Legacy
Data Extraction
Transformation Engine
相关主题