当前位置:文档之家› 数据仓库基础知识培训教材

数据仓库基础知识培训教材

• 基于数据仓库的决策支持系统
DSS的先天不足
DSS的先天不足
– 决策所需信息不足,难以满足决策支持系统的 需要。
– 模型库提供的分析能力有限 – 人机接口部件占整个DSS开发工作量的一半 ,
成为DSS实施中的一个瓶颈。
基于数据仓库的DSS
基于数据仓库的DSS
– 数据仓库为DSS的发展开辟了新途径 – 目前DSS的开发模式(BI解决方案)
• 以数据仓库技术为基础 • 以联机分析、数据挖掘工具为手段
数据源
外部数据 业务数据系统 市场调查信息 专家经验数据

1.4数据仓库体系结构
数据仓库管理环境


细节级数据
数据集市1
数据集市2 …
数据集市n
ETL逻辑
数据仓库组织与管理 元数据(MetaData)
1.1从传统数据库到数据仓库(续 )
• 传统的事务处理环境不适宜于决策支持应 用
• 事务处理和分析处理的性能特性不同 • 数据集成问题 • 数据动态集成问题 • 历史数据问题 • 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
以秒为单位计量
数据仓库 历史的、存档的、归纳的、计 算的数据 面向主题域、管理决策分析应 用 静态、不能直接更新、只定时 添加 简单、适合分析
中到低 有的事务可能要访问大量记录
以秒、分钟、甚至小时为计量 单位
1.3数据仓库与决策支持系统
• 决策支持系统的发展阶段
– 初始阶段(DSS阶段) – 与专家系统结合阶段(IDSS阶段) – 基于数据仓库技术阶段(BI阶段)
数据仓库之父--Bill Inmon
1.2数据仓库基本特性
面向主题性 数据集成性 数据的时变性 数据的非易失性
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据 。
• 不同的主题之间可能会出现相互重叠的信息。 • 主题在数据仓库中可以用多维数据库方式进行
1.2.1数据仓库定义
数据仓库(Data Warehouse)是一个 • 面向主题的(Subject Oriented) • 集成的(Integrate) • 相对稳定的(Non-Volatile) • 反映历史变化(Time Variant)
的数据集合,用于支持管理决策。
1.2数据仓库定义
• 数据仓库是在企业管理和决策中面向主题的、 集成的、与时间相关的、不可修改的数据集合 。
数据仓库基础知识培训 教材
2020年4月22日星期三
数据仓库基本概念
• 1.1从传统数据库到数据仓库 • 1.2数据仓库定义及基本特性 • 1.3数据仓库与决策支持系统 • 1.4数据仓库体系结构 • 1.5数据仓库相关概念
1.1从传统数据库到数据仓库
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息 ,去帮助管理决策。这就需要一种能够将日常 业务处理中所收集到的各种数据转变为具有商 业价值信息的技术,传统数据库系统无法承担 这一责任。因为传统数据库的处理方式和决策 分析中的数据需求不相称。这些不相称性主要 表现在决策处理中的系统响应问题、决策数据 需求的问题和决策数据操作的问题。
• 如何在堆积如山的企业交易数据中发现具 有商业价值的闪光点?
• 如何使您的企业或组织在激烈的市场竞争 中保持对客户的吸引力?
• 如何预先发现和避免企业运作过程中不易 察觉的商业风险?
数据仓库应运而生
• 数据仓库的出现和发展是数据库和OLTP技 术发展、数据库应用深化的产物;
• 目的是把数据库中的大量数据转化为有用 信息,为企业更好地进行决策服务。
存储。 • 主题的划分中,必须保证每一个主题的独立性

数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
业务数据库1 业务数据库2
…… 业务数据库n
抽取转换清洗加载
数据仓库
数据的时变性
• 数据应该随着时间的推移而发生变化,不断地 生成主题的新快照。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
• 由于缺乏集中存储和管理,这些数据不能 为本企业加以利用, 不能进行有效的统计 、分析及评估,无法将这些数据转换成企 业有用的信息
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致 巨大的数据存储在文件系统、数据库和其它的 信息库中 。
– 我们会淹死在数据中, 但却为信息、知识所饿!
面临的挑战
存量数据 T1时点增量数据
…… Tn时点增量数据
抽取转换清洗加载
数据仓库
初始主题数据 T1时点主题数据
…… Tn时点主题数据
数据的非易失性
• 数据的相对稳定性。
• 数映历史变化。
存量数据
初始主题数据
抽取转换清洗加载
T1时点增量数据 ……
数据仓库
T1时点主题数据 ……
讨论话题一
• 数据仓库产生的源动力是什么?数据仓库 系统是数据驱动还是需求驱动的?
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数据 库,如今是该将它们拿出来的时候了。”
----著名的数据仓库专家Ralph Kimball
1.2数据仓库定义及基本特性
• 1.2.1数据仓库定义 • 1.2.2数据仓库基本特性
Tn时点增量数据
Tn时点主题数据
时间戳锁定数据
讨论话题二
• 数据库和数据仓库有什么不同?
数据库与数据仓库的对比
对比内容 数据内容
数据库 当前值
数据目标 数据特性
面向业务操作程序、重 复处理
动态变化、按字段更新
数据结构
使用频率 数据访问量
对响应时间的 要求
高度结构化、复杂、适 合操作计算

每个事务只访问少量记 录
相关主题