当前位置:文档之家› 数据仓库概念及相关技术

数据仓库概念及相关技术


7 >
Teradata Confidential
数据仓库的定义
什么是数据仓库
数据仓库(Data Warehouse)是一个面 向主题的(Subject Oriented)、集成的 (Integrated)、相对稳定的(NonVolatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决 策(Decision Making Support)。 --Bill Inmon
15 >
Teradata Confidential
OLTP与OLAP
On-Line Analytical Processing
•针对特定问题的联机数据访问和数据分析技术 •满足对数据进行多角度、快速、一致、交互、深入观察 •使用预定义的多维数据视图对数据进行分析处理,支持对数 据的切片、切块、钻取。 •多维数据库是一种以多维数据存储形式来组织数据的数据管 理系统,在使用时需要将数据从关系数据库中转载到多维数据 库中方可访问。 •。
Bill Inmon
数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》
生活中的朋友 学术上的对头
10 >
Teradata Confidential
双方的观点
12 >
Teradata Confidential
双方的数据仓库架构对比
Inmon-CIF(DW2.0)
集成转换层(Integrated and Transformation Layer)、操作数据存 储(Operational Data Store)、数据仓 库(Enterprise Data Warehouse)、数 据集市(Data Mart)、探索仓库 (Exploration Warehouse)
8 >
Teradata Confidential
各种概念之间的关系
Business Intelligent System Decision Support System Data Warehouse Data Mining OLAP Artificial Intelligence
Data Mart Operation Database
16 > Teradata Confidential
OLTP与OLAP
OLTP 用户 功能 DB 设计 数据 存取 工作单位 用户数 DB 大小
日常操作处理 面向应用 当前的, 最新的细节的, 二维的分立的 读/写数十条记录 简单的事务 上千个 100MB-GB
OLAP
分析决策 面向主题 历史的, 聚集的, 多维的集成 的, 统一的 读上百万条记录 复杂的查询 上百个 100GB-TB
13 >
Teradata Confidential
双方的数据仓库架构对比
Back RoomFron源自 RoomKimball-MD
MD分为后台(Back Room)和 前台(Front Room)两部分。后台主要 负责数据准备工作,称为数据准备区 (Staging Area),前台主要用于数据 展示,称为数据集市(Data Mart)。全 部数据集市的集合构成了数据仓库,从这 种意义上说,它只是一个虚拟的部件。
DSS(Decision Support System)
以Data Warehouse技术为基础,以OLAP和 Data Mining工具为手段实施的一套解决方案。
相关概念
•EIS:主管信息系统(Executive Information System),指为了满足无法 专注于计算机技术的领导人员的信息查询需 求,而特意制定的以简单的图形界面访问数 据仓库的一种应用。 •ETL:数据抽取(Extract)、转换 (Transform)、装载(Load)的过程。它 是构建数据仓库的重要环节。 •Data Mart为了特定的应用目的或应用范围, 而从数据仓库中独立出来的一部分数据,也 可称为部门数据或主题数(subjectarea)。 •经营分析系统: Business Analysis Support System。
事务表、周期快照表、累计快照表 非事实型事实表、退化维、缓慢变化维、快变 超大维 不可加型事实、半加型事实、可加性事实
14 >
Teradata Confidential
数据仓库的特点
面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织的。 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过 系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内 的信息是关于整个企业的一致的全局信息。 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。 反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一 时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以 对企业的发展历程和未来趋势做出定量分析和预测。
5 >
Teradata Confidential
IDEF1x
EBD: 描述实体和关系 KB::定义键,包括主键、 外键等 FA:描述全部属性
逻 辑 模 型
TM:与具体数据库的映射 关系 DBMS:特定的数据库模型
物理模型
6 >
Teradata Confidential
KBSI产品 产品
IDEF0 功能模型 功能模型(Function Modeling) IDEF1X 数据模型(Data Modeling〕 数据模型( 〕 IDEF2 仿真模型设计(Simulation Model Design 〕 IDEF3 过程描述获取(Process Description Capture〕 过程描述获取( 〕 IDEF4 面向对象设计(Object-Oriented Design) IDEF5 本体论描述获取(Ontology Description Capture ) IDEF6 设计原理获取(Design Rationale Capture ) IDEF7 信息系统审定(Information System Auditing) IDEF8 人与系统接口设计(Human-System Interface Design) (Human-System 用户接口建模(User Interface Modeling) IDEF9 经营约束的发现(Business Constraint Discovery) 场景驱动信息系统设计(Scenario-Driven IS Design) IDEF10 信息制品建模(Information Artifact Modeling) 实施体系结构建模(Implementation Architecture Modeling) IDEF11 信息工具建模(Information Artifact Modeling) IDEF12 组织设计(Organization Design) 组织建模(Organization Modeling ) IDEF13 三模式影射设计(Three Schema Mapping Design) IDEF14 网络设计(Network Design )
Database System
9 > Teradata Confidential
数据仓库领域的两位大师
Ralph Kimball
数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD) 主要著作:《数据仓库工具箱-维度建模的完全指南》、 《数据仓库生命周期工具箱- 设计、开发和部署数据仓库的 专家方法》
数据仓库的概念和相关技术
Arwen.Liu MAR, 2010
目录
• • • • •
数据仓库相关概念 BI技术工具 分析与应用 项目实施方法 知识索引
2 >
Teradata Confidential
知识导引
• • • • • • 什么是数据仓库? 什么是DSS? 什么是经营分析? 什么是EIS? 什么是OLTP,OLAP? 什么是BI?
11 >
Teradata Confidential
双方的观点
Inmon
使用数据集市联合的方式,开始会带来 极高的用户体验,但随着数据集市的增多, 会形成网状结构,建设重复,数据质量变 差。
Kimball
使用数据总线的结构来控制数据集市点 建设,所有的数据集市在一套总线环境中, 有相同的维度定义,故既可以迅速部署、 满足业务需求,也可以规范的形成数据仓 库
自上而下
围绕主题来组织数据仓库中的数据,每个主 题区域仅仅包含该主题相关的信息;数据仓库 应该一次增加一个主题,并且当需要容易地访 问多个主题时,创建以数据仓库为来源的数据 集市
自下而上和自上而下的结合:
数据仓库是数据集市的联合,通过一系列相 同维度定义的数据集市递增地构建数据仓库, 而每个数据集市通过联合多个数据源来满足特 定的业务需求
70年代 年代
70年代提出, 年代提出, 年代提出 80年代得到 年代得到 发展
即席查询报表
特殊抽 取程序
小应用 程序
信息中 心
决策支 持系统
主管信 息系统
BI
90年代提出, 年代提出, 年代提出 90年代中形 年代中形 成潮流
数据仓库系 统
BI描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。 BI描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。 描述了一系列的概念和方法 -Gartner Group1996 商业智能领域:DSS、OLAP、数据仓库、ETL、数据集市、数据挖掘、商业建模... ...为提高企 商业智能领域:DSS、OLAP、数据仓库、ETL、数据集市、数据挖掘、商业建模...为提高企 业运营性能而采用的一系列方法、 业运营性能而采用的一系列方法、技术和软件的总和
相关主题