数据仓库和数据挖掘
财务子系统
销售子系统
供应子系统 人力资源子系统
数据库
生产调度子系统
面向事务
数据仓库
产品分析 销售商分析 消费者分析
面向主题
• 例如:一个保险公司的数据仓库所组织的主题可能是:客户、政策、保险金、 索赔等,而按应用来组织则可能是:汽车保险、生命保险、伤亡保险等。
7.1.1 数据仓库概念与特点
(2)集成的数据
7.1.1 数据仓库概念与特点
(3)数据相对稳定
数据库:通常定时更新,根据需要变化 数据仓库:主要供查询,只读。
从内容上看,存储当前和历史的数据,不是日常事 务产生的数据,并且当前数据在一定时间间隔后要转换成 历史数据转存慢速设备,不需要的则删除,因此极少修改。
7.1.1 数据仓库概念与特点
(4)数据仓库的时间相关性
7.1.2 传统数据库与数据仓库
传统数据库
迥异
数据仓库
➢日常业务的自动化处理 ➢属于联机事务处理
➢只涉及当前数据,系统 积累下的历史业务数据往 往被转存到脱机的环境中
➢用于支持高层决策分析 ➢属于联机分析处理
➢对自身业务的运作及整 个市场相关行业的态势进 行分析,做出有利的决策
7.1.2 传统数据库与数据仓库
7.1.1 数据仓库概念与特点
什么是数据仓库?
始于20世纪80年代初,“数据仓库之父”William H.Inmon。
“数据仓库是在企业管理和决策中面向主题的、集成的、 相对稳定的、与时间相关的数据集合,以支持经营管理中 的决策。
数据仓库用于支持决策,面向分析型数据处理,不同 于企业现有的操作型数据库;数据仓库是对多个异构的数 据源有效集成,集成后按照主题进行了重组,并包含历史 数据。
四个级别
当前细节级 提取综合
轻度综合级 精炼综合
高度综合级 老化的数据
早期细节级
被转储于磁带 等转换介质
7.1.3 CRM中数据仓库的结构
❖ 组织结构——元数据 关于数据的数据 组织仓库内的数据存储,描述何种信息存于何处,怎样 编码,怎样与其他信息相关,来自哪里,怎样与业务相 关。 元数据对于管理、组织、探索数据非常重要,它能够让 用户知道数据仓库有什么,以及如何使用。
第7章 数据仓库和数据挖掘
本章学习目标
了解数据仓库的概念及特点 了解数据挖掘的应用和功能 熟悉数据挖掘的几种主要技术
第7章 数据仓库和数据挖掘
7.1 数据仓库概述 7.2 数据挖掘概述 7.3 数据挖掘的主要技术 7.4 数据仓库和挖掘对CRM的影响
第7章 数据仓库和数据挖掘
7.1 数据仓库概述 7.2 数据挖掘概述 7.3 数据挖掘的主要技术 7.4 数据仓库和挖掘对CRM的影响
例如:银行交易管理系统中,每天的大量操作都限于增 加新账号、删除旧账号、更改账号中的金额数据、查询 客户账号余额等。
联机分析处理(OLAP)——数据仓库的核心应用。 OLAP:针对同一个主题对数据进行分析、查询和生成报 表,从而快速、交互地得出决策支持的分析结论。
基本功能是对用户当前及历史数据进行分析以辅导领导 决策,侧重决策支持,并提供直观易懂的查询结果。
数据仓库中的数据都要表明时间属性。通常 包含历史信息,记录了企业从过去某一时点(如开 始应用数据仓库的时点)到目前的各个阶段的信息, 通过这些信息,可以对企业的发展历程和未来趋势 做出定量分析和预测。为了满足决策分析的需要, 数据仓库的数据存储期限一般为5~10年,当超过数 据仓库的存储期限,或对分析不再有用时,这些数 据将从数据仓库中删去。
监视器/包装
信息
信息
信息
7.1.3 CRM中数据仓库的结构
• 体系结构——综合的数据仓库的体系结构
OLAP
抽取 清理 装载 刷新
数据仓库
服务
OLAP
主题 主题 主题
数据源
数据集市
查询工具 报表工具 分析工具 数据挖掘工具 前端工具
7.1.3 CRM中数据仓库的结构
❖ 组织结构——四个级别
集成
最近时期的业 务数据
例如:数据仓库表的结构、数据仓库表的属性、数据仓 库的元数据、抽取日志。
7.1.3 CRM中数据仓库的结构
❖ 组织结构图
面向决策人员
高度综合级
生产线每月销售
元 轻度综合级 数 据
当前细节级 操作型转换
早期细节级
面向管理人员 中心数据库
子生产线每周销售 销售细节级 销售细节级
7.1.4 数据仓库几个重要概念
OLTP
OLAP
特征 操作处理
信息处理
面向 事务
分析
用户
操作人员、低层管理 决策人员、高级管理
人员
人员
功能 日常操作处理
长期信息需求、分析 决策
DB设计 面向应用
面向主题
7.1.3 CRM中数据仓库的结构
• 体系结构——斯坦福大学的数据仓库体系结构 客户应用
数据仓库 集成器
监视器/包装器 监视器/包装器
联机的 事务处理系统
异构的 外部数据源
脱机的 历史业务数据
data data
数据中心(仓库)
为分析统计和决策支持应用服务
联机事务处理和联机分析处理
联机事务处理(OLTP)——传统的关系型数据库的核心 应用。 OLTP:执行基本的增加、删除等联机事务和查询处理, 及时、安全地将当前事务所产生的记录保存下来。几乎 涵盖了组织的大部分日常操作。SQL语言
从原来分散的多个异种数据源(关系数据库、文本数据库、 Web数据库、一般文件等)构成的子系统中提取数据。
为何进行数据集成?
① 原有数据库系统记录的是每一项业务处理的流水账,不适 合分析处理,在进入数据仓库之前必须进行综合、计算,抛弃 分析处理不需要的数据项,必要时增加一定的外部数据。
② 原分散数据库中有很多重复或不一致的地方,必须消除不 一致和错误,全局统一。
对数据仓库中数据综合程度的一个度量
✓ 粒度越高,综合程度越高,细节程度越低 ✓ 粒度越低,综合程度越低,细节程度越高
7.1.1 数据仓库概念与特点
特点
1、面向主题 2、集成的数据 3、数据相对稳定 4、数据仓库的时间相关性
7.1.1 数据仓库概念与特点
(1)面向主题
数据库:面向事务处理任务,各系统分离 数据仓库:按照一定的主题域组织在一起
主题:用户使用数据仓库进行决策时所关心的重点 方面。针对决策者的数据分析,而不是日常事务的处理, 因而排除了对决策无用的数据,提供了特定主题的简明 视图。是对应企业中某一宏观分析领域所涉及的分析对 象,是针对某一决策问题而设置的。