当前位置:文档之家› 数据仓库与数据挖掘原理及应用v3

数据仓库与数据挖掘原理及应用v3


70年代
– 关系数据模型以及关系型DBMS
1.1 引言
演变过程
80年代至今
– 高级数据模型 (具有扩充关系的, 面向对象的, 演绎的等等) 和 面向应用的 DBMS (空间的, 科 学的, 工程的等等)
90年代至今
– 数据挖掘和数据仓库,多媒体数据库和Web数 据库。
数据收集和数据库创建
(20世纪60年代和更早) -原始文件处理
查询管理器
• 功能
执行管理数据仓库系统中所有查询工作的相关 处理程序。
• 实现途径
(1)外购调度软件 (2)使用用户存取工具 (3)数据仓库系统所提供的系统监控工具 (4)数据库管理系统所提供的管理工具 (5)针对特殊需要而编写程序以及脚本文件
仓库管理器
• 功能 执行管理一个数据仓库所需的必要程序 • 实现途径 (1)外购的系统管理工具 (2)针对特殊需要而编写的程序以及脚本 文件 • 复杂度 因自动化的程度而异
仓库管理器
控制程序 暂时数据存储所
SQL脚本
仓库控制器 星型、雪花型摘要 备份/还原工具 存储方式 集合表格
仓库管理器的具体功能
• 检验各字段相互之间的关系与一致性 • 将临时保在存储介质中的数据转换与合并,然后加 载至数据仓库 • 对数据仓库数据添加索引、视图、数据分区 • 根据需要进行数据的标准化 • 根据需要生成新的集合信息 • 更新已有的集合信息 • 备份数据仓库(完整或是递增式) • 备存数据仓库中过时的数据(另存至其它存储介质)
1.1 引言
商务智能的发展
从20世纪60年代计算机用于管理信息处理开始, 经过40多年的发展,信息处理技术的发展经历了电 子 数 据 处 理 系 统 ( EDPS , Electronic Data Processing System ) 、 管 理 信 息 系 统 (MIS , Management Information System)和决策支持系 统(DSS, Decision Supporting System)等阶段。
数据库与数据仓库的区别
对比内容 数据内容 数据目标 数据特性 数据结构 使用频率 数据访问量 对响应时间的要求 当前值 面向业务操作程序、重 复处理 动态变化、按字段更新 高度结构化、复杂、适 合操作计算 高 每个事务只访问少量记 录 以秒为单位计量 数据库 数据仓库 历史的、存档的、归纳的、计算的数 据 面向主题域、管理决策分析应用 静态、不能直接更新、只定时添加 简单、适合分析 中到低 有的事务可能要访问大量记录 以秒、分钟、甚至小时为计量单位
1.1 引言
商务智能的定义
1989 年 美 国 加 特 纳 公 司 的 分 析 师 Howard Dresner首次提出“商务智能”。 商务智能是企业利用现代信息技术收集、管理和 分析结构化和非结构化的商务数据和信息,创造和 累计商务知识和见解,改善商务决策水平,采取有 效的商务行动,完善各种商务流程,提升各方面商 务绩效,增强综合竞争力的智慧和能力。
图1.1 商务智能体系结构
1.1 引言
数据仓库定义 数据仓库是在企业管理和决策中面向 主题的、集成的、与时间相关的、不可修 改的数据集合。
此定义由最为权威的、被称为“数据 仓库之父”的William H. Inmon 先生给出。
1.1 引言
数据仓库定义 数据仓库是在企业管理和决策中面向 主题的、集成的、与时间相关的、不可修 改的数据集合。
加载管理器
建议
用户尽量选用适合的软件工具来协助 进行整个加载管理的工作; 但是,因为源数据的特性存在很大的 差异,数据仓库中加载管理器的功能无法 一致,所以不可能完全使用外购的软件工 具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。
加载管理器的具体功能
• 抽取来自源系统的数据 • 将抽取的数据快速加载临时保存介质 • 执行简单的数据转换任务 • 将转换后数据加载至与数据仓库类似 的数据结构之中
基于WEB的数据库系统
(90年代-现在) -基于XML的数据库系统 -Web挖掘
数据仓库和数据挖掘
(80年代后期-现在) -数据仓库和OLAP技术 -数据挖掘和知识发现
新一代综合信息系统
(2000年-...)
1.1 引言
演变过程
在20世纪70年代之前,数据一般存储在文件 中,由应用程序直接管理;之后有了简单的数据 收集和数据库的构造;后来发展到对数据的管理, 包括数据存储、检索以及数据库事务处理;再后 来发展到对数据的分析和理解,这时候出现了数 据仓库技术和数据挖掘技术。数据挖掘使数据库 技术进入了一个更高级的阶段,它不仅能对过去 的数据进行查询和遍历,并且能够找出过去数据 之间的潜在联系,并且能够预测未来的数据。
数据库管理系统
(70年代) -层次和网状数据库 -关系数据库系统 -数据建模工具:实体-关系模型 -索引和数据组织技术:B+树,散 列等 -查询语言:SQL等 -用户界面:表单、报告等 -查询处理和优化 -事务管理:恢复和并发控制等 -联机事务处理(OLTP)
高级数据库系统
(80年代中期-现在) -高级数据模型: 扩充关系、面向对象、 对象-关系、演绎 -面向应用: 空间的、时间的、多媒体 的、主动的、科学的、 知识库
1.1 引言
数据仓库是决策支持系统 (Decision Support System,DSS)的 基础。 在数据仓库中只有单一集成的数据 源,并且数据是可访问的。所以与传统 数据库相比,在数据仓库环境中DSS分 析员的工作将较为容易。
1.1 引言
演变过程
60年代
– 数据收集、数据库创建、信息管理系统( IMS ) 和网络数据库管理系统(Network DBMS)
1.1 引言
商务智能的体系结构
商务智能体系架构主要有比尔•恩门的信息工厂, 扎克曼的企业体系结构,美国数据仓库研究院的商务 智能体系结构以及加特纳公司的商务智能体系结构等。 这些体系结构中均包含了商务分析、OLAP、数据挖 掘和数据仓库四大部分。
商务分析:商务风险分析、数据库营销分析、智能型客户关系管理、 供应链管理 OLAP、数据挖掘 数据仓库
1.1 引言
数据仓库与数据库的关系 数据仓库只不过是因为用户需求增加 而对某一类数据库应用的一个范围的界定。 单就其是数据的存储容器这一点而言,数 据仓库与数据库并没有本质的区别。 而且在更多的时候,我们是将数据仓 库作为一个数据库应用系统来看待的。 因此,不应该说数据库到数据仓库是 技术的进步。
数据仓库与数据挖掘
任课教师:翟霞
目录
1. 数据仓库基础 2. 数据仓库设计和实现 3. 数据仓库实例 4. OLAP和OLAM 7. 8. 9. 分类和预测 关联分析 Web挖掘
10. 数据挖掘实例
5 . 数据挖掘基础
6. 聚类分析
11. 知识
12. 语义网和本体
1 数据仓库基础
1.1 1.2 1.3 1.4 1.5 1.6 1.7 引言 体系结构 组成 元数据 数据粒度 数据模型 ETL
数据 信息 决策
经营数据
数据查询 集合信息 加载 管理 器 查询 管理 器
详细信息
CLAP工具 外部数据 元数据
CLAP工具 仓库管理器
数据仓库的管理器
• 加载管理器
执行程序:抽取与加载程序 功能:抽取并加载数据、在加载数据之前与进行中 执行简单的转换
• 仓库管理器
执行程序:数据整理与转换程序、备份与备存程序 功能:转换并管理数据仓库数据、备份与备存数据
二层体系结构
数据 集市 数据挖掘/数据展现系统 数据 集市 数据 集市 数据 集市
数据仓库存储
数据
元数据
抽取/转换/清洁 数据暂存区
业务系统数据
外部数据
1.2 体系结构
数据挖掘/数据展现系统
三层体系结构
数据 集市
数据 集市
数据 集市
数据 集市
数据仓库存储
数据
元数据
ODS
抽取/转换/清洁 数据暂存区
1.1 引言
数据仓库与数据库的关系
到目前为止,数据仓库在国外已经发展了十 几年的时间。在国内,虽然起步较晚,但发展较 为迅速。 目前有很多的大公司或企业正在建或计划建 设不同规模的数据仓库和数据集市。
1.1 引言
数据仓库与数据库的关系
数据仓库建立在传统事务型数据库的基础之 上,为企业决策支持系统、OLAP及数据挖掘系统 提供数据源。
1.1 引言
数据仓库与数据库的关系 • 数据库的应用包括:事务型应用和分析型应用 • 物理数据库实际存储的数据包括: 事务型数据(或称操作数据)和分析型数据 (也可称为汇总数据、信息数据)。 • 起初,两类数据放到一起,即分散存储在各底层 的业务数据库中。 • 后来,随着企业规模的扩展、数据量的增加、以 及希望在决策分析时得到更多支持需求的日益迫 切,并且考虑保证原有事务数据库的高效性与安 全性。因此将分析型数据与事务型数据相分离, 单独存放,即形成了所谓的数据仓库。
• 典型的主题领域
顾客、产品、事务或活动、保险单、索赔和账 目。
1.1 引言
• 集成的
数据仓库中的数据来自各个不同的数 据源(操作数据库)。由于历史的原因, 各操作数据库的组织结构往往是不同的, 在这些异构数据输入到数据仓库之前,必 须经历一个集成过程。
1.1 引言
• 集成的
最重要的特点。应用问题的设计人员制定出 不同的设计决策,且表示方法不同。例如编码、 命名习惯、实际属性和属性度量等方面不一致。 数据进入数据仓库时,需要消除各种不一致 性。例如,数据仓库中顾客“性别”的编码,可 采用“男/女”或“m/f”,采用哪种方式并不重要, 重要的是在数据仓库中应该统一编码。如果应用 数据编码为“X/Y”,则进入数据仓库时需要进行 转换。
相关主题