当前位置:文档之家› 数据仓库与数据挖掘概述

数据仓库与数据挖掘概述

(2) 1989年8月于美国底特律市召开的第一届知识发现 (KDD)国 际学术会议; 首次提出知识发现概念 (3) 1995年在加拿大召开了第一届知识发现和数据挖掘 (DM)国际学术会议; 首次提出数据挖掘概念 (4) 我国于1987年召开了第一届全国机器学习研讨会。
1.2.2数据挖掘含义
知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为:
(5)数据仓库的数据量很大
大型DW的数据是一个TB(1000GB)级数据 量 ( 一 般 为 10GB 级 DW , 相 当 于 一 般 数 据 库 100MB的100倍)
(6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统
3.数据库与数据仓库对比
数据库
细节的 在存取时准确的 可更新的 一次操作数据量小 面向应用 支持管理
第1章
数据仓库与数据挖掘概述
数据仓库(DW)是利用数据资源提供决策支持。 在数据仓库中利用多维数据分析来发现问 题,并找出产生的原因。能从掘出信息和知识。

数据仓库、数据挖掘和联机分析处理(OLAP) 结合起来,完成支持决策的系统,称为决策支 持系统(DSS)。


数据仓库(Data Warehouse,DW)


面向主题的、集成的、稳定的、随时间不断 变化的数据库系统 ETL

数据抽取(Extraction) 数据转换(Transformation) 数据加载(Loading)
2.数据仓库用于决策分析

数据库用于事务处理,数据仓库用于决策分析

E.F.Codd认为决策分析需要对多个关系数据 库共同进行大量的综合计算才能得到结果。 E.F.Codd在1993年提出了多维数据库和多维 分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。
关系数据库是二维数据(平面),多维数据库 是空间立体数据。
(2)SAS软件研究所观点: 数据仓库是一种管理技术,旨在通过通畅、 合理、全面的信息管理,达到有效的决策支 持。
2. 数据仓库特点
(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一 个宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽 取同一客户的数据整理而成。 在DW中能全面地分析客户数据,再决定是否继续 给予贷款。
大量的数据操作主要涉及的是一些增加、 删除、修改、查询等操作。每次操作的 数据量不大且多为当前的数据。


OLTP处理的数据是高度结构化的,数据 访问路径是已知的,至少是固定的。 OLTP面对的是事务处理操作人员和低层 管理人员。
但是,为高层领导者提供决策分析时, OLTP则显得力不从心。


2.联机分析处理(OLAP)
(头发=黑色)∨(眼睛=黑色)→亚洲人
该知识覆盖了所有亚州人的记录。
数据挖掘做什么?

预测未来发生的事情(分类与回归) 将人或事物按照属性聚类 关联可能一起发生的事件(购物篮) 确定事件发生的序列(股票涨落)




异常检测
数据挖掘
啤酒与尿布的故事: 在一家超市里,有一个有趣的现象:尿布和啤酒 赫然摆在一起出售,但是这个奇怪的举措却使尿布和 啤酒的销量双双增加了。 原来,美国的妇女们经常会嘱咐她们的丈夫下班 以后要为孩子买尿布。而丈夫在买完尿布之后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买 的机会还是很多的。
支配着社会现象的法则和方法是概率论。 通过对全部对象(总体)进行调查,为制 定计划和决策提供依据。


统计学与数据挖掘的比较

统计学主要是对数量数据(数值)或连续值数 据(如年龄、工资等),进行数值计算(如初 等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等) 进行定性分析(覆盖、归纳等),得到规则知 识。
课程介绍
统计学
数据挖掘
其他 数据仓库与数据挖掘是一个多学科领域,从多个学
科汲取营养。这些学科包括数据库技术、人工智能、机器
学习、神经网络、统计学、模式识别、知识库系统、知识
获取、信息检索、高信能计算和数据可视化。 本课程以数据仓库与数据挖掘的基本概念和基本方 法为主要内容,以方法的应用为主线,系统叙述数据仓库 和数据挖掘的有关概念和基础知识,使学生尽快掌握数据 仓库和数据挖掘的基本概念,基本方法和应用背景。
教学目的
本课程的目的主要是要求学生能对数据仓库和 数据挖掘的基本方法和基本概念有整体的了解,掌 握建立数据仓库的原理和方法,从理论上掌握数据 仓库、OLAP联机分析的基本概念、原理、主要算法 及应用,对数据挖掘的关联规则,分类方法,聚类 方法有深入的了解,并能够在Clementine软件使 用过程中熟练掌握这些方法。

OLTP主要用于包括银行业、航空、邮购订单、 超级市场和制造业等的输入数据和取回交易 数据。如银行为分布在各地的自动取款机 (ATM)完成即时取款交易;机票预定系统能 每秒处理的定票事务峰值可以达到20000个。
OLTP是事务处理从单机到网络环境地发展新 阶段。


OLTP的特点在于事务处理量大,应用要 求多个并行处理,事务处理内容比较简 单且重复率高。
1.2.3数据挖掘与OLAP的比较
1. OLAP的多维分析 OLAP的典型应用,通过商业活动变化的查询 发现的问题,经过追踪查询找出问题出现的原 因,达到辅助决策的作用。
2. 数据挖掘 数据挖掘任务在于聚类(如神经网络聚类)、 分类(如决策树分类)、预测等。
1.2.4 数据挖掘与统计学

统计学与国家政治有紧密的关系。



OLAP(On-Line Analytical Processing)

商务智能的直接数据来源?

OLTP? 数据仓库? 多维数据集?
什么是多维数据集? “多维数据集是一种结构,包含了一个或多个度量。这些度量 用于所有维度的成员的每个唯一组合。”

OLAP专门用于支持复杂的决策分析操作, 侧重对分析人员和高层管理人员的决策 支持,
数据仓库
综合或提炼的 代表过去的数据 不更新 一次操作数据量大 面向分析 支持决策
1.1.2从OLTP到OLAP
1.联机事物处理(OLTP)
2.联机分析处理(OLAP) 3.OLTP与OLAP的对比
1.联机事物处理(OLTP)


联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事 务处理工作,以快速的响应和频繁的数据修 改为特征,使用户利用数据库能够快速地处 理具体的业务。 OLTP是用户的数据可以立即传送到计算中心 进行处理,并在很短的时间内给出处理结果。 也称为实时系统(Real time System)。
OLAP可以应分析人员的要求快速、灵活 地进行大数据量的复杂处理,并且以一 种直观易懂地形式将查询结果提供给决 策制定人


OLAP软件,以它先进地分析功能和以多维 形式提供数据的能力,正作为一种支持企业 关键商业决策的解决方案而迅速崛起。
OLAP的基本思想是决策者从多方面和多角 度以多维的形式来观察企业的状态和了解企 业的变化。


1.1.1 从数据库到数据仓库
(1)“数据太多,信息不足”的现状
(2)异构环境的数据的转换和共享
(3)利用数据进行数据处理转换为利用数据支 持决策
1.数据库用于事务处理

数据库作为数据资源用于管理业务中的事务处 理。它已经成为了成熟的信息基础设施。 数据库中存放的数据基本上是保存当前数据, 随着业务的变化随时在更新数据库中的数据。 不同的管理业务需要建立不同的数据库。例如, 银行中储蓄业务、信用卡业务分别要建立储蓄 数据库和信用卡数据库。
1.2.1 从机器学习到数据挖掘

学习是人类具有的智能行为,主要在于获取知识。
机器学习是研究使计算机模拟或实现人类的学习 行为,即让计算机通过算法自动获取知识。 机器学习是人工智能领域中的重要研究方向。 20世纪60年代开始了机器学习的研究。



(1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向
统计学与数据挖掘是有区别的。但是,它们之 间是相互补充的。


1.3 数据仓库和数据挖掘的结合
1.3.1 数据仓库和数据挖掘的区别与联系 1.3.2 基于数据仓库的决策支持系统 1.3.3数据仓库与商业智能
1.3.1 数据仓库和数据挖掘的区别与联系
1. 数据仓库与数据挖掘的区别
2.数据仓库与数据挖掘的关系 3.数据仓库中数据存储特点 4.数据仓库中数据挖掘特点
数据仓库、数据挖掘、联机分析处理等结合起 来的技术称为商业智能(BI)。商业智能是一 种新的智能技术。

1.1 数据仓库的兴起
1.2 数据挖掘的兴起
1.3 数据仓库和数据挖掘的结合
1.1 数据仓库的兴起

1.1.1 从数据库到数据仓库
1.1.2 从OLTP到OLAP 1.1.3 数据仓库的定义与特点
数据库保持事务处理的当前状态,数据仓库既 保存过去的数据又保存当前的数据 数据仓库的数据是大量数据库的集成 对数据库的操作比较明确,操作数据量少。对 数据仓库操作不明确,操作数据量大



1.数据仓库定义
(1)W.H.Inmon在《建立数据仓库》一书中,对数据 仓库的定义为: 数据仓库是面向主题的、集成的、稳定的,不同 时间的数据集合,用于支持经营管理中决策制定过程。
相关主题