当前位置:
文档之家› 数据仓库与挖掘第五章数据挖掘概述[1]
数据仓库与挖掘第五章数据挖掘概述[1]
用户首先建立一个假设,然后用OLAP检索数据库来验 证这个假设是否正确。比如,一个分析师想找到什么原 因导致了贷款拖欠,他可能先做一个初始的假定,认为 低收入的人信用度也低,然后用OLAP来验证他这个假 设。如果这个假设没有被证实,他可能去察看那些高负 债的账户,如果还不行,他也许要把收入和负债一起考 虑,一直进行下去,直到找到他想要的结果或放弃。
数据挖掘和数据仓库
o
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘和数据仓库
o 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖 掘库或数据集市中。 优点:数据仓库的数据清理和数据挖掘的数 据清理差不多,如果数据在导入数据仓库时已经清理过,那很可 能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一 致的问题都已经被解决了。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘和OLAP
o o
o
PPT文档演模板
完全不同的工具,基于的技术也大相径庭;
OLAP基于用户假设:
n what happened〔查询和报表工具是告诉你数据库中都 有什么〕
n what next〔 OLAP更进一步告诉你下一步会怎么样〕
n what if〔如果我采取这样的措施又会怎么样〕
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
分类与估值
o 分类与估值(Classification and Estimation)
分类指通过分析一个类别已知的数据集的 特征来建立一组模型,该模型可用以预测类别 未知的数据项的类别。该分类模型可以表现为 多种形式:分类规则(IF-THEN),决策树或 者数学公式,乃至神经网络。
•在记录级提 供历史性、 动态数据信 息
•在各种层次 上提供回溯 的、动态的 数据信息
•高级算法、多处理器计算 机、海量数据库
•IBM、其他公司
•提供预测性 的信息
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘(Data Mining)的定义
o 数据挖掘是从大量的、不完全的、有噪声的、模糊 的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识
o 为了数据挖掘你也不必非得建立一个数据仓库,建立一个巨大的 数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲 突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的 工程,可能要用几年的时间花上百万的钱才能完成。
o 只是为了数据挖掘,可以把一个或几个事务数据库导到一个只读 的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
实施数据挖掘的目的
不再是单纯为了研究,更主要的是为商业决 策提供真正有价值的信息,进而获得利润。
所有企业面临的一个共同问题是:企业数据 量非常大,而其中真正有价值的信息却很少, 因此需要从大量的数据中经过深层分析,获 得有利于商业运作、提高竞争力的信息,就 像从矿石中淘金一样,数据挖掘也由此而得 名。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘与传统数据分析方法区别
数据挖掘的数据源与以前相比有了显著的改变;
数据是海量的。数据挖掘出现的背景是“数据爆炸但知识贫 乏”,它要处理的数据量已经达到了“太”(万亿)级以上, 比传统数据分析方法所处理的数据量超出几个乃至十几个数 量级。对于如此大规模的数据量,传统的数据分析方法可能 根本不能处理,即使能够处理,效率也是必须考虑的严重问 题。因此需要对原有的数据分析方法重新检验,加以改进。
PPT文档演模板
•Other •Disciplines
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘与其他科学的关系
数据挖掘作为一门新兴的交叉学科,涉及数据库系统、 数据仓库、统计学、机器学习、可视化、信息检索和高性 能计算等诸多领域。此外,还与神经网络、模式识别、空 间数据分析、图像处理、信号处理、概率论、图论和归纳 逻辑等等领域关系密切。 近几年,人们逐渐发现数据挖掘中有许多工作都是由统 计方法来完成的。甚至有些人(尤其是统计学家)认为数 据挖掘是统计学的一个分支,当然大多数人(包括绝大多 数数据挖掘研究人员)并不这么认为。 统计学和数据挖掘的目标非常相似,而且数据挖掘中的 许多算法也源于数理统计,统计学对数据挖掘发展的贡献 功不可没。
PPT文档演模板
如何从一棵棵树木了解整个森林?从数据矿山中找到蕴 藏的知识金块?这是我们该考虑的问题!
数据仓库与挖掘第五章数据挖掘概述 [1]
啤酒尿不湿案例
著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘 发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经 理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架 附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近 布置。这样,上述几种商品的销量大增。
医学与数据挖掘
o 医学数据挖掘的主要研究对象是临床医疗信息,反映了医 学信息的独特之处,医学数据挖掘的特殊性:
模式的多态性: 医学信息包括纯数据、信号、图像、文字以及语音和 视频信息。模式:就是对客观事物的一种抽象描述,是整个数据集的 全局性描述。相当于某一规则,强调形式上的规律,可用于全局的规 则,模型即可理解为造型实物 有实体的造型。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘主要的任务
o 关联分析(Association Analysis)
从一个项目集中发现关联规则,该规则 显示了给定数据集中经常一起出现的属性- 值条件元组。
例如:关联规则X=>Y所表达的含义是 满足X的数据库元组很可能满足Y。关联分 析在交易数据分析、支持定向市场、商品目 录设计和其他业务决策等方面有着广泛的应 用。
数据挖掘(Data Mining)的定义
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘与其他科学的关系
•Database •Technology
•Statistics
•Machine •Learning
•Data Mining
Visualization
•Information •Science
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
从商业数据到商业信息的进化
•进化阶 段
•商业问题
•支持技术
•产品厂家
•产品特点
•数据搜 集
(60年代)
•数据访 问
(80年代)
•数据仓 库;
决策支持 (90年代)
•数据挖 掘
(正在流 行)
PPT文档演模板
•“过去五年中我的总 收入是多少?”
•“在新英格兰的分部 去年三月的销售额 是多少?” •“ •在新英格兰的分部 去年三月的销售额 是多少?波士顿据 此可得出什么结 论?” •“下个月波士顿的销 售会怎么样?为什 么?”
的过程。〔技术角度的ຫໍສະໝຸດ 义〕o 数据挖掘可以描述为:按企业既定业务目标,对大 量的企业数据进行探索和分析,揭示隐藏的、未知 的或验证己知的规律性,并进一步将其模型化的有
效方法。〔商业角度的定义〕
o 数据挖掘相近的同义词包括:数据融合、数据分析 和决策支持等。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
聚类分析
o 聚类分析(Clustering Analysis)
聚类分析又称为“同质分组”或者“无 监督的分类”,指把一组数据分成不同的 “簇”,每簇中的数据相似而不同簇间的数 据则距离较远。相似性可以由用户或者专家 定义的距离函数加以度量。
好的聚类方法应保证不同类间数据的相 似性尽可能地小,而类内数据的相似性尽可 能地大。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘和OLAP
o 数据挖掘和OLAP有一定的互补性。在利用数据挖掘出 来的结论采取行动之前,你也许要验证一下如果采取这 样的行动会给公司带来什么样的影响,那么OLAP工具 能回答你的这些问题。
o 在知识发现的早期阶段,OLAP工具还有其他一些用途。 可以帮你探索数据,找到哪些是对一个问题比较重要的 变量,发现异常数据和互相影响的变量。这都能帮你更 好的理解你的数据,加快知识发现的过程。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
其它任务
o 其它任务 包括:偏差分析(Deviation Analysis)、孤 立点分析(Outlier Analysis)等。
随着数据挖掘技术的发展,可能还会继续出现 新的数据挖掘功能。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据有噪声的。传统数据分析方法的数据源一般都是清洁
好的、结构化的数据,数据挖掘则需要从不完全的、有噪声 的、模糊的数据中发现知识。
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据挖掘与传统数据分析方法区别
PPT文档演模板
数据可能是非结构化的。数据挖掘不仅可以处 理结构化的数据,而且可以处理半结构化或者 非结构化的数据。事实上,基于文本的数据挖 掘甚至互联网上的数据挖掘正是数据挖掘的研 究方向之一 。
o 网络时代面临的信息问题:
n 信息过量,难以消化; n 信息真假难以辨识; n 信息安全难以保证; n 信息形式不一致,难以统一处理。
o “要学会抛弃信息”
PPT文档演模板
数据仓库与挖掘第五章数据挖掘概述 [1]
数据爆炸但知识贫乏
数据库的容量已达上万亿水平(T)-- 1,000,000,000,000个字节
全球信息量以惊人的速度急剧增长--据估计,每二十 个月将增加一倍。