当前位置:文档之家› 【最新】数据挖掘课件PPT (获奖作品)图文

【最新】数据挖掘课件PPT (获奖作品)图文


数据挖掘的演化
进化阶段 商业问题 支持技术 产品厂家 产品特点 提供历史性 的、静态的 数据信息 数据搜集 (60年代) ―过去五年中我的总 收入是多少?” 计算机、磁带和磁盘 IBM,CDC
数据访问 (80年代)
―在新英格兰的分部 去年三月的销售额 是多少?”
关系数据库(RDBMS), 结构化查询语言(SQL), ODBC Oracle、Sybase、 Informix、IBM、Microsoft
数据挖掘与传统数据分析方法区别
在缺乏强有力的数据分析工具而不能 分析这些资源的情况下,历史数据库也就 变成了“数据坟墓”-里面的数据几乎不 再被访问。也就是说,极有价值的信息被 “淹没”在海量数据堆中,领导者决策时 还只能凭自己的经验和直觉。因此改进原 有的数据分析方法,使之能够智能地处理 海量数据,即演化为数据挖掘。
联机分析处理(OLAP)、 多维数据库、数据仓库
Oracle、Sybase、 Informix、IBM、 Microsoft
在记录级提 供历史性的、 动态数据信 息
―在新英格兰的分部 数据仓库; 去年三月的销售额 决策支持 是多少?波士顿据 (90年代) 此可得出什么结 论?” 数据挖掘 (正在流 行) ―下个月波士顿的销 售会怎么样?为什 么?”
Statistics
Machine Learning
Data Mining
Visualization
Information Science
Other Disciplines
数据挖掘与统计学的关系
近几年,人们逐渐发现数据挖掘中有 许多工作都是由统计方法来完成的。甚至 有些人(尤其是统计学家)认为数据挖掘 是统计学的一个分支,当然大多数人(包 括绝大多数数据挖掘研究人员)并不这么 认为。 但是,统计学和数据挖掘的目标非常 相似,而且数据挖掘中的许多算法也源于 数理统计,统计学对数据挖掘发展的贡献 功不可没。
1.4 主要功能
例2:对比移动电话费月消费额超出1000元 的客户群与移动电话费月消费额低于100元 的客户群。 利用数据挖掘可作出如下描述:移动 电话月消费额超出1000元的客户80%以上 年龄在35-50岁之间,且月收入5000元以 上;而移动电话月消费额低于100元的客户 60%以上要么年龄过大要么年龄过小,且 月收入2000元以下。
主要内容
1. 概述 2. 数据仓库与OLAP技术 3. 数据挖掘技术
Hale Waihona Puke 4. 数据挖掘应用5. 数据挖掘工具 6. 数据挖掘实例
1 概述
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 背景 数据挖掘定义 基本概念 主要功能 数据挖掘模型 实现流程 数据挖掘的应用 未来趋势
1.1 背景
数据挖掘的发展趋势
近年来,数据挖掘的研究重点逐渐从 发现方法转向系统应用,注重多种发现策 略和技术的集成,以及多学科之间的相互 渗透。 例如,1998年在美国纽约举行的第四 届知识发现与数据挖掘国际学术会议不仅 进行了学术讨论,并且有30多家软件公司 展示了他们的数据挖掘软件产品,不少软 件已在北美、欧洲等国得到应用。
CRISP-DM(Cross Industry Standard Process for Data Mining)模型
1.4 主要功能
6. 其它功能
包括:偏差分析(Deviation Analysis)、 孤立点分析(Outlier Analysis)等。 随着数据挖掘技术的发展,可能还会继 续出现新的数据挖掘功能。
1.5 数据挖掘模型
为了使数据挖掘技术在产业界得到更好的应 用,欧洲委员会联合一些数据挖掘软件厂商开发 了CRISP-DM(Cross Industry Standard Process for Data Mining)模型,目的是把数据挖掘的过程标 准化, 使数据挖掘项目的实施速度更快、成本更 低、更可靠并且更容易管理。 CRISP-DM模型最先在1996年被提出,当前 的白皮书版本是1.0。
国外数据挖掘的现状
自1989年KDD术语出现以来,由美国 人工智能协会主办的KDD国际研讨会已经 召开了10次以上,规模由原来的专题讨论 会发展到国际学术大会。而亚太地区也从 1997开始举行PAKDD年会。
国内数据挖掘研究现状
与国外相比,国内对数据挖掘的研究 起步稍晚,但发展势头强劲。 1993年,国家自然科学基金首次资助 复旦大学对该领域的研究项目。 目前,国内的许多科研单位和高等院 校竞相开展知识发现的基础理论及其应用 研究。
二十世纪末以来,全球信息量以惊人 的速度急剧增长—据估计,每二十个月将 增加一倍。许多组织机构的IT系统中都收 集了大量的数据(信息)。目前的数据库 系统虽然可以高效地实现数据的录入、查 询、统计等功能,但无法发现数据中存在 的关系和规则,无法根据现有的数据预测 未来的发展趋势。为了充分利用现有信息 资源,从海量数据中找出隐藏的知识,数 据挖掘技术应运而生并显示出强大的生命 力。
国外数据挖掘的现状
IEEE的Knowledge and Data Engineering会刊 率先在1993年出版了KDD技术专刊。并行计算、 计算机网络和信息工程等其他领域的国际学会、 学刊也把数据挖掘和知识发现列为专题和专刊讨 论。数据挖掘已经成了国际学术研究的重要热点 之一。 此外,在Internet上还有不少KDD电子出版物, 其中以半月刊Knowledge Discovery Nuggets最为 权威(/ subscribe.html)。 在网上还有许多自由论坛,如DM Email Club等。
在各种层次 Pilot、Comshare、 上提供回溯 Arbor、Cognos、 的、动态的 Microstrategy 数据信息
Pilot、Lockheed、 高级算法、多处理器计算机、 提供预测性 IBM、SGI、其他 海量数据库 的信息 初创公司
数据挖掘与其他科学的关系
Database Technology
相关主题