当前位置:文档之家› 第一章数据挖掘概述

第一章数据挖掘概述

的抽象表示” 信息 是“数据所表示的语义” 知识 是“以各种不同方式把多个信息关联在一起的信
息结构”或者说知识是“多个信息之间的关联”。-》
客观世
收 数分
信 深入分


集 据析



决策和行动
图1.1
“信息贫乏”(Information poor) “数据关在牢笼中”(data in jail),
奈斯伯特(John Naisbett)惊呼 “Wear drowning in information,but starving for
knowledge”(人类正被数据淹没,却饥渴于知识)。
面临浩渺无际的数据,人们呼唤从数据汪洋中来一 个去粗存精、去伪存真的技术,使之能从已有信息中发 现模式或规律,使之能够智能地、自动地将这些原始数 据转化处理为有用的信息和知识。
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据爆炸,知识贫乏
银行信用卡的发放 保费的确定 商品进货量的确定 油井的加压注水措施 广告与销售之间的关联 商品的关联销售 客户群的分析 客户流失分析等等
结果,收集在大型数据库中的数据变成了 “数据坟墓”——难得再访问的数据档案。 这样,重要的决定常常不是基于数据库中信息丰富的
数据,而是基于决策者的直觉,因为决策者缺乏从海 量数据中提取有价值知识的工具
数据和信息之间的鸿沟要求系统地 开发数据挖掘工具,将数据坟墓转 换成知识“金块”。
气温的变化让购买行为发生了哪些改变? 竞争对手的新包装对销售产生了怎样的影响? 不少问题目前也可以回答,但它们更多是基于经验, 而不是基于数据。
案例2:阿迪达斯的“黄金罗盘”
案例3:数据权之争
案例4:《纸牌屋》你学不会
案例5:定制爱情
一、数据丰富与知识贫乏
数据、信息和知识 数据 是“客观事物的属性、数量、位置及相互关系等
在何种数据源上进行数据挖掘 数据挖掘所依赖的数据来源多种多样,可以是常用
的关系数据库、事物数据库、文本数据库、多媒体数 据库等,主要取决于用户的目的及所处的领域。
由以下步骤组成: 1、数据清理 消除重复的、不完全的、违反语义约束的数据 2、数据集成 多种数据源可以组合在一起
3、数据选择 从数据库中检索与分析任务相关的数据
三、数据挖掘的体系结构 基于这种观点,典型的数据挖掘系统具有以下主要
成分(见图1-5):
四、数据挖掘的学科体系
数据挖掘涉及多学科技术的集成,包括: 数据库技术、统计学、机器学习、高性能计算、模 式识别、神经网络、数据可视化、信息检索、图象 与信号处理和空间数据分析。
●根据采用的技术分类,最常用的数据挖掘技术有: 统计方法 机器学习方法 神经计算 可视化
4、数据变换 数据变换或统一成适合挖掘的形式,如通过汇总或聚集操

5、数据挖掘 使用智能方法提取数据模式
6、模式评估 根据某种兴趣度度量,识别表示知识的真正有趣的
模式 7、知识表示
使用可视化和知识表示技术,向用户提供挖掘的知 识
这些知识可以直接提供给决策者,用以辅助决策过程; 或者提供给领域专家,修正已有的专家体系;也可以作 为新的知识转存到应用系统的知识存储机构中,比如专 家系统、规则库等。
数据挖掘
数据仓库的产生
数据仓库技术是随着人们对大型数据库系统研究的 不断深入,在传统数据库技术基础之上发展而来的, 其主要目的就是为决策提供支持,为OLAP、数据挖 掘深层次的分析提供平台。 数据仓库是一个和实际应用密不可分的研究领 域,与传统数据库相比,数据仓库不仅引入了许多 新的概念,而且在体系结构、数据组织等方面,均 有其自身的特点。
1.2 数据挖掘基本知识
一、数据挖掘的定义 简单地说,数据挖掘是从大量数据中提取
或“挖掘”知识。
定义1:KDD就是要从大量的、不完全的、有噪声的、模糊 的、随机的实际应用数据中,提取隐含在其中的、人们 事先不知道的、但又是潜在有用的信息和知识。
二、数据挖掘的步骤
KDD定义中的“非平凡性”主要强调其搜索有一定的自动 性、智能性,而并非对数据集中的每一点都要遍历到。 它是一个多步骤的处理过程,多步骤之间相互影响、 反复调整,形成一种螺旋上升过程。如下图:
《数据仓库与数据挖掘》
主讲教师: 胡晓晖 联系方式:1085206157@
1.1-----数据挖掘的产生背景
应用驱动
从数据中挖掘“金子”
案例1:农夫山泉用大数据卖矿泉水
发挥您的想象力,选择您认为可是的答案
胡健想知道的问题包括:
怎样摆放水堆更能促进销售?
什么年龄的消费者在水堆前停留更久,他们一次购 买的量多大?
1.统计方法
统计方法是从事物的外在数量上的表现去推断该事 物可能的规律性. 最初总是从数量表现上通过统计分析看出一些线索, 然后提出一定的假说或学说,做进一步深入的理论研 究. (1)传统统计方法
传统的统计学所研究的主要是渐进理论,即当样本 趋向无穷多时的统计性质.统计方法主要考虑测试预 想的假设是否与数据模型拟合.
而计算机另一个领域---人工智能的发展,使得这 种“发现”成为可能。于是,从数据库中发现知识(KDD) 及其核心技术——数据采掘(DM)便应运而生了。
数据爆炸但知识贫乏
数据库越来越大
数据挖掘
可怕的数据
有价值的知识
二、数据挖掘的出现
数据挖掘是应用驱动的结果
近年来,数据挖掘之所以引起了信息产业界的极大关 注,其主要原因是存在大量数据,可以广泛使用,并且 迫切需要将这些数据转换成有用的信息和知识。
统计方法的处理过程分:
① 搜集数据:采样、实验设计
② 分析数据:建模、知识发现
③ 进行推理:预测,分类

常见的统计方法
回归分析(多元回归)
判别分析(贝叶斯判别类等)
相关主题