数据挖掘之基本流程
62%(age<30)and(age>24)
提取信息
总结算法
概要总结
概念描述
三、分类与预测
9
分类:就是找出一组能够描述数据集合典型特征的 模型(或函数),以便能够分类识别未知数据的归 属或类别(class),即将未知事例映射到某种离散 类别之一。
分类通常用于预测未知数据实例的归属类别(有限 离散值),如一个银行客户的信用等级是属于A级、 B级还是C级。
数据总结的方法:传统的也是最简单的 方法是对数据库的各个字段求和值、平 均值、方差值等统计值,或者用直方图、 饼状图等图形方式表示
二、概念描述
8
一个对含有大量数据的数据集合进行概述性的总结 并获得简明、准确的描述,这种描述就称为概念描 述(concept description)。
例子:一个数据挖掘系统需要从我校职工数据库中, 挖掘出我校讲师情况的概要总结,并给出(我校) 讲师概念描述。
1. 第一阶段 数据准备(又可分为 3 个子步骤)
17
数据变换 (Data Transformation):主要目的是:削减数据维数或降维即从 初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
2. 第二阶段 数据挖掘
18
首先要确定挖掘的任务或目的, 如分类、聚类或关联规则等。 确定任务后, 就要决定使用的挖掘算法;选择实现算法有两个考虑因素:
下列每项活动是否是数据挖掘任务?简单陈述你的理由?
2
(a)根据性别划分公司的顾客。 (b)根据可赢利性划分公司的顾客。 (c)预测投一对骰子的结果。
(d)使用历史记录预测某公司未来的股票价格。
内容要点
3
理解什么是KDD(知识发现)与KDD的基本流程; 了解CRISP DM的含义与基本流程; 了解数据挖掘的基本流程; 理解并掌握使用SPSS Modeler进行数据挖掘的基本方法;
因此一个组中数据对象间的相似度要比不同组数据 对象间的相似度要大。每一个聚类分析所获得的组 就可以视为是一个同类别归属的数据对象集合,更 进一步从这些同类别数据集,又可以通过分类学习
五、关联分析
11
关联分析(association analysis):从给定的数据集 发现频繁出现的项集模式知识(又称为关联规 则,association rules)。关联分析广泛应用于市场营 销,事务分析等应用领域。
对于一个商场经理,或许更想知道哪些商品是常在 一起购买,描述这样的情况的一条关联规则说明如 下:
六、异类分析
12
异类(outlier):那些不符合大多数数据对 象所构成的规律(模型)的数据对象就被称 为异类。
示例:异类分析可以用于从大量商品购买记录中, 依据各帐户平常所发生的购买行为,发现正在进行信 用卡诈骗的购买行为(异类行为)。
一是不同的数据有不同的特点; 二是用户或实际运行系统的要求。 有的用户可能希望获取描述型的、容易理解的知识;而有的只是希望获取预测准确度
尽可能高的预测型知识。
选择了挖掘算法后,就可以实施数据挖掘操作, 获取有用的模式。
KDD(Knowledge Discovery in Database)-知识发现
4
概念
规律
模式
规则
约束
1.什么是知识? 2.知识发现的概念描述!
知识发现
知识发现是从数据集中 识别出有效的、新颖的、 潜在有用的,以及最终 可理解的模式的非平凡 过程。
知识发现过程
选数择据算挖法掘主质要量考的虑好两坏个有因两素个:影响要素: 一一是是尽所量采选用取的与数数据据挖特掘征技相术关的的有算效法性; 二二是是用用户于或采实掘际的运数行据系的统质的量要和求数。量
解释评价
5
数据挖掘
预处理
变换
知识 抽取的信息
选取抽样
变换后数据 预处理数据
目标数据
数据集
数据准备
数据挖掘
可视化
知识发现过程示意图
结果表达与解释
知识发现的任务
6
数据总
结
建模Biblioteka 概念描 述异常分 析
知识发 现的任
务
分类与 预测
关联分 析
聚类分 析
一、数据总结
7
数据总结的目的:对数据进行浓缩,给 出它的紧凑描述
1. 第一阶段 数据准备(又可分为 3 个子步骤)
16
数据选取 (Data Selection):数据选取的目的是:确定发现任务的操作对 象, 即目标数据 (Target Data), 是根据用户的需要从原始数据库中抽取的 一组数据
数据预处理 (Data Preprocessing ):一般包括:消除噪声、推导计算缺值 数据、消除重复记录、完成数据类型转换等。如把连续值型数据转换为离散 型数据, 以便于符号归纳;或是把离散型数据转换为连续值型数据, 以便于 神经网络计算。
四、聚类分析
10
聚类分析(clustering analysis)中,首先需要根据 “各聚集(clusters)内部数据对象间的相似度最 大化;而各聚集(clusters)对象间相似度最小化” 的基本聚类分析原则,以及度量数据对象之间相似 度的计算公式,将聚类分析的数据对象划分为若干 组(groups)。
实践一
14
请回忆知识发现的过程包括哪些?
KDD过程可以概括为三部分:
15
数 选择 目标 预处理 预处理 转换 转换 数据挖掘 模 模式评价 知
据
数据
数据
数据
式
识
数据准备
数据挖掘
KDD 过程图
模式评价
数据准备 (Data Preparation)
数据挖掘 (Data Mining)
结果的解释和评估(Interpretation& Evaluation)。
数据挖掘之基本流程
内容回顾
1
1.什么是数据挖掘? 2.数据挖掘的基本方法?
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据 库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中 的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中 信息的过程。
七、演化分析
13
数据演化分析( evolution analysis):对 随时间变化的数据对象的变化规律和趋势进 行建模描述。
示例:利用演化分析方法可对股市主要股票交易数 据(时序数据,time-series data)进行分析,以便 获得整个股票市场的股票演化规律,以及一个特定 股票的变化规律