当前位置:
文档之家› 数据仓库与数据挖掘教程(第2版)第六章 数据挖掘原理
数据仓库与数据挖掘教程(第2版)第六章 数据挖掘原理
数据挖掘综述—不完全数据处理
对“不完全数据(Incomplete Data)”的处理是知识发现过程中数 据预处理的主要内容。在现实领域,人们所拥有的数据常常是不完全 的,因此知识发现具有处理这种不完全数据并提供相应合理的近似结 果的能力。 实际情况下的数据很少是完全的:丢失的数据、观察不到的数据,隐 藏的数据、录入过程中发生错误的数据等在现实中是经常发生的。
分类 分类是在聚类的基础上,对已确定的类找出该类别的概念描述,它代 表了这类数据的整体信息,即该类的“内涵描述”
类的内涵描述分为:“特征描述”和“辨别性描述”。 “特征描述”是对类中对象的共同特征的描述; “辨别性描述”是对两个或多个类之间的区别的描述。
分类分析
分类分析就是通过分析、训练集中的数据,为每个类别建立 分类分析模型;然后用这个模型对数据库中的其他记录进行分类。 分类分析的输入集是一组记录集合和几种类别的标记。这个 输入集又称示例数据库或训练集。训练集中的记录称为样本。在 这个训练集中,每个记录都被赋予一个类别的标记。 典型案例:信用卡核准过程。信用卡公司根据信誉程度,将一组持 卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。 分类分析就是分析该组记录数据,对每个信誉等级建立分类分析模 型。如“信誉良好的客户是那些收入在5万元以上,年龄在40-50 岁之间的人士”。得出这个分类分析模型之后,就可根据这个分类 分析模型对新的记录进行分类,从而判断一个新的持卡人的信誉等 级是什么。
知识发现领域中对不完全数据的研究比较多的在于丢失的数据。 例如,在对个人调查时,被调查的对象可能会拒绝提供他的收入 情况,在一项实验过程中,某些结果可能会因为某些故障而丢失,这 些情况都会产生数据丢失。
处理丢失数据的方法有以下几种:
1、基于已知数据的方法 忽略掉丢失的数据而只对得到的数据进行挖掘和分析。该方法在数据量很大而且数据是完全 随机丢失的情况下可以得到满意的结果。 2、基于猜测的方法 通过猜测所丢失的值,得到完全的数据。猜测的具体方法有:均值替换法、概率统计法;回 归猜测。 3、基于模型的方法 对于丢失值构造一个适当的模型(非回归模型),然后在此模型下采用恰当的方法猜测丢失的 值,这是一种较为灵活的方法。 4、基于贝叶斯理论的方法 利用无教师指导的贝叶斯分类技术和贝叶斯网络处理丢失的数据。
马氏距离(Mahalanobis distance)的解释:
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的, 表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度 的方法。与欧氏距离不同,考虑到各种特性之间的联系(例如:一条关 于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且 是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为μ,
预测
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测 未来数据的种类,特征等。
典型的方法是回归分析,即利用大量的历史数据,以时间为变量
建立线性或非线性回归方程。预测时,只要输入任意的时间值,通 过回归方程就可求出该时间的预测值。
分类和预测 比较
数据挖掘综述—数据挖掘分类
数据挖掘涉及多个学科:数据库、统计学和机器学习三大主要技术。
如:鸡、鸭、鹅是不同类的动物,它们都是家禽,因此,把它们聚类 为“家禽”。 聚类方法包括统计分析方法,机器学习方法,神经网络方法等。
聚类
系统聚类法
快速聚类法
聚类及聚类类型
数据聚类 (Cluster) 主要是对静态数据分析,在许多领域受到广泛应用, 包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是 把相似的对象通过静态分类的方法分成不同的组别或者更多的子集 (subset),这样让在同一个子集中的成员对象都有相似的一些属性, 常见的包括在坐标系中更加短的空间距离等。 数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使 用过的聚类器进行分类,而分散型算法则是一次确定所有分类。
欧式距离(2-norm距离)的解释:
欧氏距离( Euclidean distance)也称欧几里得距离,它是一 个通常采用的距离定义,它是在m维空间中两个点之间的真实 距离。
曼哈顿距离(Manhattan distance, 1-norm距离)的解释:
Manhattan距离就是该点与相邻的上下左右四个方向的任一邻点的距 离,欧拉是两点的直线距离。 曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离,即 D(I,J)=|XI-XJ|+|YI-YJ|。对于一个具有正南正北、正东正西方向规 则布局的城镇街道,从一点到达另一点的距离正是在南北方向上旅行的 距离加上在东西方向上旅行的距离因此曼哈顿距离又称为出租车距离, 曼哈顿距离不是距离不变量,当坐标轴变动时,点间的距离就会不同。
在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。算法被广泛 应用到商业、网络安全等各个领域。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义 的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和 最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的 所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这 些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了 生成所有频集,使用了递归的方法。
数据分类步骤
数据分类步骤
建立模型
用模型进行分类
有指导学习和无指导学习
准备分类和预测的数据处理
偏差检测 数据库中的数据存在很多异常情况,偏差检测就是要从数据分析中发现这 些异常情况。
偏差包括很多有用的知识: 1、分类中的反常实例; 2、模式的例外; 3、观察结果对模型预测的偏差; 4、量值随时间的变化 偏差检测的基本方法是寻找观察结果与参照之间的差别。
距离测量
在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使 用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约 市区测量街道之间的距离就是由人步行的步数来确定的。 一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空 间中点到原点的距离,然后对所有距离进行换算。 常用的几个距离计算方法: 1、欧式距离(2-norm距离); 2、曼哈顿距离(Manhattan distance, 1-norm距离); 3、马氏距离; 4、海明距离;
协方差矩阵为Σ的多变量向量,其马氏距离为((x-μ)'Σ^(-1)(x-μ))^(1/2)。
如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧式距离,如果协 方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
海明距离(汉明距离)的解释:
“汉明距离”:是以理查德·卫斯里·汉明的名字命名的,汉明在误差检测 与校正码的基础性论文中首次引入这个概念。在通信中累计定长二进制字中 发生翻转的错误数据位,所以它也被称为“信号距离”。“汉明重量”分析 在包括信息论、编码理论、密码学等领域都有应用。但是,如果要比较两个 不同长度的字符串,不仅要进行替换,而且要进行插入与删除的运算,在这 种场合下,通常使用更加复杂的“编辑距离”等算法。 在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的字 符不同的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需 要替换的字符个数。 例如: “1与0之间的汉明距离是1”、“214 与 214 之间的汉明距离是 0”、“abcd” 与“aacd”之间的汉明距离是 1。“汉明重量”是字符串相对于同样长度的零 字符串的汉明距离,也就是说,它是字符串中非零的元素个数:对于二进制 字符串来说,就是 1 的个数。如“11101”的汉明重量是 4。
1、按数据库类型分类:关系数据挖掘、历史数据挖掘、空间数据挖掘等;
2、按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web数据挖 掘,由于这些数据都是非结构化数据,因此难度较大; 3、按数据挖掘任务分类:关联规则挖掘、序列模式挖掘、聚类数据挖掘、 分类数据挖掘、偏差分析挖掘、预测数据挖掘等; 4、按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类 、统计分析类、模糊数学类、可视化技术类等。
第六章 数据挖掘原理
KDD过程
数据准备 数据挖掘 结果评价
结果表达和解释 数据挖掘 数据转换 预处理 数据选择 模式 预处理后 转换数据 数据 知识
数据集成
目标数据 数据 数据源
关联分析 若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某 种关联,可以建立起这些数据项的关联规则。 例如,买面包的顾客有90%的人还买牛奶,这是一条关联规则。 早餐买面包的学生有80%买豆浆。
根据规则中所处理的值类型:布尔关联规则 、量化关联规则;
根据规则中设计的数据维: 单维关联规则、多维关联规则;
根据规则集所涉及的抽象层:单层关联规则、多层关联规则;
Apriori算法
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集算法。其核心是基于两
阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。
在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小 百分比的规则。这些规则会随着形式的变化做适当的调整。
时序模式中,一个有重要影响的方法是“相似时序”。要按时间顺序查 看时间事件数据库,从中找出另一个或多个相似的时序事件。
聚类 数据库中的数据可以划分为一系列有意义的子集,或把数据按照相似 性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异 。在没有类的数据中,按“距离”概念聚集成若干类。
算 法 流 程 图
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
一个例子
例子继续
例子继续