当前位置:文档之家› 聚类分析学习总结

聚类分析学习总结

聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析主要目的是研究事物的分类,而不同于判别分析。

在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。

若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。

在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。

1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。

距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。

样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。

通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。

2.定性变量:并不是数量上有变化,而只是性质上有差异。

定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。

⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。

下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。

1.1.距离1. 数据矩阵设ij x 为第i 个样品的第j 个指标,数据矩阵如下表表1 数据矩阵在上表中,每个样品有p 个变量,故每个样品都可以看成是p R 中的一个点,n 个样品就是p R 中的n 个点。

在p R 中需定义某种距离,第i 个样品与第j 个样品之间的距离记为ij d ,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。

所定义的距离ij d 一般应满足如下四个条件:⑴0≥ij d ,对一切j i ,;且0),(=j i x x d 当且仅当j i x x =⑵ji ij d d =,对一切j i ,;⑶kj ik ij d d d +≤,对一切k j i ,,2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski )距离qp k q jk ik ij x x q d 11][)(∑=-=这里q 为某一自然数。

闵科夫斯基距离有以下三种特殊形式:1)当1=q 时,∑=-=pk jk ik ij x x d 1)1(称为绝对值距离,常被形象地称为“城市街区”距离;2)当2=q 时,2112][)2(∑=-=p k jk ik ij x x d ,称为欧氏距离,这是聚类分析中最常用的距离;3)当∞=q 时,jk ik pk ij x x d -=∞≤≤1m ax )(,称为切比雪夫距离。

)(q d ij 在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没有考虑指标间的相关性。

当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:令 j j ij ij s x x x -=*其中∑==n i ij j x n x 11为第j 个变量的样本均值,∑=--=ni j ij j x x n s 12)(11为第j 个变量的样本方差。

⑵兰氏(Lance 和Williams )距离当0>ij x (;,,2,1n i = p j ,,2,1 =)时,第i 个样品与第j 个样品间的兰氏距离为∑=+-=p k jk ik jk ik ij x x x x L d 1)(这个距离与各变量的单位无关,但没有考虑指标间的相关性。

⑶马氏距离(Mahalanobis )距离第i 个样品与第j 个样品间的马氏距离为)()'()(1j i j i ij x x S x x M d --=-其中)',,,(21ip i i i x x x x =,),,(21jp j j j x x x x =,S 为样品协方差矩阵。

使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S 难确定。

由于聚类是一个动态过程,故S 随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。

因此,在实际聚类分析中,马氏距离不是理想的距离。

⑷斜交空间距离第i 个样品与第j 个样品间的斜交空间距离定义为∑∑==*--=p k p l kl jl il jk ik ij r x x x xp d 12112]))((1[其中kl r 是变量k x 与变量l x 间的相关系数。

当p 个变量互不相关时,p d d ij ij )2(=*,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。

以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。

3.定性变量的距离下例只是对名义尺度变量的一种距离定义。

例1 某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(1x )取值为男和女;外语语种(2x )取值为英、日和俄;专业(3x )取值为统计、会计和金融;职业(4x )取值为教师和非教师;居住处(5x )取值为校内和校外;学历(6x )取值为本科和本科以下。

现有两名学员:=1x (男,英,统计,非教师,校外,本科)ˊ=2x (女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。

一般地,若记配合的变量数为1m ,不配合的变量数为2m ,则它们之间的距离可定义为 21212m m m d += 按此定义本例中1x 与2x 之间的距离为32。

1.2.匹配系数当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。

第i 个样品与第j 个样品的匹配系数定义为∑==pk k ij Z S 1,其中jk ik jkik k x x x x Z ≠=⎩⎨⎧=当当,0,1显然匹配系数越大,说明两样品越相似。

1.3.相似系数聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。

在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。

设ij c 表示i x 与j x 的相似系数,它一般应满足如下三个条件:⑴ 1≤ij c ,对一切j i ,;⑵ 1±=ij c ,当且仅当存在常数a 和b ,使得b ax x j i +=;⑶ ji ij c c =,对一切j i ,.最常用的相似系数有以下两种:1. 夹角余弦变量i x 与j x 的夹角余弦定义为 2112121][)1(∑∑∑===⋅=n k kj nk ki n k kj ki ij x x x x c 它是n R 中变量i x 的观测向量'21),,,(ni i i x x x 与变量j x 的观测向量'21),,,(nj j j x x x 之间夹角ij θ的余弦函数,即ij ij c θcos )1(=.2. 相关系数变量i x 与j x 的相关系数为∑∑∑===-⋅---=nk n k j kj i ki n k j kj i ki ij x x x x x x x x c 1211221]})([])({[))(()2(其中∑==n k ki i x x 1,∑==nk kj j x x 12.聚类分析从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。

传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS 、SAS 等。

从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。

聚类是观察式学习,而不是示例式的学习。

从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别的重要前提。

而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。

聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

2.1.聚类分析的流程及数据来源聚类分析法的主要流程包括: 数据预处理、为衡量数据点间的相似度定义一个距离函数、聚类或分组和评估输出, 用流程图描述如图1所示。

图 1 聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。

对机械故障模式识别而言, 首先要获取关于本机组的大量运行参数, 既要有机器平稳运行、正常工作时的数据, 更要有机器出现故障时的数据, 并且获知故障的类别。

这样, 由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。

这里用到的数据就是设备的点检数据。

2.2. 常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchical clustering method )是目前使用最多的一种方法。

其基本思想是首先将n 个样品看成n 类(即一类包括一个样品),然后规定样品之间的距离和类与类之间的距离。

将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。

将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。

系统聚类法的步骤为:①首先各样品自成一类,这样对n 组样品就相当于有n 类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。

下面以最短距离法为例来说明系统聚类法的过程。

最短距离法的聚类步骤如下:① 规定样品之间的距离,计算样品的两两距离,距离矩阵记为()0S ,开始视每个样品分别为一类,这时显然应有pq d q p D =),(;② 选择距离矩阵()0S 中的最小元素,不失一般性,记其为),(q p D ,则将pG 与q G 合并为一新类,记为m G ,有q p m G G G ⋃=;③ 计算新类m G 与其他各类的距离,得到新的距离矩阵记为()1S ;④ 对()1S 重复开始进行第②步,…,直到所有样本成为一类为止。

值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,则可以将其同时合并。

(2) 动态聚类法开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。

相关主题