当前位置:文档之家› 聚类分析

聚类分析

聚类分析聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

聚类分析内容非常丰富,按照分类对象的不同可分为样品分类(Q-型聚类分析)和指标或变量分类(R-型聚类分析);按照分类方法可分为系统聚类法和快速聚类法。

1. 系统聚类分析先将n 个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。

选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。

这样,每次合并减少一类,直至所有的样品都归成一类为止。

系统聚类法直观易懂。

1.1系统聚类法的基本步骤:第一,计算n 个样品两两间的距离 ,记作D= 。

第二,构造n 个类,每个类只包含一个样品。

第三,合并距离最近的两类为一新类。

第四,计算新类与各当前类的距离。

第五,重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。

第六,画聚类谱系图。

第七,确定类的个数和类。

1.2 系统聚类方法:1.2.1最短距离法1.2.2最长距离法1.2.3中间距离法1.2.4重心法1.2.5类平均法1.2.6离差平方和法(Ward 法)上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。

最常用的就是最短距离法。

1.3 最短距离法以下用ij d 表示样品i X 与j X 之间距离,用ij D 表示类i G 与j G 之间的距离。

定义类i G 与j G 之间的距离为两类最近样品的距离,即ij G G G G ij d D j J i i ∈∈=,min设类p G 与q G 合并成一个新类记为r G ,则任一类k G 与r G 的距离是:ij G X G X kr d D j j i i ∈∈=,min ⎭⎬⎫⎩⎨⎧=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {}kq kp D D ,min = 最短距离法聚类的步骤如下:ij d {}ij d(1)定义样品之间距离,计算样品两两距离,得一距离阵记为)0(D ,开始每个样品自成一类,显然这时ij ij d D =。

(2)找出)0(D 的非对角线最小元素,设为pq D ,则将p G 和q G 合并成一个新类,记为r G ,即{}q p r G G G ,=。

(3)给出计算新类与其它类的距离公式:{}kq kp kr D D D ,min =,将)0(D 中第p 、q 行及p 、q 列用上面公式并成一个新行新列,新行新列对应r G ,所得到的矩阵记为)1(D 。

(4)对)1(D 重复上述对)0(D 的(2)、(3)两步得)2(D ;如此下去,直到所有的元素并成一类为止。

如果某一步)(k D 中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。

最短距离法也可用于指标(变量)分类,分类时可以用距离,也可以用相似系数。

但用相似系数时应找最大的元素并类,也就是把公式),min(iq ip ik D D D =中的min 换成max 。

2. 快速聚类分析选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,再进行第二次分类,一直到所有样品不再调整为止。

动态聚类法计算简单,分类迅速,占用计算机内存少,特别是当样品数较大时,采用动态聚类法比较有利;但动态聚类法的分类结果与最初凝聚点的选择有关,有较大的不确定性。

聚类过程如下图所示:2.1第一,选择凝聚点;第二,初始分类,对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离向最近的凝聚点归类。

第三,修改分类,得到初始分类,计算各类的重心,以这些重心作为新的凝聚点,重新进行分类,重复步骤二,三,直到分类的结果与上一步的分类结果相同,表明分类已经合理为止。

凝聚点就是一批有代表性的点,是欲形成类的中心。

凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。

故选择时要慎重。

2.2 通常选择凝聚点的方法(1)人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。

(2)重心法,将数据人为地分为A 类,计算每一类的重心,将重心作为凝聚点。

(3)密度法,以某个正数d 为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)称为这个样品的密度。

计算所有样品点的密度后,首先选择密度最大的样品为第一凝聚点。

然后选出密度次大的样品点,若它与第一个凝 聚点的距离大于2d ,则将其作为第二个凝聚点;否则舍去这点。

这样,按密度由大到小依次考查,直至全部样品考查完毕为止.此方法中,d 要给得合适,太大了使凝聚点个数太 少,太小了使凝聚点个数太多。

(4)人为地选择一正数d ,首先以所有样品的均值作为第一凝聚点。

然后依次考察每个样品,若某样品与已选定的凝聚点的距 离均大于d ,该样品作为新的凝聚点,否则考察下一个样品。

3.聚类分析度量方法:距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。

目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。

比较相似的样品归为一类,不怎么相似的样品归为不同的类。

另一种方法是将一个样品看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。

设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为px x x np n n p p n x x x x x x x x x X X X X 2122221112112121 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡= 其中),,1;,,1(p j n i x ij ==为第i 个样品的第j 个指标的观测数据。

第i 个样品X i 为矩阵X 的第i 行所描述,所以任何两个样品K K 与X L 之间的相似性,可以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量K x 与L x 之间的相似性,可以通过第K 列与第L 列的相似程度来刻划。

3.1 距离如果把n 个样品(X 中的n 个行)看成p 维空间中n 个点,则两个样品间相似程度可用p 维空间中两点的距离来度量。

令d ij 表示样品X i 与X j 的距离。

常用的距离有:3.1.1明氏(Minkowski )距离q pa q ja ia ij x x q d 11)(⎪⎪⎭⎫ ⎝⎛-=∑=当q =1时,∑=-=pa ja ia ij x x d 1)1( 即绝对距离当q =2时,112)()2(⎪⎪⎭⎫ ⎝⎛-=∑=p a ja ia ij x x d 即欧氏距离当∞=q 时,ja ia pa ij x x d -=∞≤≤1max )( 即切比雪夫距离 当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。

明氏距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。

但明氏距离存在不足之处,主要表面在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。

除此之外,从统计的角度上看,使用欧氏距离要求一个向量的n 个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误结论。

因此一个合理的做法,就是对坐标加权,这就产生了“统计距离”。

比如设),,,(21'=p x x x P ,),,,(21'=p y y y Q ,且Q 的坐标是固定的,点P 的坐标相互独立地变化。

用s 11,s 12,…,s pp 表示p 个变量p x x x ,,,21 的n 次观测的样本方差,则可以义P 到Q 的统计距离为:ppp p s y x s y x s y x Q P d 22222211211)()()(),(-++-+-= 所加的权是ppp s k s k s k 1,,1,1222111=== ,即用样本方差除相应坐标。

当取021====p y y y 时,就是点P 到原点O 的距离。

若pp s s s === 2211时,就是欧氏距离。

1.3.2马氏(Mahalanobis )距离马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。

这一距离在多元统计分析中起着十分重要的作用,下面给出定义。

设∑表示指标的协差阵即:p p ij ⨯=∑)(σ∑==---=na j aj i ai ij x x x x n 1p ,1,j i, ))((11 σ ;∑∑====na aj j na ai i x n x n x 111x 1 如果1-∑存在,则两个样品之间的马氏距离为)()()(12j i j i ij X X X X M d -∑'-=-这里i X 为样品i X 的p 个指标组成的向量,即原始资料阵的第i 行向量。

样品j X 类似。

顺便给出样品X 到总体G 的马氏距离定义为)()(),(12μμ-∑'-=-X X G X d其中μ为总体的均值向量,∑为协方差阵。

马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。

除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。

1.3.3兰氏(Canberra )距离它是由Lance 和Williams 最早提出的,故称兰氏距离。

∑==+-=p a ja ia ja ia ij x x x x p L d 1n ,1,j i, 1)(此距离仅适用于一切0>ij x 的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。

计算任何两个样品i X 与j X 之间的距离ij d ,其值越小表示两个样品接近程度越大,ij d 值越大表示两个样品接近程度越小。

如果把任何两个样品的距离都算出来后,可排成距离阵D :⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nn n n n n d d d d d d d d d D 212222111211 其中02211====nn d d d 。

D 是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。

根据D 可对n 个点进行分类,距离近的点归为一类,距离远的点归为不同的类。

3.2相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:3.2.1夹角余弦这是受相似形的启发而来的,下图曲线AB 和CD 尽管长度不一,但形状相似。

相关主题