当前位置：文档之家› 聚类分析(生态)--生态学研究方法

聚类分析(生态)--生态学研究方法

一、数据变换
在实际中，不同的变量一般取值的量纲（单位）不同，为了使不同量纲的变量进行比较，消除聚类时量纲对聚类结果的影响，经常对原始数据作变换。常用的变换方法有：（1）中心化变换中心化变换是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值就得到中心化数据。设原始测量样本数据阵为X
（1）欧氏距离
2 dij (2) ( xik x jk ) k 1
P 1 2
(i, j 1,2,, n)
（5）
欧氏距离是在聚类分析中用得最广泛的距离。
（2）绝对值距离
d ij (1) xik x jk
k 1
PБайду номын сангаас
(i, j 1,2,, n)
nxp
（1）
n为样本容量（试验、观测次数），p为变量个数。
* 设中心化后的数据为 xij 则
* xij xij x j
(i 1,2,, n, j 1,2,, p)
(2)
其中
1 xj n
x
i 1
n
ij
( j 1,2, , p)
（2）标准化变换标准化变换的变换公式为：
在计算G7、G6间的距离，因为每类都有两个样品，所以考察d13,d14,d23,d244个样品间距离的大小，由表-1可知，四个距离中最短为2.5，即D67=2.5。
表-3 3类之间的最短距离D2
Min{Gi,Gj} G6={X1,X2} G7={X3 X4 } G5={X5} G6 0 2.5 6 G7 0
二、相似系数与距离的定义
目前已设计了多种相似系数和距离，下面介绍在聚类分析中常用的几种。 1. 距离
设
X i xi1 , xi 2 , , xip ,

i 1,2, , n.
为从总体中取得的一样本容量为n的样本，每个样本点为p维空间中一个向量，用dij 表示Xi 与Xj 的距离，则常用的距离有以下几种：

nj 2 ni 2 Dsi Dsj nr nr
（18）
6. 可变类平均法在类平均法递推公式中Gi，Gj之间的距离没有反映进去，为修改公式(23)得到推公式
2 G rs
nj ni 2 2 2 （19） (1 ) D si (1 ) D sj D si nr nr
一、聚类方法 1. 最短距离法设G1 ，G2 ，……，Gn 表示n类，dkl 表示样品k，l间的距离， Dij表示类Gi，Gj间距离，则
Dij mind kl
kGi lG j
（9）
最短距离法的聚类步骤为：（1）计算所有样品间的距离，得距离矩阵D(0)，各样品自成一类，此时Dij=dij。（2）在D(0)非对角线元素中选取最小元素，设为Dij，将Gi与 Gj合并为一类，记作Gr,则{Gi, Gj}即Gr 中样品为Gi ，Gj中全部样品。
5个样品聚类过程谱系图
2. 最长距离法最长距离法规定两类间的距离为两类中最远样品间的距离，即：
Dij maxd kl
kGi lG j
（11）
同最短离法步骤一样，只是在两类Gi ，Gj 合并为新类Gr时，Gr与其类Gs间距离为：
Drs max Dis , D js

（12）
1 Xr ni X i n j X j nr

（15）
如果类Gs的重心为 X s , 则类Gs与Gr的距离平方为
ni 2 nj 2 ni n j 2 D Dsi Dsj Dij （16） nr nr nr nr
2 rs
5. 类平均法类平均法以两类样品两两之间的距离平方和的平均值确定两类之间的距离平方即：
d12=d21=|xi1-xj1|=|1-2|=1.0
同理，计算其它样品两两之间的距离，结果列于表-1。
表-1 5个样品原始距离
dij x1 x2 x3 x4 x5
x1
x2 x3
0
[1 ]
0 2.5 0
3.5
x4
x5
5
7
4
6
1.5
3.5
0
2 0
2. 定义类与类间的距离。采用最短距离法。
3. 逐步归类。开始5个样品自成一类，即5类，类间距离即为样品间距离，Dij=dij。由表-1中样品间距离，可知样品X1(属于 G1类）和样品X2 （属于G2类）之间的距离d12=1最小。因此首先合并G1类与G2类为新类G6类；然后计算G6和G3、G4、 G5间的距离，列于表-2。
第二节系统聚类分析法
在聚类方法中，系统聚类是一种广为流传的方法，这种方法开始把每个样品都看成一类，n个样品视为n类，然后按一定原则缩小类数，直到所有样品并为一类为止。
系统聚类法：先将每个样品视为一类，然后定义样品间的距离（或相似系数）和类与类间的距离，聚类过程是首先选择距离最小的两类合并为一类，再按类间距离的定义，计算新类与其它类间的距离; 再将距离最近的两类合并为一类；如此继续，直至所有样品归为一类。类与类间的距离又有不同的定义方法，因此产生了系统聚类的不同方法，而常用的有八种方法：最短距离法，最长距离法，中间距离法，重心法，类平均法，可变类平均法，可变法和离差平方和法。下面分别介绍这些方法。
x11 x12 x1 p x21 x22 x2 p X nxp x n1 xn 2 xnp
(1)
x11 x12 x1 p x 21 x 22 x 2 p X x n1 x n 2 x np
第一节聚类分析基础
聚类分析都是依据一定的条件进行的，我们把这些条件叫做指标或变量，而把要进行分类的对象叫样品。为了根据变量对样品进行分类，就要研究样品间的关系，而描述这种关系的方法通常有两种，一种是距离法；另一种为相似系数法。样品间的距离与相似系数又有多种不同定义方法。依据变量对样品进行分类时，在计算距离或相似系数时，一般与变量的取值关系很大，因此经常将数据进行一些适当的处理。
3. 中间距离法中间距离法定义类间距离采用介于最短距离与最长距离法之间的距离。设某一步将Gi与Gj 合并为Gr ，则Gr与其它类Gs 间的距离定义为：
1 2 1 2 1 2 Drs Dsi Dsj Dij 2 2 4
几何意义如下图所示
（13）
中间距离法可推广到更一般的形式
1 2 1 2 2 D rs D si D sj Dij 2 2
聚类分析方法
聚类方法也称为集群方法。聚类分析
（Cluster Analysis）是应用多元统计分析原理研究分类问题的一种数学方法，近年来已被广泛用于地质勘探、天气预报、作物分类等许多方面。生态学数量分类的研究是从20世纪50年代开始的， 60年代后许多具有不同观点的传统学派都进行了数量分类的研究。近年来国内也开展了数量分类的研究，并取得了一定的成绩。
2 Dij
1 ni n j
kGi lG j

2 d kl
（17）
如果Gi 与Gj 类合并为Gr ，则新类Gr 与其它类间的距离平方如下计算
2 G rs
1 nr ns
kGs lGr

2 d kl
1 2 2 d kl d kl n r n s kG kGs s lG j lGi
上式中>0时，有空间压缩作用，当=0时，聚类空间守恒，当<0时，有空间扩张作用，一般情况下，常取负值且
1 4
7. 可变法可变法的递推公式为：
2 Drs
1 2 2 2 Dsi Dsj Dij 2
1 4

（20）
其中， 1 ，且常取
8. 离差平方和法假定已将n个样品分为k类：G1, G2,……, Gk。Xij表示Gj类中第i个样品，记nj为Gj中样品数， X 表示Gj的重心，则Gj中样品的离差平方和为：
（2）相关系数设rij为n维向量Xi与Xj之间的相关系数，则
rij
x
k 1
n
ki
xi x kj x j
2

（8）
2
x
k 1
n
ki
xi
x
n k 1
kj
xj
距离与相似系数的选择是一个比较复杂，带主观性的问题，一般需作具体分析，在多次聚类分析过程中，可多试探几种距离进行聚类，从中总结经验，以选择合适的距离。
例. 设有5个样本，并假定每个样本仅有一个特征或变量描述，其值分别为：1.0，2.0，4.5，6.0，8.0。用最短距离法定义类间距离，将5个样品进行聚类分析。
解：聚类分析过程如下： 1. 计算全部样品两两之间的距离。样品间距离采用绝对值距离 |Xi-Xj|
例如第1个样品与第2个样品间的距离为：
（6）
2. 相似系数聚类分析除了研究样品的分类外，有时也需要对变量分类。在对变量进行分类时，通常采用相似系数表示变量之间的亲疏程度。常用的相似系数有以下几种：（1）夹角余弦设Xi, Xj为n维空间中两个向量，（表示两个样品或两个变量的n次观测值）其夹角为ij。则夹角余弦为：
X i' X j X i' X j X
其中
（14）
1 0 4
4. 重心法重心法在定义两类之间的距离时，考虑了每一类中所包含的样品数，即以两类重心之间的距离，做为二类之间的距离 X ，设Gi与Gj类中分别含ni，nj个样品，其重心分别为 X i ， j ，将Gi与Gj合并为Gr类，则Gr中含nr = nI + nj个样品，其重心为：

e商务文档

聚类分析(生态)--生态学研究方法

相关文档推荐：