当前位置:文档之家› 聚类分析(生态)--生态学研究方法

聚类分析(生态)--生态学研究方法


一、 数据变换
在实际中,不同的变量一般取值的量纲(单位)不同, 为了使不同量纲的变量进行比较,消除聚类时量纲对聚类结 果的影响,经常对原始数据作变换。常用的变换方法有: (1)中心化变换 中心化变换是先求出每个变量的样本平均值,再从原始数据 中减去该变量的均值就得到中心化数据。 设原始测量样本数据阵为X
(1)欧氏距离
2 dij (2) ( xik x jk ) k 1
P 1 2
(i, j 1,2,, n)
(5)
欧氏距离是在聚类分析中用得最广泛的距离。
(2)绝对值距离
d ij (1) xik x jk
k 1
PБайду номын сангаас
(i, j 1,2,, n)
nxp
(1)
n为样本容量(试验、观测次数),p为变量个数。
* 设中心化后的数据为 xij 则
* xij xij x j
(i 1,2,, n, j 1,2,, p)
(2)
其中
1 xj n
x
i 1
n
ij
( j 1,2, , p)
(2)标准化变换 标准化变换的变换公式为:
在计算G7、G6间的距离,因为每类都有两个样品,所以 考察d13,d14,d23,d244个样品间距离的大小,由表-1可知,四个 距离中最短为2.5,即D67=2.5。
表-3 3类之间的最短距离D2
Min{Gi,Gj} G6={X1,X2} G7={X3 X4 } G5={X5} G6 0 2.5 6 G7 0
二、 相似系数与距离的定义
目前已设计了多种相似系数和距离, 下面介绍在聚类分析中常用的几种。 1. 距离

X i xi1 , xi 2 , , xip ,


i 1,2, , n.
为从总体中取得的一样本容量为n的样 本,每个样本点为p维空间中一个向量 ,用dij 表示Xi 与Xj 的距离,则常用的距 离有以下几种:


nj 2 ni 2 Dsi Dsj nr nr
(18)
6. 可变类平均法 在类平均法递推公式中Gi,Gj之间的距离没有反映进去,为 修改公式(23)得到推公式
2 G rs
nj ni 2 2 2 (19) (1 ) D si (1 ) D sj D si nr nr
一、 聚类方法 1. 最短距离法 设G1 ,G2 ,……,Gn 表示n类,dkl 表示样品k,l间的距离, Dij表示类Gi,Gj间距离,则
Dij mind kl
kGi lG j
(9)
最短距离法的聚类步骤为: (1)计算所有样品间的距离,得距离矩阵D(0),各样品自成 一类,此时Dij=dij。 (2)在D(0)非对角线元素中选取最小元素,设为Dij,将Gi与 Gj合并为一类,记作Gr,则{Gi, Gj}即Gr 中样品为Gi ,Gj中全部 样品。
5个样品聚类过程谱系图
2. 最长距离法 最长距离法规定两类间的距离为两类中最远样品 间的距离,即:
Dij maxd kl
kGi lG j
(11)
同最短离法步骤一样,只是在两类Gi ,Gj 合并为 新类Gr时,Gr与其类Gs间距离为:
Drs max Dis , D js


(12)
1 Xr ni X i n j X j nr




(15)
如果类Gs的重心为 X s , 则类Gs与Gr的距离平方为
ni 2 nj 2 ni n j 2 D Dsi Dsj Dij (16) nr nr nr nr
2 rs
5. 类平均法 类平均法以两类样品两两之间的距离平方和的平均值确定 两类之间的距离平方即:
d12=d21=|xi1-xj1|=|1-2|=1.0
同理,计算其它样品两两之间的距离,结果列于表-1。
表-1 5个样品原始距离
dij x1 x2 x3 x4 x5
x1
x2 x3
0
[1 ]
0 2.5 0
3.5
x4
x5
5
7
4
6
1.5
3.5
0
2 0
2. 定义类与类间的距离。采用最短 距离法。
3. 逐步归类。开 始5个样品自成一 类,即5类,类间 距离即为样品间 距离,Dij=dij。由 表-1中样品间距离, 可知样品X1(属于 G1类)和样品X2 (属于G2类)之 间的距离d12=1最 小。因此首先合 并G1类与G2类为 新类G6类;然后 计算G6和G3、G4、 G5间的距离,列 于表-2。
第二节 系统聚类分析法
在聚类方法中,系统聚类是一种广为流传的方法, 这种方法开始把每个样品都看成一类,n个样品 视为n类,然后按一定原则缩小类数,直到所有 样品并为一类为止。
系统聚类法:先将每个样品视为一类,然 后定义样品间的距离(或相似系数)和类与类 间的距离,聚类过程是首先选择距离最小的两 类合并为一类,再按类间距离的定义,计算新 类与其它类间的距离; 再将距离最近的两类合 并为一类;如此继续,直至所有样品归为一类 。 类与类间的距离又有不同的定义方法,因 此产生了系统聚类的不同方法,而常用的有八 种方法:最短距离法,最长距离法,中间距离 法,重心法,类平均法,可变类平均法,可变 法和离差平方和法。下面分别介绍这些方法。
x11 x12 x1 p x21 x22 x2 p X nxp x n1 xn 2 xnp
(1)
x11 x12 x1 p x 21 x 22 x 2 p X x n1 x n 2 x np
第一节 聚类分析基础
聚类分析都是依据一定的条件进行的,我们把 这些条件叫做指标或变量,而把要进行分类的对象 叫样品。为了根据变量对样品进行分类,就要研究 样品间的关系,而描述这种关系的方法通常有两种, 一种是距离法;另一种为相似系数法。样品间的距 离与相似系数又有多种不同定义方法。依据变量对 样品进行分类时,在计算距离或相似系数时,一般 与变量的取值关系很大,因此经常将数据进行一些 适当的处理。
3. 中间距离法 中间距离法定义类间距离采用介于最短距离与最长距离法 之间的距离。 设某一步将Gi与Gj 合并为Gr ,则Gr与其它类Gs 间的距离定 义为:
1 2 1 2 1 2 Drs Dsi Dsj Dij 2 2 4
几何意义如下图所示
(13)
中间距离法可推广到更一般的形式
1 2 1 2 2 D rs D si D sj Dij 2 2
聚类分析方法
聚类方法也称为集群方法。聚类分析
(Cluster Analysis)是应用多元统计分析原理研 究分类问题的一种数学方法,近年来已被广泛用 于地质勘探、天气预报、作物分类等许多方面。 生态学数量分类的研究是从20世纪50年代开始的, 60年代后许多具有不同观点的传统学派都进行了 数量分类的研究。近年来国内也开展了数量分类 的研究,并取得了一定的成绩。
2 Dij
1 ni n j
kGi lG j

2 d kl
(17)
如果Gi 与Gj 类合并为Gr ,则新类Gr 与其它类间的距离平方 如下计算
2 G rs
1 nr ns
kGs lGr

2 d kl
1 2 2 d kl d kl n r n s kG kGs s lG j lGi
上式中>0时,有空间压缩作用,当=0时,聚类空间守恒, 当<0时,有空间扩张作用,一般情况下,常取负值且
1 4
7. 可变法 可变法的递推公式为:
2 Drs
1 2 2 2 Dsi Dsj Dij 2
1 4


(20)
其中, 1 ,且常取
8. 离差平方和法 假定已将n个样品分为k类:G1, G2,……, Gk。Xij表示Gj类中 第i个样品,记nj为Gj中样品数, X 表示Gj的重心,则Gj中样 品的离差平方和为:
(2)相关系数 设rij为n维向量Xi与Xj之间的相关系数,则
rij
x
k 1
n
ki
xi x kj x j
2


(8)
2
x
k 1
n
ki
xi
x
n k 1
kj
xj
距离与相似系数的选择是一个比较复杂,带主观性的 问题,一般需作具体分析,在多次聚类分析过程中, 可多试探几种距离进行聚类,从中总结经验,以选择 合适的距离。
例. 设有5个样本,并假定每个样本仅有一个特征或变 量描述,其值分别为:1.0,2.0,4.5,6.0,8.0。用 最短距离法定义类间距离,将5个样品进行聚类分 析。
解:聚类分析过程如下: 1. 计算全部样品两两之间的距离。样品间距离采用绝 对值距离 |Xi-Xj|
例如第1个样品与第2个样品间的距离为:
(6)
2. 相似系数 聚类分析除了研究样品的分类外,有时也需要对变量分类。 在对变量进行分类时,通常采用相似系数表示变量之间的亲疏 程度。常用的相似系数有以下几种: (1)夹角余弦 设Xi, Xj为n维空间中两个向量,(表示两个样品或两个变量 的n次观测值)其夹角为ij。则夹角余弦为:
X i' X j X i' X j X
其中
(14)
1 0 4
4. 重心法 重心法在定义两类之间的距离时,考虑了每一类中所包含 的样品数,即以两类重心之间的距离,做为二类之间的距离 X ,设Gi与Gj类中分别含ni,nj个样品,其重心分别为 X i , j , 将Gi与Gj合并为Gr类,则Gr中含nr = nI + nj个样品,其重心为 :
相关主题