主成分分析法在排序中的应用
Ui ,
重复多次可得出P个特征向量,构成矩阵U
5 求排序坐标矩阵Y 6 求属性的负荷量
lij
Y UX
U11 U12 U U 22 U 21 U P1 U P2
U 1P U 2P U PP
Lij j U ji (i, j 1,2, P)
排序结果
排序的结果一般用直观的排序图表示, 排序图通常只能表现出三维坐标。 降低维数往往会损失信息 排序的一个重要内容就是降低维数,减少 坐标轴的数目
二维排序图 一个好的排序方法应该是由降低维数引起的 信息损失尽量少,即发生最小的畸变,也就 是说它的低维排序轴包含大量的生态信息。
一维排序图
三维排序图
是第i个属性(种)对第j个主分量的负荷量。 矩阵表示:
L lij
例子
假定调查得到6个样方两个种的数据,得原始数据矩阵Z为
5 6 4 6 0 3 Z 11 8 7 6 2 2
第一步,数据中心化得
1 5 2 2 1 2 0 2 - 4 - 1 0 1 26 29 S XX T 2 0 29 62 5 2 1 0 - 4 - 4 - 4 - 4 - 1 - 4
主成分分析法在植被排序 中的应用
Contents
排序的概述 主分量分析
典范主分量分析
主坐标分析
排序方法的比较
排序的概述
排序最初的概念是指植 被样方在某一空间(一 维或多维)的排列,这 里的空间指植物种空间 或环境因素空间。它是 随着“植被连续体”概 念的提出而诞生的。
50年代,许多学者强调植被的连续性,认为分类 是确定植被间断性的有效方法,但不能用于解释 植被的连续性,因此,对排序方法才开始研究而 得以发展。当时的排序是用于分析群落 之间的连续分布关系。
3 主坐标分析
• 主坐标分析(principal coordinates analysis, PCOA)在外文文献中也有叫做principal axes analysis(PAA)的,它是Gower(1966,1967) 建立的排序方法。
• PCoA的计算原理与PCA相同,只是不像PCA只 用欧氏距离计算点间距离,它可以用各种距离系 数。所以,PCoA实际上是PCA的普通化。这一 改进是有益的,并在一些研究中表现出优越性。
29 U11 0 26 - 78.13 S I U 1 29 62 - 78.13 U12 0 29 U 21 0 26 - 9.87 S I U 2 29 62 - 9.87 U 22 0
排序结果用图形表示,得6个样方的PCA排序图: 5 3 2 4 1
6
• PCA是首次在低维空间排列样方而包含了 大多数数据信息的多元排序方法,受到不 少学者的喜爱,它在排序方法发展的过程 中有着重要的地位。 • PCA的最大缺点是它的线性模型,一般认 为,线性模型不能很好的反映植物种、植 被与环境间的关系,因此PCA结果的解释 较为困难而且带有较大的主观性。
* 新得到的值就是结合了环境因子的排序值,记作 y j 。
5)对样方排序值进行利差标准化
*'
y *' y * /S j j
式中, y j 为标准化后的值;S为离差,
S y* j
j 1
N
6)回到第2)步,重新计算种类排序新值,重复迭代,直到两次迭代结果基本 一致,这样就得到CPCA的第一排序轴,含种类第一排序轴和样方第一排序轴。 7)求第二排序轴。与第一排序轴一样,先进行1-4)步。接下来对样方排序 值进行正交化。 计算正交化系数v
1)任意选一组样方排序初始值 y j ,不应全部为0 ( j 1,2,, N为样方数) 2)计算种类排序值
mk
mk xkj y j
j 1
' 3)计算新的样方排序值 y j
N
( k 1,2, , P )
y
' j
x
k 1
P
kj
mk
4)以多元线性回归求各环境因子的回归系数 (b b0 , b1 , , bq ) , 这是普通回归分析。然后用 y j b0 b1 z1 j b2 z2 j bq zqj 求样方排序值,
4 求特征根所对应的特征向量
根据S矩阵的特征方程,第i个特征根和第i个特征向量有如下关系:
( S11 i ) S S I U i 21 S P1
解方程可以得到特征向量
U1i 0 ( S 22 i ) S 2 P U 2i 0 SP2 ( S PP i ) U Pi 0 S12 S1P
U 21 U 22 1
2 2
-52.13 29
0.486 特征向量矩阵 U - 0.875
0.87 0.486
第五步,求排序坐标
0.87 1 2 0 2 - 4 - 1 0.486 Y UX - 0.875 0.486 5 2 1 0 - 4 - 4 2.72 0.87 0.97 - 5.44 - 3.98 4.86 1.55 - 0.78 0.49 - 1.75 1.56 - 1.07
到50年代后期,排序概念已趋于完 善,其不仅排列样方,也可以排列 植物种及环境因素,用于研究群落 之间、群落与成员之间、群样方或植物种排列在一定的空间,使得排 序轴能够反映一定的生态梯度,从而能够解释植被或植物 种的分布与环境因子间的关系,也就是说排序是为了揭示 植被-环境间的生态关系。
y j b0 b1 z1 j b2 z2 j bq zqj
b0
为截距; 为第i个环境因子的回 b
i
式中, 为第j个样方的排序值; y
j
归系数( i 1,2,, q为环境因子的数目)可以用多元线性回归求得; z ij 为第i个环境因子观测值。
用迭代过程进行CPCA计算 首先对原始数据进行中心化,将中心化后的种类数据矩阵记为 X xij
展开两个联立方程
- 52.13U 11 29U 12 0 29U 11 16 .13U 12 0
16.13U 21 29U 22 0 29U 21 52 .13U 22 0
U11 U12 1
2 2
再依正交矩阵的特点
U 21 U 22
U11
U12
29 52.13
• 因此,排序也叫梯度分析(gradient analysis)。
• 简单的梯度分析是研究植物种和植物群落在某一环境梯度 或群落线(coenocline)上的变化,也就是一维排序。
• 复杂的梯度分析是揭示植物种和群落在某些环境梯度(群 落面coenoplane或群落体coenocube)上的变化,这相 当于二维或多维排序。
S12 S1P ( S11 ) S ( S 22 ) S2 P 21 0 根据S矩阵的特征方程 S I S P1 SP2 ( S PP ) 求得P个特征根,并依大小排列:
1 2 P
PCA的分析过程
1 标准化
种中心化:
样方中心化:
X ij Zij - zi (i 1,2,, P)(种数)
X ij Zij - z j ( j 1,2,, N )(样方数)
_
_
中心化后的数据矩阵为: X xij
2 计算属性间内积矩阵S 3 求内积矩阵S的特征根
S XX T
而成为方法的组成部分;
所有排序方法对二元数据和数量数据都适合,没有特殊要求。 分类方法有的只能使用二元数据。
种类环境关系模型 所有排序方法都是基于一定的模型之上,这种模型反映植物种和环境之间的关
系以及在某一环境梯度上的种间关系。最常用的关系模型有两种: 直线线性关系 线性模型 关 系 模 型 非线性模型
2
典范主分量分析
为了更好地研究环境因子对群落的作用,将主分量分析与环境因子结合起来, 就形成了典范主分量分析(CPCA)。由于它结合了环境矩阵,能够更好地 反映群落与环境间的生态关系。 CPCA是PCA与多元回归的结合,其结合方式为:在PCA分析的每一步 都与环境因子进行回归,再将回归系数结合到下一步排序值的计算之中。 与环境因子的结合方式:
梯度分析
直接梯度分析
间接梯度分析
同时使用植物种的 组成数据和环境因子组成 数据的排序
只使用植物种的组成 数据的排序
直接梯度分析因为使用了环境因子组成 数据,排列轴的生态意义往往是一目 了然的,在结果解释上比较容易。
间接梯度分析完成后,研究者需要通过 再分析找出排列轴的生态意义,再用其 解释植物群落或植物种在排序图上的分布
第二步,计算内积矩阵S
1 2 0 2 - 4 - 1 X 5 2 1 0 - 4 - 4
第三步,求S的特征根
26 - S I 29
29 2 88 771 0 62 -
得
1 78.13 , 2 9.78
第四步,求S的特征向量
基于线性模型上所建立的排序方法
线性排序 (以主分量分析(PCA)为主)
曲线线性关系
二次曲线模型(高斯模型或高斯曲线)
非线性排序 (以对应分析(CA)为主)
1
主分量分析
主分量分析(PCA)也叫做主成分分析,它是1954年由 Goodall引入植被分析,但该方法的数学分析早在1933年 Hotelling就已开始使用。 PCA是第一个完全基于植被结构或组成数据之上而不须要 考虑环境梯度、不须要选择端点和权重的排序方法。 Goodall(1954)当时称PCA为因子分析,但现在已明确 了分量和因子的区别,主分量分析的名称早已被公认了。 PCA不需要主观选择端点、权重等,因此其结果更接近实 际。 但PCA计算复杂,必须使用计算机才能完成,致使PCA直 到20世纪60年代后期才被大量应用,从那时起到80年代 中期,PCA一直是较普遍使用的方法。