当前位置:文档之家› 第九章 地理系统聚类分析模型

第九章 地理系统聚类分析模型

第九章地理系统聚类分析模型第一节聚类分析的方法及变量模型聚类分析(Cluster Analysis)是数理统计中研究“物以类聚”的一种方法。

一、地理系统分类的意义对地理系统的研究很重要的一个问题就是进行地理分区与分类。

聚类分析法可避免传统分类法的主观性和任意性的特点。

但应特别引起注意的是,对地理数据处理不当,或只要求方法的新颖,有时分类的结果可能与地理实际不符合。

一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。

聚类分析法的基本特点二、聚类分析的方法聚类分析的职能是建立一种分类方法,它是将地理样品或变量,按它们在性质上的亲疏程度进行分类。

描述亲疏程度的两个途径当确定了样品或变量的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,主要的两种是:分类方法分类方法(续)在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性分类,变量的特性有三种类型:变量特性的三种类型1、名义特性(无序多态)2、顺序特性(有序多态)它是由一个有序状态序列所确定,指标量度时没有明确的数量关系,只有次序关系,如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”,又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。

3、数值特性(定量)它是由测量或计数、统计所得的量,如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。

不同类型的变量在定义距离相似性测度时有很大的差异,这里主要研究具有数值特性的变量的聚类分析问题。

聚类分析的分类R型聚类分析的作用选择变量的方法:在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值:r2 = Σr i2/(K-1)式中,K为该类的变量个数。

挑选r2值最大的变量x i作为该类的典型变量。

Q型聚类分析优点第二节系统聚类分析系统聚类分析(Hierachical Cluster Analysis)是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样品都可以采用系统聚类法。

选择不同的距离和聚类方法可获得满意的数值分类效果。

系统聚类法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止。

系统聚类法的分类步骤如下:(1)聚类前先对数据进行变换处理(假定在聚类处理之前,已经对变量进行了筛选,选择了那些相关性不很显著的而且贡献大的指标,而剔除了相关性很强的变量)。

(2)聚类分析处理的开始是各样品自成一类(n个样品一共有n类),计算各样品之间的距离,并将距离最近的两个样品并成一类。

(3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止。

(4)最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

一、数据变换处理在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理。

由于在抽取样本对数据进行量度处理时,不同指标(变量)一般都有不同的量纲,并且有不同的数量级单位,为了使不同量纲、不同数量级的数据能放在一起比较,通常需要对数据进行变换处理。

例1、研究世界各国森林、草原资源的分布规律,并抽取22个国家(即22个样品)数据,每个国家有4项指标,以此作聚类分析处理,原始数据见表表中所列的几个变量:森林面积、森林覆盖率、林木蓄积量、草原面积都分别有不同的量纲,而且数值的数量级也相差很大,为了在一起进行比较,需进行变换处理。

所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。

常用的变换方法1、中心化变换中心化是一种标准化处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。

设原始数据矩阵为:X=式中:m为样本数,n为变量数。

设中心化后的数据为x ij’则有:x ij’ = x ij - x jI=1,2,…,mj=1,2,…,n变换的结果使每列数据之和均为0,而且每列数据的平方和是该列数据方差的(n-1)倍,任何不同两列数据之交叉积是这两列的协方差的(n-1)倍,所以这是一种很方便地计算方差-协方差的变换。

中心化变换数据表2、规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量的最小值,再除以极差,就得到规格化数据。

原始数据仍见上表,规格化后的数据为x ij’则有:x ij’ =(x ij–min{x ij})/(max{x ij}-min{x ij})I=1,2,…,mj=1,2,…,n经过变换后,将每列的最大数据变为1,最小数据变为0,其余数据取值在0~1之间。

变换后的数据表3、标准化变换标准化变换方法主要是对变量的属性进行变换处理,首先对列进行中心化,然后用标准差进行标准化。

x ij’ =(x ij– x j)/ S jI=1,2,…,mj=1,2,…,n其中:x j =(1/n)Σx ijS j=[{(1/(n-1)}Σ(x ij– x j)2]1/2经过变换后,每列数据的平均值为0,方差为1,使用标准差标准化处理后,在抽样样本改变时,它仍然保持相对稳定性。

变换后的数据表4、对数变换对数变换可将具有指数特征的数据结构化为线性数据结构。

对数变换数据表此外,还有极差标准化、平方根变换、立方根变换等。

极差标准化变换和规格化类似,它是把每个变量的样本极差皆化为1,排除量纲的干扰。

立方根变换和平方根变换的主要作用是把非线性的数据结构变为线性数据结构,以适应某些统计方法的需要。

二、相似系数和距离目前已经设计了大量的相似系数和距离,据统计约有40多种。

但在数值分类中比较常用的却是少数,这里只介绍在聚类分析中常用的相似系数和距离。

1、距离设有数据矩阵为:x ij表示i个样品的第j个指标;第j个指标的均值和标准差为x j和s j;用d ij表示i个样品和j个样品之间的距离。

距离d ij应满足如下几个条件:(1) d ij≥0(一切i,j)常用的距离上述的各种距离是假定变量之间相互独立,即在正交空间中讨论的距离,但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的相关性影响,可以采用马氏距离。

(6)马氏距离(P.C.Mahalanobis)马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算的均值和协方差阵来计算马氏距离,效果不是很好的。

比较合理的办法是用各个类的样本来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。

而类的形成都要依赖于样品之间的距离,而样品的合理的马氏距离又依赖于类,这样就形成了一个恶性循环。

因此在实际聚类分析处理中,马氏距离也不是理想的距离。

为了克服变量间相关性的影响,我们引入了斜交空间距离。

(7)斜交空间距离在m维空间中,为使具有相关性的变量的谱系结构不发生变形,采用斜交空间距离,公式为:除了上述介绍的距离外,样本之间还可以用图论的方法来定义“链距离”,即有n 个样本,其中任两个样本x i与x j之间用链联接,在所有链中,最大边长中的最小者称为x i与x j之间的“链距离”。

2、相似系数聚类分析方法不仅用来对样本进行分类,而且需要对变量进行分类,在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。

相似系数定义如下:设C ij表示变量y i与y j之间的相似系数,则C ij 应满足如下关系:C ij应满足的关系常用的相似系数3、距离与相似系数选择原则一般说来,同一批数据采用不同的相似性尺度,会得到不同的分类结果。

产生不同结果的原因,主要是由于不同的指标所衡量的相似程度的物理意义不同,也就是说不同指标代表了不同意义上的相似性。

因此我们在进行数值分类时,应注意相似性尺度的选择,注意遵循下列基本选择原则:(1)所选择的相似性尺度在实际应用中应有明确的意义,如在地理变量分析中,常用相关系数表示地理意义之间的亲疏程度。

(2)根据原始数据的性质,选择适当的变换方法,不同的变换方法涉及到选用不同的相似系数,如标准化变换处理下,相关相似系数和夹角余弦一致;又如原始数据在进行聚类分析处理之前已经对变量的相关性作了处理,则通常可采用欧氏距离,而不必选用斜交空间距离。

所选择的距离,还须和选用的聚类方法一致,如聚类方法选用离差平方和法时,距离只能选用欧氏距离。

(3)适当地考虑计算工作量的大小,如对大样本的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。

一般情况下,相关系数比相似系数具有更强的不变性,但相关系数比相似系数有绞强的分辨力。

距离系数与相似系数所得到的结果对比,相似系数的计算数值由大到小单调地减少,故聚类谱系图反映分群明显;而距离系数的数据呈现非单调增加,谱系图显得不如相似系数那样明显分组。

距离的选择是一个比较复杂、带主观性的问题,我们应根据研究对象,作具体分析,在多次进行聚类分析过程中,逐步总结经验,以选择合适的距离。

在初次进行聚类分析处理时,不妨多试探选择几个距离,进行聚类,作对比、分析,以确定合适的距离系数。

三、聚类方法系统聚类方法的基本算法是将n个样品自成一类,先计算(1/2)n(n-1)个相似性测度,并且把具有最小测度的两个样品合并成两个元素的类;然后按照某种聚类方法计算这个类和其余n-2个样品之间的蹴,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品、样品与类、类与类)都要使测度在系统中保持最小,这样每次减少一类,直至所有样品都归为一类为止。

聚类的基本思想是把样本看成m维(m个指标)空间的点,而把每个变量看成m维空间的坐标轴。

如果我们选择的聚类方法是通过各个类之间所起的界面起作用,但不改变原来空间中的点的位置,这种聚类方法称为空间守恒;如果我们所选择的聚类方法,使得由于一个类的扩张,空间似乎围绕着这个类扩张,因此当这个类扩张时,相应的距离也扩张,就好象它吸收了其它的点,这一类并类方法称为空间扩张,这种方法凝聚速度快;还有另一些聚类方法,它由于一个类增长时,相应的距离比空间守恒距离缩短,空间似乎围绕着它收缩,这叫空间收缩。

在系统聚类法中,设第一次并类的两类的距离为D1,第二次合并的距离为D2,……,如果满足D1≤D2≤……,则称并类距离具有单调性。

并类距离有单调性符合系统聚类法的基本思想,但由于选择的聚类方法不同,因而不一定所有的方法都满足单调性的要求。

常用的系统聚类方法(八种)1、最短距离法最短距离法的计算步骤最短距离法是一个单调的,使空间很快收缩的对策,当两类样品合并后,它与其它类的距离是所有距离的最小者,从而缩小了新合并的类与其它样品的距离。

相关主题