当前位置:文档之家› 聚类分析的方法

聚类分析的方法

聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。

系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。

根据分类目的不同,系统聚类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型分析。

系统聚类分析法基本步骤如下(许志友,1988)。

(一)数据的正规化和标准化由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数值差别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。

设原始监测数据为Xij (i=1,2,…,n;j=1,2,…,m;n为样品个数,m为变量个数),正规化或标准化处理后的数据为Zij (i=1,2,…,n;j=1,2,…,m)。

1. 正规化计算公式如下:(7-32)(i=1,2,…,n;j=1,2,…,m)2. 标准化计算公式如下:(7-33)(i=1,2,…,n;j=1,2,…,m)其中:(二)数据分类尺度计算为了对数据Zij进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列出分类尺度计算的四种方法。

1.相关系数R两两变量间简单相关系数定义为:(7-34)(i,j=1,2,…,m)其中一般用于变量的分类(R型)。

有一1≤≤1且愈接近1时,则此两变量愈亲近,愈接近-1,则关系愈疏远。

2.相似系数相似系数的意义是,把每个样品看做m维空间中的一个向量,n个样品相当于m维空间中的n个向量。

第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定义,即:(7-35)(i,j=1,2,…,m)常用于样品间的分类(Q型)。

有一1≤≤1,且的值愈大,愈接近l,两个样品关系愈亲近。

3.欧氏距离欧氏距离含义为,对每个样品,把它的m个因素(变量)的值看做m维空间中的一个点,则,2个样品就是7n维系空间中n个点,则第i个样品与第j个样品之间的距离为:(7-36)(i,j=1,2,…,m)一般用做样品间的分类。

显然有0≤≤1,距离愈小,表示两个样品愈亲密,反之则疏远。

4.斜交空间距离由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差,因而对样品i,j之间的距离可用更广义的斜交空间距离作为分类尺度。

(7-37)(i,j=1,2,…,n)其中(k,L=1,2,…,m)一般用于样品的分类。

有0≤≤1,且距离愈小表示两个样品愈亲密。

(三)分类树形图的绘制绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集中在一起,用较短的线联结起来,而相似程度低的样本或类之间用较长的线联结。

绘制分类树形图可采用两种方法。

1.一次形成分类法首先选出相关系数最大的元素对(或距离矩阵中最小的元素对),然后选出次大的元素对(或距离矩阵中次小的元素对),依次类推。

选出元素对后,将各元素对按下列准则连接成群:若两个元素在已形成的群中没有出现过,则形成一个独立的新群;若两个元素中有一个是在已经分好的群中出现过,则另一个加入该群;若两个元素都在已分好的两群中,则把两群连一起;若两个元素都在同一群中,则这对元素就不再作处理。

这样反复进行,直到所有的元素都分群完毕为止,形成一个树形图。

2.逐步形成分类法假设分类是对样品进行的,且采用的分类尺度是距离。

从距离矩阵中选出最小的元素,这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一组,然后按下面方法进行计算:首先,把第五个样品与第L个样品的相应的各个变量取平均值,用它代替第k个样品,并取消第j个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变量时应取加权平均值)。

其次,根据新的样品数据,重新计算距离矩阵。

再从新的距离矩阵中选出最小的,说明新的样品数据中第个样品与第个样品距离最近(关系最密切),应将它们归为一组,然后重复进行上述(1)、(2)、(3)步工作。

以上各步重复进行n-1次则全部样品最后归并为一组,最后按归组的先后顺序及相应的距离大小作出分类树形图。

(四)类别的划分对于已建立的相似性矩阵,即可根据不同的且置信水平进行分类。

分类时应先求出R的λ截矩阵。

(7-38)其中:显然=1时,i与j应归为同一类,否则为不同类。

对于不同的又,可得到不同的分类方案,看0≤≤≤1,则所分出的每一类必是的某一类的子类。

图7-3分类树形图左边的每一个分支代表一个成员,而右边的“根”则代表全部成员的总体。

由分支向根移动时,成员聚合成点群的程度愈来愈高。

以图7-3为例,有5个原始成员,可能的点群有:五个点群,每个点群中成员之间的相似程度最高(只有一个成员);4个点群,即成员(1、2)合并为一个点群,再加上余3个成员;3个点群,即(1、2),(3、4),(5);两个点群,即(1、2),(3、4、5)最后为一个点群,包括所有5个成员。

点群愈少,则点群中成员之间的相似程度愈差,这就可以根据所研究问题的需要而选取。

运用Q式分类树形图进行地下水化学污染综合分类时,还应结合地区的水文地质条件分析判断,才能达到较好的效果。

图7-3 分类树形图二、灰色聚类法灰色聚类是将聚类对象对于不同聚类指数所拥有的白化数,按n个灰类进行归纳,判断该聚类对象属于哪一类。

灰色聚类可按下述步骤计算(邓聚龙,1987):(一)确定灰类白化系数若记I、Ⅱ、Ⅲ,…为聚类对象(即样品),1﹡、2﹡、3﹡,…为聚类指示(即评价因子),1、2、3,…为聚类灰数(即等级划分),第i类聚类对象对第j个聚类指标所拥有的白化数为(实测值),白化系数可按下式计算:(7-39)(k=1,2,…,n;j=1,2,…,m)(二)求标定聚类权j=1,2,…,m (7-40)(三)求聚类系数第j个聚类对象对于第j个灰类的聚类系数为:(7-41)同理可得是个取样点几种污染因子的k个聚类系数矩阵。

(四)灰色聚类取最大值为所对应的水质级别为该评价水体的水质级数。

三、模糊数学法在评价地下水污染时,通常是按照污染物质的单项污染值及综合污染值来区分水质属于轻度污染或严重污染。

这样用一个污染指数值来判定污染程度,不能客观地反映出污染状况。

按模糊数学的观点,地下水污染评价中“污染程度”的界线是模糊的,对于这样的模糊问题应用模糊数学方法把许多资料、判断及各种定性描述转化为模糊语言,对地下水污染进行综合识别和判断,将会得到更为合理的解决。

(一)模糊聚类分析法模糊聚类分析法就是根据各项污染指数得到的模糊矩阵作复合运算,得到模糊等价关系矩阵,然后再进行模糊关系的分类。

其基本步骤如下(蔡贻谟等,1987):1.数据的标准化和正规化设分项污染值为(i=1,2,…,n;j=1,2,…,m;n为样品数,m为监测的污染物个数),则聚类因子值构成了一组n×m的原始数据阵。

对原始数据的标准化和正规化处理方法可采用式7-32和式7-33。

2.模糊相容系数的计算根据规一化数据计算出模糊相容系数矩阵,其作用在于找到样品间的相容性或差异性,以便进行分类,相当于一般的聚类分析中确定分类尺度。

计算的方法如第三节所述,可采用计算相关系数R、相似系数S或计算欧氏距离D,以及计算斜交空间距离D1等,亦可按下式计算距离关系补充定义的相容关系:(7-42)式中:——第i个样品的第k个因子的值;——第j个样品的第k个因子的值;——第i个样品与第j个样品的相容关系。

相容关系越大,表示i,j两个样品污染状况越相似,反之差异越大。

当=1时,说明i,j两个样品取样点的污染状况相同,属于同一类。

将计算得到的相容关系作为矩阵元素,则得到相容系数矩阵。

3.模糊矩阵复合运算由以上具有模糊关系得到相容系数矩阵R,一般是满足反身性和对称性,不满足传递性,不是模糊等价关系,直接由R不能有效地进行分类,需要对只作复合运算,得到模糊等价关系矩阵。

设R是一个模糊关系(矩阵)。

其具有反身性是指=l(i、j=1,2,…,n);其具有对称性是指=;其具有传递性是指对R进行复合运算,记,当取…,若在某一步有,则便是一个模糊等价关系矩阵。

模糊矩阵复合运算是指:当取,则(7-43)(i,j=1,2,…,n)式中:∨——并运算,如即a,b两数中取大者;∧——交运算,如即a,b两数中取小者。

4.绘制模糊聚类图及分类评价对于已建立的模糊等价关系矩阵R﹡,可绘制模糊聚类图(方法同前),并选取不同的置信度进行分类。

然后再结合定性研究资料,对所设环境问题进行评价。

(二)模糊综合评判法模糊综合评判法是以隶属度来描述模糊的水质分级界线的。

1.隶属度的确定假设地下水水质一般可分为m个等级:Ⅰ级,Ⅱ级,…,m级)设x表示某一样品一种污染因子的浓度,则x对于等级V的隶属关系可按下式计算:Ⅰ级(7-44)m-1级(7-45)m级(7-46)(i=1,2,…,n;j=1,2,…,m)式中:n——污染因子数;m ——水质级别数;——某一样品第i种污染因子第j级国家标准浓度。

由此得到某一样品的几种污染因子的隶属度矩阵(7-47)同理可得k个取样点的几种污染因子的k个隶属度矩阵。

2.权重的确定根据这n种污染因子所产生的污染作用不同,可按下式计算,得到权重系数矩阵A:(7-48)其中:3.模糊矩阵复合运算综合评判结果是通过权重矩阵A和模糊关系矩阵R的复合运算得到的,因此有矩阵:(7-49)这里运算符号“。

”可以有两种处理方法:一是模糊矩阵合成算法;二是普通矩阵的算法。

按模糊矩阵合成法则,即按最大、最小运算法则进行,与普通矩阵算法相比较,运算过程一样,只不过是将实数加法改为逻辑加“V”,将实数乘法改为逻辑乘“”。

由于最大“V”、最小“”运算法则只突出了隶属度很大和很小项的作用,所得运算结果B中的值有时相等,评价不出优劣,这在实际问题中是不合理的。

4.模糊综合评判以上结果是对应于集合V上的各项隶属度,取其中最大者所对应的水质级数为该评价水体的水质级数。

四、人工神经网络分析法人工神经网络是对人脑或自然的神经网络若干基本特性的抽象和模拟,是一种非线性的动力学系统。

其特点为:具有大规模的并行处理和分布式的信息存储能力;良好的自适应性、自组织性;很强的学习、联想、容错及抗干扰能力。

人工神经网络形式较多,其中前馈式BP网络属于多层状型的人工神经网络,由输入层、若干隐层和输出层组成。

各层的作用为:输入层接受外界的信息,并向前传播;输出层对输人层传来的信息进行判别和决策;隐层用来处理信息或存储知识。

相关主题