当前位置:文档之家› 第三章 多元统计分析(3)

第三章 多元统计分析(3)

第三章多元统计分析§4 聚类分析分类是人类认识世界的方式,也是管理世界的有效手段。

在科学研究中非常重要,许多科学的研究都是从分类研究出发的。

没有分类就没有效率;没有分类,这个世界就没有秩序。

瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。

由此可见分类成果的重要性。

最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。

本节主要讲述统计学意义的数字分类方法思想和过程。

1 聚类的分类分类研究的成果的重要性决定了方法的重大实践意义。

在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。

在生物学中,将生物划分为:界,门,纲,目,科,属,种。

例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。

这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。

如果发现了新的生物,就可以方便地将其归类。

在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。

在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。

表3-3-1 各种生物在分类学上的位置举例位置白菜虎界植物界动物界门种子植物门脊索动物门亚门被子植物亚门脊椎动物亚门纲双子叶植物纲哺乳动物纲目十字花目食肉目科十字花科猫科属油菜属猫属种白菜虎当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。

分类的方式也会影响工作的效率。

书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。

早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。

随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。

本节要讲述的就是根据多个指标进行数字分类的一种多元统计分析技术。

根据分类对象的不同,聚类分析又可以分为两类:一是在变量空间中根据变量特征或者指标性质对样本进行分类,这叫做Q 型聚类分析;二是在样本空间中根据变量在样本上的观测值对变量进行分类,叫做R 型距离分析。

我们着重讲述的是对样本分类,即Q 型距离分析。

此外,由于现实世界的事物很难做到一分为二:许多测度是模糊的,因此产生了模糊聚类技术,基本思路与我们学习的统计分类一致(图3-3-1)。

⎪⎪⎩⎪⎪⎨⎧⎪⎩⎪⎨⎧⎩⎨⎧—对变量分类—型聚类分析—对样本分类—型聚类分析数字分类模糊聚类定量分类定性分类关于分类方法的分类R Q 图3-3-1 关于分类的分类在地理学中,分类一般涉及到地域,基于地域的分类又可以分为两类,即同域分类和异域分类。

一般意义的分类是同域分类:对同一个地域系统的要素进行分类;但有时候需要进行异域分类:对不同地域系统的要素进行分类。

具体说明如下:同域分类:经济建设与濒危生物保护:例如公路建设,不仅要考虑城市之间以及城乡联系,还要考虑文物保护、濒危物种的保护——主要是保护生物『基因库』。

考察某种濒危物种,调查其生态环境的各种参数(变量)→分区(样本)→绘图→调查→落实→范围确定……→提交给交通部。

异域分类:引进日本福冈甜桔,可供选择的引进地点有:合肥、武汉、长沙、桂林、温州、成都……。

与甜桔生活有关的分析变量包括:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。

利用上述变量,将日本福冈与候选城市放到一起聚类,就是所谓异域聚类。

人们采用模糊数学中的相似优先比得到如下结果:长沙,温州,成都,武汉,桂林,合肥。

我们采用异域聚类得到结果如下图(图3-3-2,由SPSS 给出):可以选择的顺序依次是:长沙,成都,温州,桂林,武汉,合肥。

可见,两种分析方法的结论是一样的:优先选择的地点是长沙,不宜选择的地点是合肥。

图3-3-2 异域聚类分析结果一例3-13 基于相似系数的异域聚类结果:长沙,成都,温州,桂林,合肥,武汉在多元统计学中,聚类分析又叫群分析,乃是研究样本或指标的分类问题的一种多元统计方法。

所谓类,通俗地讲,就是相似元素的集合。

聚类方法有包括如下种类:系统聚类法,有序样品法,模糊聚类法,图论聚类法,聚类预报法……。

2 距离与相似系数聚类分析是根据相似性和差异性来进行的,相似性可以借助相似系数之类表征,差异性则可以通过距离反映。

广义地将,距离和相似性是同一类别的数学问题。

广义距离,有各种各样的定义,不同的距离有不同的优点和缺点。

我们可以更加聚类分析的目的或者研究对象的特征选择距离,也可以自行定义一种距离。

需要明确的是,定义任何一种距离,都不得违背距离公理。

⒈ 距离公理设x 1、x 2、…、x n 为n 个样本,第i 个样本x i 与第j 个样本x j 之间建立一个函数关系式d ij =d (x i , x j ),如果它满足如下条件,则称d ij 为样本x i 与x j 之间的距离:① 非负性:0≥ij d 对所有的i 、j 成立; ② 规范性:0=ij d 当且仅当j i x x =; ③ 对称性:ji ij d d =对所有的i 、j 成立;④ 三点不等式,在数学上叫做Cauchy 不等式:kj ik ij d d d +≤对所有的i 、j 、k 成立。

距离的大小可以反映样本之间的差异程度。

⒉ 常见距离⑴ 欧式距离(Euclid 距离)2/112))((∑=-=mk jk ikij x xd . (3-3-1)下面以一个最简单的实例进行说明。

已知三个城市的三项指标,计算它们的欧式距离(表3-2-2)。

表3-3-2 甲乙丙三城市的三个指标城市甲(A ) 160 60 115 城市乙(B ) 110 43 93 城市丙(C ) 90 35 75 方 差866.667108.667267.556根据公式(3-3-1),甲、乙两城市的欧式距离为(注意,这不是地理或者交通意义的距离):210.57221750)93115()4360()110160(222222=++=-+-+-=AB d . (3-3-1)欧式距离的优点:几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也可以把握它的基本含义。

缺点:从统计学的角度看,使用欧式距离要求一个向量的n 个分量不相关,且具有相当的方差,或者说各个坐标对欧式距离的贡献同等且变差大小相同,此时使用欧式距离才合适,且效果良好,否则就不能如实反映情况且容易导致错误的结论。

因此需要对坐标加权,化为统计距离(参见后面的精度加权距离)。

有时采用欧式距离平方(squared Euclid distance ):∑=-=mk jk ikijx xd 122)(, (3-3-2)⑵ 明氏距离(或译“闵氏距离”,Minkovski ,Minkowski 距离)设x i 、x j 均均为m 为向量,且⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=im i i i x x x x 21, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=jm j j j x x x x 21, (n i ,,2,1 =), (3-3-4)则称q mk qjk ik ij x x q d /11][)(∑=-=, (n j i ,,2,1, =) (3-3-5)① 当q =1时,得绝对距离(Block )∑=-=mk jk ikij x xd 1)1(. (3-3-6)对于前面的例子,绝对距离为89221750)1(=++=AB d . (3-3-7)② 当q =2时,得欧式距离2/112)()2(∑=-=mk jk ik ij x x d , (3-3-8)③ 当q →∞时,得切比雪夫距离(Chebychev 距离)。

明氏距离的有缺点如下:优点:人们使用较多,较熟悉,易于理解。

缺点:a 受指标量纲的影响;b 没有考虑指标之间的相关性。

⑶ B 模距离对于任意的正定矩阵B ,由下式确定的距离称为B 模距离[]2/1)()(j i T j i ij x x B x x d --=,(n i ,,2,1 =) (3-3-9)① 当B =I (单位矩阵)时,d ij 为欧式距离。

给定两个向量⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=im i i i x x x x 21, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=jm j j j x x x x 21, (n i ,,2,1 =, m k ,,2,1 =) (3-3-10)显然⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡---=-jm im j i j i j i x x x x x x x x 2211)(. (3-3-11) 从而[]⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=--=jm im j i j i jmim j i j i j i T j i ij x x x x x x x x x x x x x x I x x d 221122112)()(. (3-3-12)显然这正是欧式距离。

对于前面的例子,我们有⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=-221750)(j i x x , ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=100010001I , 210.57=AB d . (3-3-13)② 当)1,,1,1(diag 22221mB σσσ =,为精度加权距离。

这里)var(2ik k x =σ。

下面以三样本为例说明:[]⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---=3322112322213322112/1000/1000/1j i j i j i j i j i j i ij x x x x x x x x x x x x d σσσ232332222221211)()()(σσσj i j i j i x x x x x x -+-+-=. (3-3-14)对于前面表3-3-2中的例子,容易得到71166.2809.1660.2885.2556.26722667.10817667.86650222=++=++=ABd . (3-3-15)③ 当11)][cov(--∑≡=x B 时,为马氏距离(Mahalanobis 距离)。

设∑表示协方差阵[]mm ij⨯=∑σ. (3-3-16)其中∑=---=nj j i i ij x x x x n 1))((11ααασ, (m j i ,,2,1, =) (3-3-17)这里∑==n i i x n x 11αα, ∑==nj j x n x 11αα. (3-3-18)如果逆矩阵∑-1存在,则两个样本之间的马氏距离可由下式定义)()(12j i T j i ij x x x x d -∑-=-; (3-3-19)样本X 到总体G 的马氏距离为)()(12),(μμ-∑-=-x x d T G X . (3-3-20)式中μ为总体的均值向量。

相关主题