当前位置:文档之家› 第11章 聚类分析与判别分析

第11章 聚类分析与判别分析

第十一章聚类分析与判别分析聚类分析与判别分析是两类常用多元分析方法。

聚类分析可以将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强;而判别分析则可以根据已掌握的样本信息建立判别函数,当遇到新的样本点时根据判别函数可以判断该样本点所属的类别。

第一节聚类分析一、聚类分析的基本思想“物以类聚,人以群分”。

分类处理,在现实中极为普遍。

在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。

例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类;在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究;在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。

历史上,这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。

为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学,进而产生了聚类分析这一最常用的技巧。

聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。

其目的在于:使类内对象的同质性最大化和类间对象的异质性最大化。

聚类分析通常可以分为两种:Q型聚类和R型聚类。

Q型聚类是对观测个体的分类,R 型聚类是对变量的分类。

二者在数学上是对称的,没有本质区别。

二、符号说明多元统计分析中要注意区分样本和变量。

每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量,可以把n 个样品看成p维空间中的n个点。

X表示第k个变量第j次观测值(或称第j个项目的测量值),即:我们用记号jkX=第k个变量第j次观测值jkp个变量的n个观测值可表示如下:11121121222212121212k p k pj j jk jp n n nknpkp X X X X X X X X j X X X X nX X XX 变量变量变量变量观测观测观测观测记为:1112112122221212k p k p j j jk jp n n nknp X X X X X X X X X X X X X X X X ⎛⎫⎪ ⎪⎪=⎪ ⎪⎪ ⎪ ⎪⎝⎭X 记12(,,,)'jp j j jp X X X X R =∈,表示第j 个样品,它表示p 维空间的一个点。

则有:12()()'()'()'n p n X X X ⨯⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭X记12i i n i ni X X X R X ⎛⎫⎪ ⎪=∈ ⎪ ⎪⎝⎭,表示第i 个变量所有n 个观测值,则有: ()()12,,,n p p X X X ⨯=X在不引起混淆的情况下,我们也以12,,,p X X X 表示变量。

三、相似性度量在聚类之前,要首先分析样品间的相似性。

一般说,研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。

于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,等等。

因而对相似性的描述成为聚类分析的基础。

相似性度量的工具一般可以采用距离和相似系数。

距离常用来度量样品间相似性,相似系数常用来度量变量间相似性。

1.样品间相似性度量两个样品间相似程度就可用p 维空间中的两点距离公式来度量。

两点距离公式可以从不同角度进行定义,令d ij 表示样品X i 与X j 的距离,常用以下距离公式:(1)绝对距离1(1)pij ik jk k d X X ==-∑ (11-1)(2)平方欧氏距离21/21(2)()pi j i kj kk d X X ==-∑ (11-2)(3)切比雪夫距离1()max ij ik jkk pd X X ≤≤∞=- (11-3)(4)明考夫斯基距离(明氏距离)1/1()()pqq ij ik jk k d q X X ==-∑ (11-4)绝对距离、平方欧氏距离与切比雪夫距离都是明氏距离的特例(1,2,q =∞)。

明氏基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性。

②明氏距离的定义没有考虑各个变量之间的相关性和重要性。

实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。

考虑到明氏距离的缺陷,可以采用兰氏距离和马氏距离。

(5)兰氏距离兰思和威廉姆斯(Lance & Williams)所给定的一种距离,其计算公式为1()pik jk ij k ik jkX X d L X X =-=+∑(11-5)这是一个自身标准化的量,由于它对大的奇异值不敏感,使其特别适合于高度偏倚的数据,有助于克服明氏距离的第一个缺点。

但它也没有考虑指标之间的相关性。

(6)马氏距离印度著名统计学家马哈拉诺比斯(P .C .Mahalanobis)所定义了一种距离,其计算公式为:21()()()i j i j ij d M X X X X -'=--Σ (11-6)其中,i j X X 与j 为第i 个和第j 个样本,列向量,来自均值向量为μ ,协方差为∑(>0)的总体。

马氏距离又称为广义欧氏距离。

显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的方差的倒数作为权数的加权平方欧氏距离。

马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。

将原始数据作线性变换后,马氏距离不变。

马氏距离计算的困难在于协方差矩阵的计算。

通常总体的协方差矩阵未知,可以用样本数据估计。

一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。

通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念,马氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)实际中,聚类分析前不妨试探性地选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

2.变量相似性的度量变量间的相似性有两种度量方法:夹角余弦和相关系数。

(1)夹角余弦两变量X i 与X j 看作p 维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算cos pikjkij XX θ=∑ (11-7)显然,∣cos θ ij ∣ ≤ 1。

(2)相关系数相关系数经常用来度量变量间的相似性。

变量Xi 与Xj 的相关系数定义为()()piki jk j ij XX X X r --=∑ (11-8)显然也有,∣r ij ∣ ≤ 1。

无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似的度量工具,我们把它们统记为c ij 。

当∣c ij ∣=1时,说明变量X i 与X j 完全相似;当∣c ij ∣近似于1时,说明变量X i 与X j 非常密切;当∣c ij ∣= 0时,说明变量X i 与X j 完全不一样;当∣c ij ∣近似于0时,说明变量X i 与X j 差别很大。

据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。

在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作如下变换: d ij = 1 - ∣c ij ∣ (11-9) 或者d ij 2 = 1 - c ij 2 (11-10) 四、系统聚类法1.系统聚类的基本思路系统聚类思路是:假设总共有n 个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n 类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n -1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n -2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。

2.类间距离与系统聚类方法 在进行系统聚类之前,我们首先要定义类与类之间的距离,不同的类间距离定义产生了不同的系统聚类法。

常用的类间距离定义有8种,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。

它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。

以下用d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。

最短距离法定义类与类之间的距离为两类最近样品的距离,即为p qpq ,mini j ij X G X G D d ∈∈=(11-11)设类G i 与G j 合并成一个新类记为G r ,则k G 与r G 的距离为,mini j k rkr ij X G X G D d ∈∈=,,min{min,min}i j i j k pk qij ij X G X G X G X G d d ∈∈∈∈=min{,}kp kq D D = (11-12)类似的,最长距离法定义类与类之间的距离为两类最远样品的距离;重心法定义类与类之间的距离为两个类的重心之间的距离,等等,我们不再详述。

离差平方和法也称为Ward 法。

按照这种方法,在进行聚类时先计算某两个类各自的类内离差平方和,然后计算把这两个类合并后的类内离差平方和,计算出两个类合并前后类内离差平方和的增加量。

最后,将类内离差平方和增加最小的两个类进行合并,依此类推。

下面我们用最短距离法来说明系统聚类的步骤。

(1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D (0),开始每个样品自成一类,显然这时D ij =d ij 。

(2)找出距离最小元素,设为D pq ,则将G p 和G q 合并成一个新类,记为G r ,即G r = {G p ,G q }。

(3)按(11-12)计算新类与其它类的距离。

(4)重复(2)、(3)两步,直到所有元素。

并成一类为止。

如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。

【例11.1】设有五个样品,每个只测量一个指标,分别是1,2,3,7,9。

试用最短距 离法将它们分类。

(1)样品采用绝对值距离,计算样品间的距离阵D (0),见表11-4。

(2)D (0)中最小的元素是D 12=D 23=1,于是将G 1、G 2与G 3合并成G 6,并利用(11-14)式计算新类与其它类的距离阵D (1) ,见表11-5。

相关主题