当前位置:文档之家› 第一节系统聚类分析

第一节系统聚类分析

第五章聚类分析(一)教学目的通过本章的学习,对聚类分析从总体上有一个清晰地认识,理解聚类分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。

(二)基本要求了解聚类分析的定义,种类及其应用范围,理解聚类分析的基本思想,掌握各类分析方法的主要步骤。

(三)教学要点1、聚类分析概述;2、系统聚类分析基本思想,主要步骤;3、动态聚类法基本思想,基本原理,主要步骤;4、模糊聚类分析基本思想,基本原理,主要步骤;5、图论聚类分析基本思想,基本原理。

(四)教学时数6课时(五)教学内容1、聚类分析概述2、系统聚类分析3、动态聚类法4、模糊聚类分析5、图论聚类分析统计分组或分类可以深化人们的认识。

实际应用中,有些情况下进行统计分组比较容易,分组标志确定了,分组也就得到了,但是,有些情况下进行统计分组却比较困难,特别是当客观事物性质变化没有明显标志时,用于确定分组的标志和组别就很难确定。

聚类分析实际上给我们提供了一种对于复杂问题如何分组的统计方法。

第一节聚类分析概述一、聚类分析的定义聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。

聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。

二、聚类分析的种类(一)聚类分析按照分组理论依据的不同,可分为系统聚类法,动态聚类法,模糊聚类、图论聚类、聚类预报等多种聚类方法。

1、系统聚类分析法。

是在样品距离的基础上定义类与类的距离,首先将n个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。

这种聚类方法称为系统聚类法。

根据并类过程所做的样品并类过程图称为聚类谱系图。

2、动态聚类分析法。

是将n个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。

这种分类方法一般称为动态聚类法,也称为调优法。

3、模糊聚类分析法。

是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。

4、图论聚类分析法。

是利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。

5、聚类预报法。

是利用聚类方法处理预报问题的方法。

主要应用于处理一些出现异常数据的情况,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。

(二)按照分析对象不同,可以分为Q型聚类分析和R型聚类分析。

Q型聚类分析法是对样品进行的分类处理,可以揭示样品之间的亲疏程度。

R型聚类分析法是对变量进行的分类处理,可以了解变量之间,以及变量组合之间亲疏程度。

根据R型聚类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。

其中,选择最佳变量的一般方法是,在聚合的每类变量中,各选出一个具有代表性的变量作为典型变量,其中选择的依据是2r。

122-=∑k r r ii2r :表示每个变量与其同类的其它变量的相关系数的平方的均值。

k 为该类中变量的个数。

应用中,挑选2r 值最大的变量i x 作为该类的典型变量。

三、聚类分析中样品或变量亲疏程度的测定 1、变量类型与数据变换通常变量类型按照计量尺度的不同,分为定类尺度,定序尺度,定距尺度,定比尺度变量。

其中,前两者一般又称为定性资料,后两者一般又称为定量资料。

在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大的差异。

另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比较。

常用的数据变换方法有以下几种:(1)中心化变换中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。

即对于一个样本数据,观测p 个指标,n 个样品的数据资料阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211设中心化后的数据为ijx ' 则有 j ij ijx x x -=' n i 2,1= p j 2,1= 其中 p j x n x ni ijj 2,111==∑=进行了中心化变换后的数据特点是,其每列数据之和均为0。

(2)规格化变换(极差规格变换)规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。

规格化后的数据为:{}{}{}ijni ijni ij ni ij ijxx x x x ≤≤≤≤≤≤--='111min max minn i 2,1= p j 2,1=进行了规格化变换后的数据特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。

(3)标准化变换标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即jjij ijS x x x -=' n i 2,1= p j 2,1=其中 p j x n x ni ijj 2,111==∑=()211211⎥⎦⎤⎢⎣⎡--=∑=n i j ij j x x n S进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。

使用标准差处理后,在抽样样本改变时,它仍保持相对稳定性。

(4)对数变换对数变换主要是对原始数据取对数。

即{}ij ijx x log =' 0>ij x n i 2,1= p j 2,1=对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。

此外,还有平方根变换、立方根变换等。

极差标准化变换和规格化变换类似。

它是把每个变量的样本极差皆化为1,排除量纲的干扰。

立方根变换和平方根变换的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。

2、多维空间的距离对于p 个观测指标,n 个样品的样本数据,每个样品有p 个变量,故每个样品都可以看成是p 维空间上的一个点,n 个样品就是p 维空间上的n 个点。

聚类分析中,对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。

因此需定义样品之间的距离,即第i个样品与第j 个样品之间的距离,记为ij d ,所定义的距离一般满足以下四个条件:①0≥ij d 对于一切j i ,; ②0=ij d 当且仅当j i =时 ③ji ij d d = 对于一切j i , ④kj ik ij d d d +≤ 对于一切k j i ,, 对于定量数据资料常用的距离有以下几种: (1)明氏(明科夫斯基,Minkowski )距离 第i 个样品与第j 个样品之间的明氏距离公式为()qqpk jkik ij x x q d 11⎥⎥⎦⎤⎢⎢⎣⎡-=∑=这里q 为某一自然数,明氏距离是一最常用最直观的距离。

当1=q 时, ()∑=-=pi jk ikij x xd 11,则称为绝对值距离。

当2=q 时,()()21212⎥⎥⎦⎤⎢⎢⎣⎡-=∑=pk jk ik ij x x d ,则称为欧氏距离。

欧氏距离是聚类分析中用得最广泛的距离,但该距离与个变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。

当∞=q 时,()jk ik pk ij x x d -=∞≤≤1max ,则称为切比雪夫距离n j i ,2,1,=由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行准化处理,然后再用标准化后的数据计算距离。

(2)兰氏(Lance 和Williams )距离兰氏距离是由Lance 和Williams 最早提出的,故称为兰氏距离。

当全部数据大于零,即0>ij x 时,可以定义第i 个样品与第j 个样品之间的兰氏距离为∑=+-=pi jkik jk ik ij x x x x d 1n j i ,2,1,=可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。

然而兰氏距离没有考虑变量间的相关性。

明氏距离和兰氏距离的共同的特点是,假定变量之间相互独立,即均没有考虑变量之间的相关性,都是在正交空间内讨论距离的,而实际情况并非如此。

但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的这种相关性影响,可以采用马氏距离。

(3)马氏距离(Mahalanobis )第i 个样品与第j 个样品之间的马氏距离记为()()j i j i ij X X S X X d -'-=-12其中j i X X ,分别为第i 个和第j 样品的p 个指标所组成的向量,1-S 为样本协方差的逆矩阵。

()()∑=---=nk j kj i ki x x x x n S 111 p j i ,2,1,=马氏距离的优点是考虑到个变量之间的相关性,并且与个变量的单位无关。

不足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然而若要随聚类过程而不断改变,计算将会很困难。

这样造成聚类效果不是很好的。

比较合理的办法是用各个类的样品来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。

(4)斜交空间距离由于多个变量之间存在着不同程度的相关关系。

在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而使聚类分析时的谱系结构发生改变。

为此,计算斜交空间距离,第i 个样品与第j 个样品之间的斜交空间距离定义为,()()211121⎥⎦⎤⎢⎣⎡--=∑∑==p k pl kl jl il jk ik ij r x x x x m d 其中kl r 是变量k x 与变量l x 之间的相关系数。

以上几种距离的定义均要求变量间是间隔尺度的,如果使用的变量是定性材料,则应有一些其它定义距离的方法,在这里就不一一介绍。

3、相似系数聚类分析方法不仅用来对样品进行分类,而且有时需要对变量进行分类,在对变量进行聚分类析时,则通常采用相似系数来表示变量之间的亲疏程度。

相似系数定义如下:设ij C 表示变量i x 与变量i y 之间的相似系数,则ij C 应满足下列条件: (1),1j i ij ax x C =⇔±= ()为非零常数a (2)1≤ij C 对一切j i ,成立 (3)ji ij C C = 对一切j i ,成立ij C 越接近于1,则表示变量i x 与变量i y 之间关系越密切,ij C 越接近于0,则表示变量i x 与变量i y 之间关系越疏远。

相关主题