系统聚类分析法的应用——以2004年我国30个地区农村居民消费结构情况为例摘要:聚类分析是给我们提供了一种对于复杂问题如何分组的统计方法,系统聚类法是聚类分析中最常用的一种方法,本文介绍系统聚类法的原理及应用,并以2004年我国30个地区农村居民消费结构情况为例,比较分析我国各地去农村居民消费结构的类型、差异。
关键字:系统聚类分析法SPSS软件操作2004年我国农村居民消费结构正文:聚类分析是将样品或变量按照他们在性质上的亲疏程度进行分类的多元统计分析方法。
聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一个是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。
聚类分析按照分组理论依据的不同,可以分为系统聚类法、动态聚类法、模糊聚类、图论聚类、聚类预报等多种聚类方法;而按照分析对象不同,可以分为Q型聚类,即对样品进行分类处理,和R型聚类,即对变量进行分类处理。
下面以2004年我国30个地区农村居民消费结构为例,来阐述聚类分析的方法和步骤。
为了全面反映我国农村居民消费结构状况,选择如下八个指标:食品支出所占比重(x1),衣着支出所占比重(x2),居住支出所占比重(x3),家庭设备用品及其服务支出所占比重(x4),医疗保健支出所占比重(x5),交通通讯支出所占比重(x6),文教娱乐支出所占比重(x7),其他商品和服务支出所占比重(x8)。
对数据进行Q型聚类分析,以研究我国各地区农村居民消费结构的特点。
图1首先,由于在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义域变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大差异,另外由于样本数据受量纲和数量级的影响,因此在聚类分析处理过程中,应对原始数据矩阵进行变换处理。
常用的数据变换方法有以下几种:1.中心化变换:中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。
设中心化后的数据为。
进行了中心化变换后的数据特点是,其每列数据之和均为0。
2.规格化变换:规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。
规格化后的数据为:进行了规格化变换后数据的特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。
3.标准化变换:标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即1/2。
进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。
使用标准差处理后,在抽样样本改变时,他仍保持相对稳定性。
4.对数变换:对数变换主要是对原始数据取对数。
即。
对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。
对农村居民消费结构数据的每个变量进行标准化变换,消除量纲的影响,用excel中的函数AVERAGE()求均值、VAR()求方差、POWER()求某数的几次方、STANDARDIZE()根据平均值和标准差求某数标准化后的值,得到每个变量标准化后的值。
如图2。
图2然后,就可以对变换处理后的数据进行聚类分析,系统聚类分析法:系统聚类分析是在样品距离的基础上,定义类与类之间的距离,首先将n个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。
(1)定义距离及相似系数:对于p个变量,n个样品的样本数据,每个样品有p个变量,故每个样品都可以看成是p维空间上的一个点,n个样品就是p维空间上的n个点。
对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。
因此,需定义样品之间的距离,即第i个样品与第j个样品之间的距离,记为,所定义的距离一般满足以下条件:对于定量数据资料常用的距离有以下几种:明氏(明科夫斯基,Minkowski)距离,距离公式为。
这里q为某一自然数,明氏距离是一最常见最直观的距离。
当q=1时,,则称为绝对值距离。
当q=2时,,则称为欧式距离。
欧式距离是聚类分析中用的最广泛的距离,但该距离与各变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。
当时,,则称为切比雪夫距离。
由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行标准化处理,然后再用标准化后的数据计算距离。
兰氏(Lance和Williams)距离,当全部数据大于零时,兰氏距离公式为,可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。
然而兰氏距离没有考虑变量间的相关性。
马氏距离(Mahalanobis),距离公式记为,其中为样本协方差的逆矩阵,。
马氏距离的优点是考虑到各变量之间的相关性,并且与各变量的单位无关。
不足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然后若要随聚类过程而不断改变,计算将会很困难。
比较合理的办法是用各个类的样品来计算各自的协方差阵,同一类样品的马氏距离应当用这一类的协方差矩阵来计算。
斜交空间距离,由于多个变量之间存在着不同程度的相关关系。
在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而使聚类分析时的谱系结构发生改变。
斜交空间距离公式定义为,其中是变量与变量之间的相关系数。
如果计算的样品量较多,则不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。
聚类分析对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。
相似系数定义如下:设表示变量与变量之间的相似系数,则应满足下列条件:越接近于1,则表示变量与变量之间关系越密切,越接近于0,则表示变量之间关系越疏远。
聚类时,关系密切的变量应归于一类,反之关系疏远的变量归于不同类。
常用的相似系数有:夹角余弦,向量与的夹角为,则夹角余弦为,当i=j时,夹角余弦为1,说明两个指标极相似,当i与j两个指标正交时,夹角余弦为0,说明两者不相关。
相关系数,为数据标准化处理后的夹角余弦,设表示变量与之间的相关系数,则公式为,当i=j时,表示指标的自相关系数等于1;当i≠j时,相关系数的取值在-1到1之间。
相关系数的绝对值越接近1,表示两变量之间的相关程度越高。
(2)系统聚类分析方法:进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。
常用的系统聚类方法有8种,即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法等。
最短距离法,是把两个类之间的距离定义为一类中的所有样品与另一类中所有样品之间的距离中最近者。
即类与之间的距离定义为。
最长距离法,将类与类之间的距离定义为两类之间所有样品间距离最大者,即类与之间的距离为。
中间距离法,定义类与类之间的距离采用介于两者之间的中间距离,即当类与合并为一新类,任一类与的距离定义为中线距离。
以上三种方法在定义类与类之间距离时,没有考虑每一类所包含的样品数。
重心法,所谓每一类的重心就是该类样品的均值。
其中单个样品的重心就是它本身,两个样品的类的重心就是两点连线的中点。
设与合并为一新类,它们各含有和个样品。
任一类与的距离定义为,重心法每合并一次类,就要计算一次新类的重心以及与其他各类的距离。
类平均法,该方法定义类与类之间的距离时,不仅把每一类中所包括的样品数目考虑进来,而且把各样品的信息都充分地考虑进来,它把两个类之间的距离平方定义为两类元素两两之间距离平方的平均。
设与合并为一新类,它们各含有和个样品。
任一类含有个样品,它与的距离定义为。
可变类平均法,由于类平均法公式中没有反映与之间的距离的影响,所以又给出可变类平均法。
此法定义两类之间的距离同上,只是将任一类与的距离定义改为,其中β是可变的且β<1,称为聚集强度系数,随着β的取值不同,会有不同的聚类结果。
一般情况下,β取负值,β值的绝对值越大,其扩张性越强,空间扩张的性质使分辨能力提高,一般选取β=-1/4。
可变法,距离公式为,其中β是可变的且β<1,一般选取β=-1/4。
离差平方和法(Ward法),基于方差分析的思想,如果类分的合理,则同类样品之间离差平方和应当较小,类与类之间的离差平方和应当较大。
设将n个样品分成为k类,表示为,表示第类中的第i个样品,表示类中样品的个数,表示的重心。
则中样品的离差平方和为,k个类总的类内离差平方和为。
Ward方法的基本思想是将两类合并后所增加的离差平方和看成类之间的距离,先将n个样品各自成一类,然后每次缩小一类,每缩小一次离差平方和就会增加,选择使S增加最小的两类合并,直到所有的样品归为一类为止。
设表示类与之间的距离,则根据定义有,表示与合并后的类的样品离差平方和。
任一类与新类的距离递推公式为。
实际应用中,离差平方和法应用比较广泛,分类效果比较好。
离差平方和法要求样品之间的距离必须是欧氏距离。
农村居民消费的数据,因为已经进行了标准化的变换,所以我使用欧氏距离,但没有对变量消除相关性,使用离差平方和法可以解决这个问题,SPSS操作步骤如下:图3将分析变量x1到x8选入Variables列表框,将地区变量选入标签变量Label Cases by中。
Cluster 栏为指定聚类分析的类型,其中Cases为Q型聚类,Variables为R型聚类。
Display为指定聚类分析输出哪些内容,有两个选择:Statistics输出距离矩阵(或相似矩阵)、最终分类信息等,Plots图形复选框,输出反映聚类过程的树形图、冰状图等。
(如图四)图四单击图4中右上的Statistics按钮,出现新窗口(如下图所示)。
其中Agglomeration schedule 复选框为输出聚类过程表,包括每一部被合并的类或观测量以及它们之间的距离和新生成的类等信息,根据此表能追踪整个聚类的合并过程,由于每次都是把最近的两类聚为一类,据此可以查看哪些观测量之间的距离更近。
Proximity Matrix复选框为输出各项之间的距离矩阵或相似度矩阵。
Cluster Member ship设置类成员表的输出格式,包括每个观测记录的最终分类结果,有如下3个可选项:None不显示类成员表,系统默认选项;Single solution输出指定聚类个数时的类成员表,在右侧的输入框指定聚类个数,该数值必须大于1,且小于等于参与聚类的观测个数和变量个数;Range of solutions输出聚类个数在某个范围时的类成员表,在Minimum输入框指定一个最小的聚类个数,在Maximum输入框指定一个最大的聚类个数。