当前位置:文档之家› 聚类分析论文

聚类分析论文

聚类分析及其在新疆经济研究中的应用 孙鹿梅 (伊犁师范学院数学与统计学院 新疆 伊宁 835000) 摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析. 关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分 一、引言 聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面. 在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界着名统计软件SPSS(Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法. 由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据. 二、基础知识 由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大. 聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析.

聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类. 常见的聚类分析方法有系统聚类法、K-均值法和模糊聚类法等. 1聚类要素的数据处理 假设有m个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.

在聚类分析中,常用的聚类要素的数据处理方法有如下几种. ① 总和标准化

),2,1(11'njxmiij且. ② 标准差标准化 ),,2,1,,,2,1('njmisxxxjjij

ij



m

iijjxmx1'1

,mijijjxxms12'')(1 .

011'miijjxmx且,1)(112''mijijjxxms.

变换后的数据,每个变量的样本均值为0,极差为1,且1*ijx,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量. ③ 极大值标准化 njmixxxijiijij,,2,1,,,2,1max'. 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1. ④ 极差的标准化

njmixxxxxijiijiijiijij,,2,1,,2,1minmaxmin. 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.

(1)距离的计算 描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(mjnixxj

列成下列

X矩阵的形式. 设有n个样品,每个样品测得p个变量,原始资料阵为

npnnppxxxxxxxxxX212222111211, 其中ijx为i个样品的第j个变量的观测数据. 用ijd表示第i个样品的第j个样品之间的距离,其值越小表示两个样品接近程度越大. 距离的一般要求: ① ;0;,,0)()(jiijijXXdjid当对一切 ② ;,,jiddjiij对一切 ③ ).(,,,三角不等式对一切kjidddkjikij



常用的距离有以下几种: 1)闵氏距离

qpkqjkikijXXqd11)()(, 其中常用的距离有绝对距离和欧氏距离. 绝对距离 )()1(1pkjkikijXXd. 欧氏距离

2112)()2(pkjkikijXXd. 欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离. 2)马氏距离 设iX与jX是来自均值向量为,协方差为0的总体G中的p维样品,则两个样品

间的马氏距离为 )()()(1'2jijiijXXXXMd

.

马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变. 选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数 在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角 变量iX与jX是来自均值向量为,协方差为0x的总体G在的p维空间的两个向

量,则这两个向量间的夹角余弦可表示为 ))((cos12121pkjkpkikpkjkikijXXXX. 2)相关系数 相关系数经常用来试题变量间的相似性.变量iX与jX的相关系数定义为

pkjjkiikpkjjkiikijXXXXXXXXr1221)()())((. 在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q型聚类分析常用距离,R型聚类分析常用相似系数. 系统聚类法 开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类. 系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八种不同的方法. K-均值 将给定的样本划分为K类,K预先指定,基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化. 比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来,K-均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况. 各算法的具体过程在下列实例中有介绍,此处就不做介绍了. 三、实例 例 表1 2009年给出能反映新疆十四个地州市综合经济的十项指标分别为: X1 地区生产总值(亿元),X2人均地区生产总值(元),X3第二产业比重(%),X4第三产业比重 (%),X5 人口(万人),X6固定资产投资(亿元),X7规模以上工业总产值(亿元),X8 地方财政一般预算收入(万元),X9 地方财政一般财政支出(万元),X10在岗职工平均货币支出(元). 利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析. 表1 地区 X1 X2 X3 X4 X5 X6 X7 X8 X9 X

10

乌鲁木齐市 38249 241 1374 820086 1004807 37161 克拉玛依市 87000 28 332763 427153 36248 吐鲁番地区 25741 44 122410 259159 32911 哈密地区 23055 50 73 104464 293562 30427 昌吉州 28520 116 556297 938246 26924 伊犁直属县市 12951 149 239022 976021 22727 塔城地区 20784 75 136875 489470 19615 阿勒泰地区 19903 36 52 117958 527425 20587 博州 21130 38 23 48570 249022 20421 巴州 39467 100 437 265996 665735 27715 阿克苏地区 13098 146 296064 864291 24327 克州 6183 31 22619 338557 26946 喀什地区 7085 140 147358 1427919 25713 和田地区 4583 64 44990 752167 26445 以 2010年新疆统计局出版的《新疆统计年鉴》(2009年度的数据)为数据来源,运用上

述10项指标(表1) 借助于统计分析软件包SPSS1进行聚类分析计算. 算法对数据进行聚类分析 方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和ward方法一致,但,就类和类的之间区别程度而言,组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致,且,就类和类的之间区别程度而言,其效果远差于ward法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法,这里为了简洁起见就没有呈现. 计算过程如下: ① 用标准差标准化方法对10项指标的原始数据进行处理. ② 采用欧氏距离测度个15个地州市之间的样本间距离. ③ 选用组ward法计算类间的距离,并对样本进行归类. 经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的数据. 表2

相关主题