当前位置:文档之家› 多元统计分析论文-spss多元统计分析论文

多元统计分析论文-spss多元统计分析论文

因子分析和聚类分析在全国省会城市经济实力分析中的应用摘要:本文利用SPSS中的因子分析和聚类分析功能对全国26个省会城市经济实力进行分析。

先用因子分析,再对因子分析的结果进行聚类分析。

本文选取2012年上半年26个省会城市的9个经济指标,通过因子分析提取两个因子计算出26个省会城市的综合得分函数,再根据因子分析得出的得分函数对这些城市进行聚类分析,分类结果为:然后再对分类后的城市进行分析说明,最后针对分类的结果进而得出经济综合实力的结论。

关键词:因子分析聚类分析 SPSS 经济实力一、引言城市的发展是经济发展和社会进步的重要标志。

目前,我国正处于加快推进现代化的历史阶段。

现代城市既要有发达的经济,也要有发达的文明。

文明城市是指在全面建设小康社会、推进社会主义现代化建设新的发展阶段,物质文明、政治文明与精神文明协调发展,经济和社会事业全面进步,精神文明建设取得显著成就,市民整体素质和城市文明程度较高的城市。

文明城市,是反映一个地区现代文明程度、城市综合竞争实力的重要标志。

创建文明城市对经济社会发展所产生的现实意义和深远影响,已经远远超出了原来一般意义上的群众性精神文明建设活动。

我们要从战略高度来看待创建文明城市的重要意义,提高对创建文明城市重要性的认识。

随着改革开放的脚步,全国各地经济都有着飞速的发展,人们越来越关注各个省会城市经济实力。

经济是衡量一个地区综合实力的重要指标,而依照经济实力对城市进行分类可以看出一个地区综合实力以及发展潜力,利用经济分类,我们也可以得出该地区的发展状况,以及在哪些方面做得不够,哪些方面可以得到改进。

基于以上原因,本文运用SPSS 对全国26个省会城市,合肥, 武汉, 长沙, 郑州, 南昌, 太原, 西安, 福州, 石家庄, 沈阳, 哈尔滨, 长春, 南京, 杭州, 济南, 南宁, 成都, 贵阳, 昆明, 兰州, 西宁, 银川, 海口, 广州, 乌鲁木齐, 呼和浩特2012年上半年的9类经济指标进行因子分析,聚类分析。

根据这两种分析的结果,对该26个省会城市进行2012上半年的经济分类。

这样能让广大人们群众更清楚的认识此26个省会城市的经济状况,上级部门也可以通过这些分类对这26个地区下达给类发展命令,让这26个城市在经济上能更进一步。

选取的这九个经济指标是地区生产总值(X1),社会消费品零售总额(X2),规模以上工业增加值(x3),出口总额(x4),固定资产投资(x5),人民币储蓄存款余额(x6),地方财政收入(x7),农民人均现金收入(x8),城镇居民人均收入(x9)。

二、模型假设1、假设经济指标数据真实、准确;2、假设选取的经济指标能基本上全面反映城市的经济信息;3、假设各个经济指标信息之间存在重叠;4、假设特殊因子),0(~2σεN 。

三、符号说明四、模型分析与建立4.1 模型分析4.1.1 因子分析(1)因子分析基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常成为因子。

然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。

从全部计算过程来看做R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数矩阵出发都是对同一批观测数据,可以根据其所要求的母的决定用哪一类型的因子分析。

(2)因子分析模型1.基本概念因子分析是一种通过显在变量测评潜在变量测评,通过具体指标测评抽象因子的分析方法,最早是由心理学家Chales Spearman在1904年提出的,他的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合表示。

因子主要应用到两个方面:一是寻求基本结构,简化观测系统;二是对变量或样本进行分类。

2.统计原理因子分析的核心是用奇偶少的相互独立的因子反映原有变量的绝大部分信息,可以通过下面的数学模型来表示。

设原有p 个变量p x x x x ,,,,321 ,且每个变量(或经标准化处理后)的均值为0,标准差均为1。

现将每个原有变量用k (p k <)个因子k f f f f ,,,,321 的线性组合来表示,即有⎪⎪⎪⎩⎪⎪⎪⎨⎧+++++=+++++=+++++=+++++=pk pk p p p k k k k k k f a f a f a f a x f a f a f a f a x f a f a f a f a x f a f a f a f a x p εεεε332213333323213223232221211313212111113121 (4.1) 式(4.1 )便是因子分析的数学模型,也可用矩阵的形式表示为ε+=AF X .其中F 称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。

因子可理解为高维空间中互相垂直的k 个坐标轴;A 称为因子载荷矩阵,ij a (k j p i ,2,1;,,2,1== ) 称为因子载荷,是第i 个原有变量在第j 个因子上的负荷。

如果把变量i x 看成k 维因子空间的一个变量,则ij a 表示i x 在坐标轴j f 上的投影,相当于多元线性回归模型中的标准化回归系数;ε称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

由式(4.1) 可知因子是不可见的。

•因子载荷在因子不相关的前提下,因子载荷ij a 是变量i x 与因子j f 的相关系数,反映了变量i x 与因子j f 的相关程度。

因子载荷ij a 值小于等于1,绝对值越接近1,表明因子j f 与变量i x 的相关系数越强。

同时,因子载荷ij a 也反映了因子j f 对解释变量i x 的重要作用和程度。

•变量共同度变量共同度也即变量方差,变量i x 的共同度2i h 的数学定义为∑==kj ij ia h 122(4.2) 式(4.2)表明,变量i x 的共同度是因子载荷矩阵A 中第i 行元素的平方和。

在变量i x 标准化时,由于变量i x 的方差可以表示成122=+i i h ε,因此原有变量i x 的方差可由两个部分解释:第一部分为变量共同度2i h ,是全部因子对变量i x 方差解释说明的比例,体现了因子全体对变量i x 的解释贡献程度。

变量共同度2i h 越接近1,说明因子全体解释说明了变量i x 的较大部分方差,如果用因子全体刻画变量i x ,则变量i x 的信息丢失较少;第二部分为特殊因子i ε的平方,反应了变量i x 方差中不能由因子全体解释说明的比例,2i ε越小则说明变量i x 的信息丢失越少。

总之,变量i x 的共同度刻画了因子全体对变量i x 信息解释的程度,是评价变量i x 信息丢失程度的重要指标。

如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。

因此,变量共同度是衡量因子分析效果的重要依据。

•因子的方差贡献因子i f 的方差贡献的数学定义为∑==pi ij ja S 122(4.3) 式(4.3)表明,因子j f 的方差贡献是因子载荷阵A 中第j 列元素的平方和。

因子j f 的方差贡献反映了因子j f 对原有变量总方差的解释能力。

该值越高,说明相应因子的重要性越高。

因此,因子的方差贡献和方差贡献率事衡量因子重要性的关键指标。

4.1.2 聚类分析(1)系统聚类的基本思想系统聚类方法的基本思想是首先定义样品间的距离(或相似系数)和类与类之间的距离。

初始将n 个样品看成n 类(每一类包含一个样品),这是类间的距离与样品间的距离是等价的,然后将距离最近的两类合并成为新类,并计算新类与其他类的类间距离,再按最小距离准则并类。

这样每侧缩小一类,直到所有的样品都并成一类为止。

(2)聚类分析计算方法系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。

1、最短距离法A. 类与类之间的距离定义为两类中相距最近的样品之间的距离,即列为p G 和q G 之间的距离pq D 定义为pq D =ijd Q P G j G i min ,∈∈B. 当某步骤类p G 和类q G 合并为和r G 后,按最短距离法计算新类r G 与其他类k G 的类间距离,其递推公式为:{}()q p k D D D qk pk rk ,,,min ≠=2、最长距离法A . 类与类之间的距离定义为两类中相距最远的样品之间的距离,即列为p G 和q G 之间的距离pq D 定义为pq D =ijd Q P G j G i max ,∈∈B . 当某步骤类p G 和类q G 合并为和r G 后,按最长距离法计算新类r G 与其他类k G 的类间距离,其递推公式为:{}()q p k D D D qk pk rk ,,,max ≠=3、中间距离法A. 如果类与类之间的距离既不采用两同类之间的最近距离,也不采用最远的距离,而是采用介于这两者间的距离,这种方法称为中间距离法。

B. 当某步骤类p G 和类q G 合并为和r G 后,按中间距离法计算新类r G 与其他类k G 的类间距离,其递推公式为()⎪⎭⎫ ⎝⎛≠≤≤-++=q p k D D D D pq qk pk rk,,041,212222ββ4、重心法A. 如果将两类间的距离定义为两类中心间的距离,这种方法称为重心法。

B. 当某步骤类p G 和类q G 合并为和r G 后,它们所包含的样品个数分别为q p n n ,和r n ,并定义样品间的距离为欧式距离,按重心法计算新类r G 与其他类k G 的类间距离,其递推公式为: ()q p k D n n n n D n n D n n D pq rq r p qkrq pkrp rk,,2222≠-+=5、类平均法A .用两类样品两辆之间平方距离的平均作为类之间的距离,这种方法叫作类平均法B .当某步骤类p G 和类q G 合并为和r G 后,它们所包含的样品个数分别为q p n n ,和r n ,按类平均法计算新类r G 与其他类k G 的类间距离,其递推公式为:()q p k D n n D n n D qk rq pk rp rk ,,222≠+=6、可变类平均法可变类平均法是将合并后的新类r G 与其他类k G 的距离平方公式进一步推广为:()()q p k D D n n D n n D pq qk r q pk r p rk ,,12222≠+⎥⎦⎤⎢⎣⎡+-=ββ7、可变法纪McQuitty 相似分析法当某步骤类p G 和类q G 合并为和r G 后,可变法把r G 与其他类k G 的距离平方公式进一步定义为:[]()q p k D D D D pq qk pk rk ,,212222≠++-=ββ,若,0=β则把此方法称为McQuitty 相似分析法三8、离差平方和法 (Ward 法)A . Ward 法是先将n 个样品各自成一类,每次选择使所有类的总离差平方和增加最小的两类进行合并,直至所有样品合并为一类为止。

相关主题