中国主要城市经济现状的综合评价山东理工大学罗明、袁汝鹏、宗永臻目录摘要............................................................ - 1 -1 问题描述...................................................... -2 -2.数据选取与处理................................................ - 2 -2.1数据来源与指标选取 (2)2.2数据简单处理 (2)3 模型建立...................................................... - 2 -3.1因子分析模型的建立 (2)3.2考察原有变量是否适合因子分析 (3)3.3因子提取 (4)3.4因子命名 (4)3.5因子得分与综合评价 (5)3.6因子分析小结 (7)4 聚类分析...................................................... - 9 -4.1聚类分析定义 (9)4.2聚类分析的流程及数据来源 (9)4.3聚类分析结论 (10)5 模型的优缺点................................................. - 12 -6 对我国经济发展的建议......................................... - 12 -7 参考文献..................................................... - 11 -摘要改革开放以来,我国取得了众多巨大的成就,然而地区、各城市之间的经济发展不平衡问题越来越突出。
基于这种现象,本文结合因子分析与聚类分析的方法,在研究我国27个省会城市、4个直辖市(北京、天津、上海、重庆)、5个计划单列市(深圳、宁波、厦门、大连、青岛)等36个较大城市经济现状的基础上,对我国区域经济发展提出了合理建议。
文中的数据来源为《中国统计年鉴2010》中的“省会城市和计划单列市主要经济指标”。
其中提到的36座城市对周边地区的经济具有经济拉动效应,是所在经济区域中的领头羊,对周边地区的经济发展具有很好的代表作用。
综上,在此选取了人均GDP、货运量、客运量、人均储蓄、废物循环利用量等指标,经过计算综合得分,本文给出了36所城市的经济效应排名。
广州、北京、上海等地高居榜首,而处于西部内地的西宁、重庆、兰州则处于弱势地位。
综合排名具有较大差距的城市在某一指标因素上的排名却非常接近。
基于这种现象,本文以因子得分矩阵作为数据依据,对36所城市进行聚类分析,得出一般结论:东部沿海城市依托优越地理因素,组成第一集团,中、西部组成二、三集团。
这与实际情况基本相符。
基于以上结论,本文深入挖掘数据,通过多方面比较各个城市的特点,给出合理的建议与意见,诸如调整产业结构、加强地区间合作等。
最后,本文指出文章中在处理数据时所用方法的优缺点。
关键词:因子分析综合得分聚类分析1 问题描述我国的经济处于怎样的发展模式,东部沿海城市与中西部城市在综合经济发展中各处于怎样的地位?依据每所城市的产业结构特点,我国主要城市能够分为几类,东、中、西部的城市划分方法是否还具有代表性?2.数据选取与处理2.1数据来源与指标选取数据选取说明:为使分析客观、全面,本文以《2010年中国统计年鉴》中所列“省会城市和计划单列市主要经济指标”作为评价的基础指标,选取城市GDP 总值(亿元)、第一产业值(亿元)、第二产业值(亿元)、第三产业值(亿元)、客运量(万人)、货运量(万吨)、地方财政预算内收入(万元)、城乡居民储蓄年末余额(万元)、在岗职工平均工资(元)、三废利用(万元)共八项指标作为评价标准。
2.2数据简单处理为在经济发展指标中剔除人口数量的影响,本文所涉及的变量均用人均值来代表经济效益,人口数量则用的是2009年底得人口数量。
在《2010年中国统计年鉴》中,有多项数据缺失,为了不影响以后的数据分析,将36个城市分为中东部与西部两区域,然后分别以区域内的均值代替缺失值。
由此,得到的数据指标为:表2-1 定义变量3 模型建立3.1 因子分析模型的建立因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法,在教育领域和若其它领域的科学研究中,往往需要对反映事物、现象从多个角度进行观测,也就设计出多观测变量,从多个变量收集大量数据以便进行分析寻找规律。
多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。
更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性。
因子分析就是将大量的彼此可能存在相关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法。
这样既可减轻收集信息的工作量,且各综合指标代表的信息不重叠,便于分析。
设有个测量变量p x x x x ,,,,321 ,每个变量可作如下分解:1112121111εαααα++++=m m f f f x2222221212εαααα++++=m m f f f x……………pp m pmp p p f f f x εαααα++++= 2211上式为因子模型,其中m f f f ,,,21 叫做公共因子,它们是在各个变量中共同出现的因子。
我们可以把它们看作高维空间中所张起的互相垂直的m 个坐标轴。
),,2,1(p i i =ε表示影响i x 的独特因子。
ij α做因子载荷,它是第i 个变量在第j 个主因子上的负荷,或者叫做第i 个变量在第j 个主因子上的权,它反映了第i 个变量在第j 主因子上的相对重要性。
i α为独特因子的载荷。
因子载荷矩阵的求解方法有许多种,在此可以利用SPSS 软件统计包中的因子分析模块解决复杂的矩阵正交分解问题。
经过数据的处理,原来的p 维数据可以用m 维数据解释,从而大大减少的数据处理的复杂性。
3.2 考察原有变量是否适合因子分析首先考察原有变量之间是否存在较强的线性关系,是否适合因子分析。
这里借助相关系数矩阵与巴特利特球度检验和KMO检验方法进行分析。
表3-1原有变量相关系数矩阵从表3-1中可以看出大部分相关系数较高,个变量之间的线性关系较强。
适合做因子分析。
由表3-2可知巴特利特球度检验统计量为713.17,相应概率P-值接近0,同时,KMO值为0.62,以上数据可以断定所给数据适合做因子分析。
3.3 因子提取表3-3 因子解释原有变量总方差情况当选取前五个因子时,累计方差贡献率达到93.24%,基本满足分析要求,故在此选取五个因子。
3.4 因子命名表3-4 旋转之后的因子载荷矩阵由表3-4可以看出,X4 、X1 、X7 、X8 、X9 、X3在Factor1中有较高的载荷。
将Factor1命名为资金因子X6在factor2中有较高的载荷,将factor2命名为货运量因子。
X2在factor3中有较高的载荷,将factor3命名为农业因子。
X5在factor4中有较高的载荷,将factor4命名为客运量因子。
X10在factor5中有较高的载荷,将factor5命名为循环利用因子。
3.5 因子得分与综合评价利用SPSS 软件容易得到每个地区的因子得分,在计算总得分时,这里采用计算因子加权总得分的方法,权数为因子的方差贡献率,于是计算公式为:43211033.01041.01112.01149.04988.0F F F F F F ++++=表3-5 各省市及其单列市各因子得分与总得分由因子分析的结果可以看出,经济实力排名前十的城市依次是:广州、上海、北京、杭州、厦门、大连、深圳、宁波、天津、南京。
而西宁、重庆、兰州、贵阳、南宁等地经济实力较弱。
3.6 因子分析小结为了分析各省市及单列城市之间的排名关系,现将每座城市各个因子的得分情况排名比较,数据如下表:表3-6 各因子排名值得注意的是呼和浩特市,虽然呼和浩特地处我国内陆,但是在总排名上其位居第十一位,这要得益于该市优越的农业发展因素。
拉萨排名第十九位,但是该市的废物利用度高,在一定程度上提高了名次。
从表中可以看出,排名前十的城市大都位于东部沿海地区。
落后城市仍然集中在中西部偏远地区,我国的东西部经济发展差距较大。
为了提高我国整体经济水平,各省市应该扬长避短,发挥自己的人文优势、地理优势与资源优势,如上海,总排名为第二名,农业因子排名位于第三十六位,北京依靠独特的政治优势与地理优势,减少了对第一产业的依赖。
不同省市有不同的经济依赖,如广州,资金基础雄厚,然而在废物处理的环节不如其它省市,从而在一定程度上限制了经济的发展。
如北京、上海依托雄厚的资金优势,经济持续领跑。
此外,地区之间应该加强合作,优势互补。
合理经济模式布局将对我国的经济发展起到不可估计的作用。
4 聚类分析从因子分析的结果可知,尽管有些地区因子总分差不多,但是在不同的因子水平上得分却有很大差异,这说明不同的地区又不同的优势和劣势。
例如,排名第二的上海(总得分1.085)和排名第三的北京(总得分0.998),虽然在总得分上相差无几,但是在第四个因子上的排名上海是排在第36位,北京排名是第四位。
银川在因子二上的排名是第一位,在因子一上的排名是的33位。
这就说明地区内部,地区与地区之间有不同的经济优势。
因此,为了反映各地区的的经济状况,找出优势劣势,有必要进行聚类分析。
4.1 聚类分析定义对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类,这种分类称为聚类分析,也称为无监督分类。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS 等。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。
而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
4.2 聚类分析的流程及数据来源图4-14.3 聚类分析结论在本文中,十个变量所反映的信息量可以近似用五个因子的信息量代替,并且5个因素之间相互独立,避免了原有变量之间的复共线性对聚类的影响。
因此,本文用每个城市各个因子上的得分作为数据来源进行聚类分析。
运用SPSS软件中聚类分析模块中Ward离差平方和法,样本之间的距离采用欧氏距离。