安徽省区域经济的统计分析信息与计算科学 2005级李明指导教师王莉莉摘要:随着近几年中央对中部崛起的关注和规划,安徽省在经济方面取得了长足的发展,但是由于地理位置的差异和历史原因,区域经济发展存在着很大的差距,本文利用主成分分析模型及对主成分分析结果的辅助聚类分析,得出对各地区域经济水平的综合评价,找出各地区的优势和差距,便于针对提出相应的建议,对安徽省区域经济的发展状况及其差异进行综合评价,旨在为安徽经济的可持续发展提供参考依据。
关键词:主成分分析,聚类分析,区域经济,SASAnhui Province Statistical analysis of regional economicLi Ming Information and Computational Science,Grade 2005Directed by Wang LiliAbstract:In recent years, with the rise of the central concerns of Central and planning, Anhui Province has made in economic development by leaps and bounds, but as a resultof differences in geographic and historical reasons, there is a great difference in regional economic development. By the principle component analysis model and the cluster assisted analysis,obtains to the comprehensive assessment of the regional economy to discover identify strengths and gaps between each place, which is advantage for proposingthe corresponding suggestion, thus carries on the comprehensive assessment to the region economy development condition and the difference of Anhui Province, aimed at sustainable economic development in Anhui Province to provide a reference.Key words:cluster analysis,principal component analysis,regional economic, SAS1 前言安徽省地处华东地区腹部,地跨长江、淮河流域,属国内南北地理交汇过渡地带,是临江近海的内陆省份,面积约为14万km 2,人口6741万,其周边与江苏、浙江、江西、湖北、河南、山东等省接壤,紧靠以上海为中心的长江三角洲经济区。
安徽省拥有富集的矿产资源,独特的自然人文资源,丰富的劳动力资源,便捷的水陆交通资源,以及较强的科教资源[1]。
随着近几年中央对中部崛起的关注和规划,对中部省份投资力度的逐年加大,作为中部六省之一的安徽省在经济方面取得了长足的发展,但是由于地理位置的差异和历史原因,在安徽省现行17个地市中,区域经济发展存在着很大的差距,而随着区域协调发展战略在中国的日趋清晰,实现省内区域的经济协调也被列入安徽省人大会议的规划纲要[2]。
本文根据《安徽统计年鉴》(2OO8)的最新统计资料,采用主成分分析与聚类分析方法的结合,对安徽省区域经济的发展状况及其差异进行综合评价,旨在为安徽经济的可持续发展提供参考依据。
2 主成分分析2.1主成分分析数学原理主成分分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构。
导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关[3]。
在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。
因此可以对其采用主成分分析[4]。
设对某一事物的研究涉及到P 个指标,分别用12,,P X X X …,表示,这P 个指标构成P 维随机向量为12(,,)P X X X X =…,,主成分通常的做法是求出原指标的线性组合i F11112121212122221122p p p p p p p pp pF X X X F X X X F X X X μμμμμμμμμ=+++=+++=+++且满足如下条件:每个主成分的系数平方和为1,即222121i i pi μμμ+++=主成分之间相互独立,既无重叠的信息,即(,)0,,,1,2,,i j Cov F F i j i j p =≠=主成分的方差依次递减,重要性依次递减,即12()()()p Var F Var F Var F ≥≥≥2.2主成分分析计算步骤设有n 个观测对象,每个对象有p 项指标,得到p 项指标的原始数据 (1) 计算相关系数矩阵⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R 212222111211(1)在(1)式中,(,1,2,...,)ij r i j p =为原变量的i x 与j x 之间的相关系数,其计算公式为∑∑∑===----=nk nk j kji kink j kj i kiij x xx xx x x xr 11221)()())(( (2)因为R 是实对称矩阵(即ij ji r r =),所以只需计算上三角元素或下三角元素即可。
(2)计算特征值与特征向量首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值(1,2,)i i λ=…,p ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =。
这里要求i e =1,即112=∑=pj ij e ,其中ij e 表示向量i e 的第j 个分量。
(3) 计算主成分贡献率及累计贡献率主成分i z 的贡献率为),,2,1(1p i pk ki=∑=λλ累计贡献率为),,2,1(11p i pk kik k=∑∑==λλ一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第()m m p ≤个主成分。
(4) 计算主成分载荷 其计算公式为),,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)得到各主成分的载荷以后,还可以按照(2)式进一步计算,得到各主成分的得分⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m z z z z z z z z z Z 212222111211 (4)3 安徽省区域经济发展水平的综合评价3.1 确定指标体系根据综合评价的代表性原则、综合性原则、系统性原则以及安徽各地区经济发展的实际,选取以下11个指标: 1X 为地区生产总值,反映区域经济总体发展水平;2X 为人均地区生产总值,反映区域经济平均发展水平;3X 为第一产业总产值,反映区域内农业发展水平;4X 为第二产业总产值,反映区域内工业发展水平;5X 为第三产业总产值,反映区域内服务业及城镇化水平;6X 为财政收入,反映区域内经济实力;7X 为全社会固定资产投资,反映区域内经济投入与公益设施建设能力;8X 为全社会零售总额,反映区域内居民的消费水平和实际购买力;9X 为进出口总额,反映该区域对外贸易的发展与商业竞争能力;10X 为在岗职工平均工资,反映区域内城镇居民的生活水平;11X 为农民人均纯收入,反映区域内农村居民的生活水平[5]。
根据《安徽统计年鉴》(2008)最新数据[6],到2007年安徽省17个地区各项经济指标(表1)表1 2007安徽17个省辖市的主要经济指标城市 1X 亿元 2X 元 3X 亿元 4X 亿元 5X 亿元 合肥 1334.20 27566.00 80.02 651.20 602.98 淮北 259.19 12674.00 29.07 140.02 90.10 亳州 343.27 6718.00 108.32 96.61 138.04 宿州 424.92 7448.00 151.15 123.17 150.60 蚌埠 412.09 12818.00 86.42 158.70 166.97 阜阳 462.42 5515.00 140.92 154.84 166.66 淮南 358.71 15699.00 37.90 199.12 121.69 滁州 443.93 10814.00 114.95 178.57 150.41 六安 439.83 7216.00 112.11 158.86 168.86 马鞍山 532.10 42063.00 21.23 351.98 158.89 巢湖 404.62 9809.00 89.89 168.60 146.13 芜湖 582.12 25933.00 32.00 337.97 212.15 宣城 336.73 13077.00 65.60 134.41 136.82 铜陵 286.83 40116.00 7.87 194.32 84.73 池州 156.57 10949.00 33.70 59.61 63.26 安庆 593.51 10589.00 113.93 249.14 230.44 黄山215.1515427.0030.7081.50102.95表1(续) 2007安徽17个省辖市的主要经济指标城市 6X 万元 7X 万元 8X 万元 9X 万美元 10X 元 11X 元 合肥 1019846 8535835 4690023 487555 25873 4485.67 淮北 156481 1295306 727449 5362 25323 3373.74 亳州 99080 741576 131**** **** 17114 2999.59 宿州 118897 85365911480974136 18296 3072.00 蚌埠 226182 1382248 1562442 27439 19779 3616.47 阜阳 170333 1136055 1927370 11235 17585 2655.28 淮南 232999 2076024 1090181 7858 31372 3697.52 滁州 221739 1737317 1262378 39553 17753 3820.99 六安 203142 1466257 1609747 20097 17403 3058.20 马鞍山 413729 2772714865255216462 31888 6144.87 巢湖 188369 1892670 1219662 17942 19870 3975.67 芜湖 439138 3286980 1658339 86973 22960 5208.42 宣城 218634 2255888 1144270 28138 21558 4285.01 铜陵 179052 955129 571649 220136 23376 4614.20 池州 127660 10677645364097369 18462 4011.87 安庆 321964 2548334 1980663 28221 19191 3501.62 黄山131395158290973101412266217474295.07根据2007年安徽省17个市的各项经济指标,利用SAS 软件做主成分分析,得到如下结果:表2 原始变量的相关系数矩阵R= 1.00000.28610.21540.93680.98370.94800.92750.95080.80190.22000.21330.2861 1.0000.68120.56880.20990.47430.39050.04870.71620.69640.86040.2154.6812 1.0000.10540.2111.0896.08570.3449.2487.6710.70110.--------93680.5688.1054 1.00000.89430.97740.93780.81120.89080.48700.49240.98370.20990.21110.8943 1.00000.93900.93960.97540.78470.15900.14960.94800.4743.08960.97740.93901.00000.98360.86440.88020.41460.44330.92--750.3905.08570.93780.93960.9836 1.00000.86710.83720.39550.40420.95080.04870.34490.81120.97540.86440.8671 1.00000.67570.0267.03030.80190.7162.24870.89080.78470.88020.83720.6757 1.00000.45570.54030.2200---0.6964.67100.48700.15900.41460.39550.02670.4557 1.00000.64050.21330.8604.70110.49240.14960.44330.4042.03030.54030.64051.0000⎛⎫⎪ ⎪ ⎪⎪ ⎪ ⎪⎪ ⎪ ⎪⎪ ⎪ ⎪⎪ ⎪-⎪--⎝⎭表3 相关系数矩阵的特征值和方差比率序号特征值相邻特征值的差方差比率累计比率1 6.94941050 3.89747519 0.6318 0.63182 3.05193531 2.61575534 0.2774 0.90923 0.43617997 0.17086809 0.0397 0.94894 0.26531188 0.04427782 0.0241 0.97305 0.22103406 0.17300777 0.0201 0.99316 0.04802628 0.03240625 0.0044 0.99747 0.01562003 0.00960692 0.0014 0.99898 0.00601311 0.00212796 0.0005 0.99949 0.00388515 0.00130147 0.0004 0.999810 0.00258368 0.00258365 0.0002 1.000011 0.00000003 0.0000 1.0000为了确定主成分的个数和顺序,一般选取它的累计贡献率大于或等于85%[8],由程序运行结果可知,相关系数矩阵中有两个大的特征值6.94941050和3.05193531,前两个成分的累积贡献率已经达到了90.02%,因此提取两个主成分,由主成分载荷(附录图3)可知,第一主成分对地区生产总值、第二产业总值、第三产业总值、财政收入、全社会固定资产投资、全社会零售总额、进出总额变现出较强的相关性,这些变量体现了区域经济的运行质量和区域经济发展的后劲,代表了区域经济发展的动力因素。