当前位置:文档之家› 主成分分析和聚类分析

主成分分析和聚类分析

现代地理学中的数学方法本次作业数据主要来源于《2013安徽统计年鉴》,由于部分数据缺失,故用《2012年安徽统计年鉴》中的数据进行了选取与处理;本次作业选取的指标有X1(人均GDP/元)、X2(第三产业增加值/千万元)、X3(第三产业占GDP的比重/%)、X4(第三产业从业人员数比重/%)X5(第二产业占GDP的比重/%)、X6(总人口/万人)、X7(农民人均纯收入/元)、X8(城镇居民可支配收入/元)、X9(市区人民人均医疗保健消费支出/元)、X10(非农业人口比重/%)、X11(地方财政收入/万元)、X12(规模以上工业总产值/千万元)、X13(农业总产值/万元)、X14(商品进出口总额/美元)、X15(社会消费品零售总额/万元)、X16(实际利用外资额/万美元)。

运用spss19.0,首先对原始数据进行标准化处理,后经过降维进行因子分析,得到表1相关系数矩阵、表2表征值及贡献率、表3主成分载荷因子矩阵、表4主成分得分。

表1 2012年安徽省各市有关指标相关系数矩阵X1X2X3X4X4X6X7X8X9X10X11X12X13X14X15X16 X1 1.000X20.276 1.000X3-0.309 0.343 1.000X40.79 0.394 0.034 1.000X40.809 0.043 -0.672 0.589 1.000X6-0.417 0.587 0.255 -0.375 -0.516 1.000X70.826 0.192 -0.102 0.733 0.659 -0.549 1.000X80.758 0.343 -0.164 0.61 0.584 -0.254 0.823 1.000X9-0.06 0.018 -0.286 0.013 0.124 -0.024 0.043 0.131 1.000X100.832 0.131 -0.504 0.725 0.916 -0.486 0.62 0.528 0.21 1.000X110.391 0.977 0.274 0.508 0.187 0.451 0.348 0.435 0.038 0.263 1.000X120.474 0.938 0.095 0.532 0.303 0.429 0.376 0.453 0.077 0.343 0.962 1.000X13-0.582 0.341 0.257 -0.51 -0.708 0.913 -0.648 -0.362 0.118 -0.659 0.184 0.17 1.000X140.643 0.901 0.153 0.612 0.346 0.296 0.523 0.635 0.013 0.421 0.93 0.926 0.044 1.000X150.145 0.977 0.338 0.274 -0.054 0.709 0.039 0.22 0.007 0.029 0.936 0.896 0.468 0.822 1.000X160.524 0.806 0.066 0.604 0.358 0.226 0.586 0.729 0.218 0.354 0.86 0.892 0.034 0.871 0.729 1.000表2 表征值及贡献率成份初始特征值提取平方和载入合计方差的% 累积% 合计方差的% 累积%1 7.380 46.128 46.128 7.380 46.128 46.1282 5.003 31.268 77.396 5.003 31.268 77.3963 1.450 9.062 86.458 1.450 9.062 86.4584 0.893 5.579 92.0375 0.608 3.799 95.8376 0.259 1.619 97.4557 0.172 1.077 98.5328 0.126 0.790 99.3219 0.046 0.285 99.60610 0.027 0.171 99.77711 0.015 0.094 99.87112 0.010 0.065 99.93613 0.008 0.047 99.98314 0.002 0.014 99.99715 0 0.003 10016 8.02E-17 5.01E-16 100表3 主成分载荷因子矩阵指标成份1 2 3X140.927 0.311X160.898X120.869 0.435X110.838 0.511X10.802 -0.491X40.795 -0.313X80.769X20.749 0.646X70.73 -0.504X100.66 -0.605X60.93X130.873X150.643 0.742X50.615 -0.673X90.727X30.547 -0.722表4 主成分得分序号区域第一主成分F1第二主成分F2第三主成分F3综合得分ΣF排名7 合肥 3.414 0.212 -0.630 1.584 114 芜湖0.811 0.942 0.662 0.729 212 马鞍山0.238 1.363 0.672 0.597 313 铜陵-0.557 1.998 0.440 0.408 49 淮南-0.581 0.533 0.494 -0.056 52 蚌埠-0.068 -0.246 0.488 -0.064 68 淮北-0.646 0.058 1.863 -0.111 75 滁州-0.121 -0.695 1.305 -0.155 816 宣城-0.386 0.197 -0.835 -0.192 91 安庆0.000 -0.572 -0.179 -0.195 1010 黄山-0.709 0.644 -1.938 -0.301 114 池州-0.881 0.462 -1.704 -0.416 123 亳州-0.217 -1.049 -0.109 -0.438 1315 宿州-0.153 -1.164 -0.065 -0.440 1411 六安-0.213 -0.930 -0.653 -0.448 156 阜阳0.069 -1.753 0.188 -0.499 16由表1可知,在影响经济综合实力的16个变量因子中存在着不同程度的相关,因此也说明运用主成分分析方法分析安徽省各市经济综合实力具有一定的可行性,同时也进步一步说明了主成分分析的必要性。

主成分个数提取原则为主成分对应的特征值大于1的前n个主成分,即特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值大于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。

从表2特征值及贡献率可以看出特征值大于1的成分有3个,其值分别达到7.38、5.003和1.45。

方差贡献率反映的是某一主成分描述的方差占原有变量总方差的比例,累积方差贡献率表示前n个主成分的总方差占原有变量的总方差的比例。

从表2特征值及贡献率可以看出前3个主成分的累积方差贡献率达到了86.458%,已经超过85%的标准,反映了原有16个变量90%以上的变异信息。

综合以上对特征值和累积方差贡献率的分析,确定选取前3个主成分作为评价安徽省各市综合实力新变量来进行下一步的分析。

在以上分析的基础上,为了进一步说明主成分的实际社会经济意义,体现主成分和原始变量的相关程度,本文采用主成分载荷矩阵来对其加以实际说明。

通过表3主成分载荷因子矩阵可知,其第一主成分概括为宏观经济水平的差异,第二主成分可概括社会结构的差异,第三主成分可概括为生活质量上的差异。

通过以上分析可知,影响地区综合实力的主要因子有经济水平、社会结构、社会质量以及其它,这里的其它包括经济结构、城市化水平、人口结构等。

为了进一步分析安徽省各地区经济发展水平的差异,本次作业用spss19.0数据处理软件,对16个相关指标进行聚类分析,得到图一安徽省16个地区综合实力Ward联接聚类谱系图。

图1 安徽省16个地区综合实力Ward联接聚类谱系图根据图1安徽省16个地区综合实力Ward联接聚类谱系图进一步对安徽省16个地区进行综合评价,可把安徽省各区经济实力分为4大梯度地区:第一梯度:发达地区,以合肥为主的省会。

从表4主成分得分可以看出,合肥主成分得分达到1.584,远远高于其他地区,合肥为安徽省省会,作为全省政治、经济、文化、科教中心,具有得天独厚的区位优势,尤其是2010年把巢湖主要地区并入之后,经济实力大增,经济实力雄厚,产业结构层次较高。

第二梯度:次发达地区,包括铜陵、芜湖、马鞍山。

马芜铜三地区是安徽省三个传统的经济强区,其丰富的自然资源优势为经济的发展打下了坚实的基础;其次,此地区为皖江城市带主要地区,在承接东部产业转移方面扮演重要的角色,是皖江城市带的核心地区;同时,此地区地处长江沿线,区位优势明显,城市化水平高,第二产业比重大,经济实力雄厚,其中芜湖作为安徽省副省会,优势更加明显;从表4主成分得分分析结果中也可以看出,其得分都大于0,排名比较高。

第三梯度:欠发达地区,包括池州、宣城、黄山、蚌埠、滁州、淮北、淮南7市。

其中池州、宣城、黄山地处皖南地区,旅游资源丰富,第三产业比重大,旅游业发展迅速,已形成独特的以发展旅游业为特色、高层次高结构的产业体系;蚌埠市是皖北重要的工业城市,以轻纺工业为主;淮南淮北两地煤炭资源丰富,是华东地区主要的煤炭供应基地,经济较发达;滁州作为皖江城市带城市之一,近几年经济发展也较快。

第四梯度:贫困地区,包括亳州、宿州、安庆、阜阳、六安5个地区。

这几个地区,第一产业比重大,产业基础薄弱,经济发展不平衡,总人口多,经济落后,城市化水平低,主要由于政府对其政策与投资较少,为了全省各地区均衡发展,应给予此地区更多的政策与投资。

为了进一步分析此分类结果的真实性,本文采取判别分析方法对分类结果进行了合理性检验,结果见表5。

表5 判别分析结果分类预测组成员合计1 2 3 4初始计数第一梯度 1 0 0 0 1第二梯度0 3 0 0 3第三梯度0 0 7 0 7第四梯度0 0 0 5 5 % 1 100 0 0 0 1002 0 100 0 0 1003 0 0 100 0 1004 0 0 0 100 100a. 已对初始分组案例中的100.0% 个进行了正确分类。

从表5中可以看出,判别结果与分类结果100%相一致,说明了此次分析结果是比较合理的。

由于是课堂作业,评价指标体系侧重点不同,因此会存在一定的不足之处,但从总体上看基本上反映了安徽省各地区经济发展的现状。

相关主题