河北联合大学多元统计课程论文论文题目:对中国各地区综合实力测评学院:理学院专业:统计学班级:统计1班姓名:侯雅琴学号:指导教师:高艳目录摘要、关键字、引言 (1)1 数据说明 (2)2 因子分析 (2)3 聚类分析 (7)4 判别分析 (9)5 结果分析 (12)6 参考文献 (13)附表 (14)对中国各地区综合实力测评【摘要】本文对中国各地区综合实力进行测评,以31个地区2010年的10项指标数据为样本,采用因子分析对描述各地区的实力的各项指标变量进行分析,以聚类分析和判别分析相结合对地区发展类型进行分析,再利用各指标变量间的相关性进行分析,得出相关结论以分析各地区的发展情况。
【关键词】各地区综合实力测评因子分析聚类分析判别分析引言:在这样一个信息时代,只有全面的可持续的发展才是衡量一个地区综合实力的指标,仅仅是经济发展情况不再能全面具体的体现一个地区的综合实力,经济发展水平、科技发展水平、能源储量和利用率、基础设施建设、文化发展水平等等,这些综合的因素才是体现一个地区真正的面貌,单纯的GDP指标并不能完全反映一个地区的经济发展水平,为了克服单纯GDP指标的缺陷,我们在GDP指标的基础上,综合考虑其他各方面的发展指数,本文就外商投资进出口总额、地区生产总值、地区运输路线总长度、医疗卫生室数量、创新产品项目数、创新经费、高校数目、等10个指标变量对31地区的综合实力进行测评,通过因子分析、聚类分析、等多元统计方法对各指标变量以及各地区进行统筹分析,以总结促进各地区和谐可持续发展的原因。
一、数据说明对各地区进行综合测评的各指标变量:原始数据来源:《中国统计年鉴——2010》原始数据见附录表-1二、因子分析:1.考察原有指标变量是否适合因子分析(原有变量之间是否存在一定的线性关系):借助变量的相关系数矩阵,KMO和巴特利特球度检验,进行分析。
表—2由相关矩阵可以看出外商投资进出口总额与地区生产总值、创新产品项目数、创新经费、社会服务设施数的相关系数较高(相关系数值均大于0.5),五个变量间呈现较强的线性关系,农业用地面积和林地面积高度相关,医疗卫生室数量和运输路线长度也具有较高的相关性,都可从中提取公共因子,进行因子分析。
表—3KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.748Bartlett 的球形度检验近似卡方391.067df 45Sig. .000根据KMO检验,KMO值(小于1)越大表示数据适合做因子分析,由表可知,KMO 值为0.748,根据KMO度量标准可知原始变量适合进行因子分析,同时Bartlett泅渡检验统计的观测值为391.067,相应的p值为0,表明变量间存在较强的相关性,适合做因子分析。
2.提取因子:根据原有变量的相关矩阵,采用主成分分析法提取因子,并选取特征值大于1的特征根。
表—4由上表各因子的累积方差贡献率一列可以看出,前三个因子已经可以解释90.739%的信息量。
因此提取三个主成分已经可以抓住指标变量所表达的内容表—5旋转成份矩阵a成份1 2 3外商投资进出口总额.924-.142 -.063地区生产总值.901.386 -.104运输路线长度.184 .870.334医疗卫生室数量.076 .938-.043创新产品项目数.966.161 -.156创新经费.963.126 -.175高校数目.626 .647-.240社会服务设施数.821.317 -.117林地面积-.150 .175 .922农业用地面积-.179 -.067 .938提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 5 次迭代后收敛。
从上表可知:对因子进行旋转后每个变量仅在一个公共因子上有较大的载荷,效果更佳,所以有因子旋转的必要,从旋转成分矩阵可得,外商投资进出口总额、地区生产总值、创新产品项目数、创新经费、社会服务设施数在第一公共因子上有较大的载荷,可以归为一类:科技增长型经济指标;运输路线总长度和医疗卫生室数量以及高校数目在第二公共因子上有较大的载荷,可以归为一类:社会基础设施指标;同理,林地面积和农业用地面积归为:土地资源指标。
图—1图—1:旋转后的因子(成分)载荷图,分别以第一主成分和第二主成分第三主成分为轴坐标,按表中数据作图得到主成分图。
从图中可以看出旋转后各成分的变量更集中了。
从图中也可以更具象的看出各指标变量间的关系。
表—7为因子得分系数矩阵。
根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析。
旋转后的因子表达式可以写成:FACT:10 987654321100.0 064.0170.0036.0236.0234.0147.0047.0183.0288.01X XXXXXXXXX FACT++++++--+=10 987654321120.0020.0034.0253.0084.0068.0478.0385.0054.0288.02X XXXXXXXXX FACT-+++--+++-=10 987654321525.0 495.0022.0113.0030.0038.0112.0130.0035.0177.03X XXXXXXXXX FACT+++-++-++=三、聚类分析表—8部分相似矩阵(这是一个不相似矩阵)分析:此表是欧氏不相似性系数矩阵,在行列交叉点上是两个地区的10个变量的欧氏距离,体现的是不相似性,即数值越大,两个地区越不相似,由表可知:广东、浙江、江苏、山东与其他各地区的不相似度较高,说明这四个地区的发展类型相似而与其他地区的发展差异性较大,说明这四个地区的可能属于同一类型。
图—2Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+ 海南 21 -+-+宁夏 30 -+ +-----+北京 1 -+ | |天津 2 -+-+ |上海 9 -+ +-+黑龙江 8 -+-+ | |云南 25 -+ | | |贵州 24 -+ +-----+ |甘肃 28 -+-+ |吉林 7 -+ | |重庆 22 -+ | |辽宁 6 -+ | |安徽 12 -+ | +---------+江西 14 -+-+ | |陕西 27 -+ | |山西 4 -+ | |福建 13 -+ | |广西 20 -+ | +---------------------------+西藏 26 -+ | | |青海 29 -+---+ | | |新疆 31 -+ +-----+ | |内蒙古 5 -----+ | |湖北 17 -+-+ | |湖南 18 -+ +-----------------+ |河北 3 -+ | |河南 16 -+-+ |四川 23 -+ |江苏 10 -+---+ |广东 19 -+ +-------------------------------------------+浙江 11 ---+-+山东 15 ---+图—3从树状图和冰柱图可以看出分为4类时,类间距离比较大,分类层次清晰,说明各类的特点比较突出,分类结果如下:第一类:西、北京、天津、福建、吉林、黑龙江、辽宁、上海、第二类:湖北、湖南、河南、河北、四川第三类:西藏、内蒙古、青海、新疆第四类:江苏广东浙江山东四、判别分析表—10外商投资进出口总额、地区生产总值、创新产品项目数、创新经费相关性较强,地区生产总值与高校数目相关性也很强,说明了科技创新对经济的强大推动力,运输路线总长度和医疗卫生室数量相关性较强,体现了社会基础设施建设各项目之间的关系,林地面积和农业用地面积相关性较强,高校数目和创新经费相关性很强,体现了高校对提升创新水平的作用,从中也可以看出经济建设和社会基础建设与农林地面积呈现一定的负相关,说明了地区的建设对农林地有一定的破坏性,总体上从此表大致了解到各指标标量之间发展促进和制约的关系。
此表给出未标准化的典则判别函数的系数,从表中可以得出判别函数分别是:368..2024.071-=X y 根据典则判别式函数的系数可以计算出判别分数判别函数如下:250.6002.0002.0131.010812.210062.110978.810637.710938.1109766453625171-+-+⨯-⨯-⨯+⨯+⨯=-----X X X X X X X X F 582.23003.0006.0002.0009.010129.4001.010856.2001.010609.110987665352172-+-++⨯-+⨯++⨯=---X X X X X X X X X F 726.64027.0034.0002.0028.010983.5003.010854.4002.010073.110987665352163-+-++⨯--⨯-+⨯=---X X X X X X X X X F 191.129003.0004.0008.0879.010348.1005.010974.6003.010842.110987665352164-+-+-⨯++⨯++⨯-=---X X X X X X X X X F 现在选择具有代表性的地区:西藏、江苏 ,利用判别函数判别其分类,以验证聚类分析的结果的正确性西藏: 3F >2F >1F >4F 所以西藏属于第三类 江苏: 4F >1F >2F >3F 所以江苏属于第四类 验证了聚类分析结果的正确性五、结果分析由因子分析结果我们可以知道科技创新指标变量和经济指标变量归为一类:科技增长型经济指标,从新经济增长理论的视角将经济增长、科技创新整合为一个理论分析框架进行实证研究,结果表明:区域经济非均衡增长在很大程度上依赖于科技进步、科技知识生产等情况。
凡是科技创新能力较强的省区,大多都是经济实力较强的省区,多是东部省区,如: 浙江省、广东省,与聚类分析结果的第四类结果相同;而科技创新能力较弱的省区,同时也是经济实力比较弱的省区,多属于西部省区。
因此,聚类结果中的第三类西藏实施西部大开发战略,其中一个重要方面就是实施西部科技创新战略,提高西部科技创新能力。
所以聚类分析结果与实际情况和相关政策很符合。
找到发展制约因素所在,我们就要对症下药,特别在科技发展日新月异、经济增长方式由粗放型向集约型转变的情况下,科技进步更成为经济增长的主要推动力和决定性制约因素。
所以更要加强中西部地区的科技创新能力,让科学技术成为第一生产力。