当前位置:文档之家› 河南省工业企业状况综合评价2003

河南省工业企业状况综合评价2003

华北水利水电学院课程结业论文报告题目:河南省工业企业发展综合评价学生姓名:赵仓仓专业:统计学学号:200812219指导教师:谢蕾蕾交稿时间:2011-04-10河南省工业企业状况综合评价[摘要]:应用统计学思想中的聚类分析和主成分分析来观察和分析河南省工业企业发展的综合情况,并以此评价本省的经济发展状况。

关键词:主成分分析聚类分析工业企业1.问题的提出各地区工业企业发展状况如何都有各自的指标,这是一个多指标变量的立体网络体系,根据统计数据,分析个变量,选择合适的指标,对各地区工业企业发展状况进行定量分析,以便对本省经济状况做出全面、科学地评价。

工业企业发展状况分析肩负着双重目的:一是剖析洞察自身相关性和存在的问题;二是通过分析判断结果,与同时期外省经济现象对比,分析本省工业企业状况,以便于及时纠正,使本省的工业企业向着更好的趋势发展。

因此有必要对其进行综合评价。

利用计算机软件SPSS17.0,采用聚类分析和主成分分析来综合评价。

数据信息:单位数增加值从业人数资产总计负债总计业务收入业务成本个亿元万人亿元亿元亿元亿元郑州市2510 1298.521 61.45 3185.05 1747.94 4726.58 3843.35 开封市1178 217.803 22.47 589.92 239.11 895.95 730.98 洛阳市1677 780 37.97 2473.34 1498.65 3002.41 2615.05 平顶山市864 531.3286 34.81 1746.39 1069 1842.1 1588.82 安阳市980 520.5376 21.66 1077.49 636.27 1905.58 1657.2 鹤壁市456 209.9724 14.08 451.62 302.17 632.51 528.78 新乡市1122 411.4068 33.01 1134.45 636.3 1667.12 1455.52 焦作市1053 568.7641 32.35 1112.87 632.87 2074.78 1684.55 濮阳市657 345.099 18.06 957.82 583.77 1216.58 1023.17 许昌市1208 545.2874 29.69 1123.85 523.17 1766.44 1392.66 漯河市625 326.5565 16.32 552.27 238.52 1220.65 1010.25 三门峡市658 370.0938 18.08 1115.81 692.74 1524.39 1313.84南阳市1358 486.3 32.56 1160.76 672.59 1530.14 1276.63 商丘市696 290.437 15.07 789.58 478.2 1090.01 950.82 信阳市1073 219.5268 17.89 452.89 245.15 769.91 666.5 周口市970 282.215 17.75 564.69 264.75 895.57 712.86 驻马店市1261 221.1429 20.21 580.94 306.62 845.72 735.47 济源市244 172.1009 5.72 598.88 335.41 640.2 578.6 注:数据来源于中国统计年鉴(/;/)2. 工业企业状况综合数据分析2.1对工业企业数据做聚类分析。

在这里我们用快熟聚类分析,它以距离为样本间亲疏程度的标志。

其分析步骤如下:首先需要用户指定聚类多少类(如k类)然后SPSS确定k个类的初始类中心点。

SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始中心,初始类中心也可由用户自行指定,需要制定k个组样本数据作为初中心点。

计算所有样本据点到k个类中心点的欧氏距离,SPSS按照k个类中心距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。

其中欧氏距离计算公式如下:EUCLID=其中,k每个样本k个变量。

表示第一个样本在第i个变量上的取值。

表示第二个样本在第i个变量上的取值。

SPSS重新确定K个类的中心点。

SPSS计算每个类中心各变量的变量值均值,并以均值点作为新的类中心点。

重复上面两步计算过程。

直到达到指定的迭代次数或终止迭代的判断要求为止。

SPSS软件的运行结果如下:需要聚成五类,SPSS指定了5个初始类中心点。

第二部分输出结果:该表格为迭代的历史过程,可以看出进行了4次迭代,第一次形成的类中心点和初始类中心点的距离(Change in Cluster Centers)分别为:0.000, 461.686,0.000,543.634,378.730,依次迭代,到第4次迭代后类中心点没有发生变化或变化很小,距离为0.000.快聚类进过四次迭代完成。

第三部分输出结果:第一类:郑州市第二类:开封市鹤壁市漯河市商丘市信阳市周口市驻马店市济源市第三类:洛阳市第四类:平顶山市安阳市新乡市焦作市许昌市第五类:濮阳市三门峡市南阳市第四部分输出结果:这是快速聚类分析最终的类中心位置。

这与第一次输出结果比较中心位置发生了一些变化,表明在迭代过程中,中心位置有了转移。

第五部分输出结果:该表是最终的类中心点之间的欧氏距离。

可看出第一类类中心点和第二类类中心点之间的距离最大,为6115.096,第四类类中心点和第五类类中心点的距离最小,为609.571。

第六部分输出结果:该表是快速聚类分析后形成的各类样本之间的单方差分析结果。

表格每一行对应相应变量的分析结果。

对于规模以上工业企业单位数而言,它的平均组间平方和(Mean Square)761291.259平均组内平方和为101777.083,F统计量为7.480,F 统计量的相伴概率为0.002,相伴概率小于显著性水平0.01,依次可以认为对于规模以上工业企业单位数变化量,五个类之间存在着显著性差异。

总体来看,聚类分析结果比较理想。

第七部分输出结果:从该表可以看出:第1类包括1个样本,第2类包括8个样本,第3类包括1个样本,第4类包括5个样本,第5类包括3个样本。

总体样本数为18个,缺失值为0个。

2.2对工业企业数据做主成分分析。

主成分分析是一种原始变量之间的相关性,通过原来变量的少数几个线性组合解释原来变量来实现降维的多元统计方法,一般来说,利用主成分分析得到的主成分与原来变量之间有以下基本关系:每个主成分都是各原始变量的线性组合。

主成分的数目大大少于原始变量的数目。

主成分保留了原始变量的绝大多数信息。

各主成分之间互不相关。

用SPSS软件实现统计分析是需要特别注意的是:变量的标准化,标准化共识如下:i = 1 , 2 ,···,n; j = 1 , 2 ,···,p式中,和分别是第j个变量的均值和方差,在标准化之后每个变量的均值为0,标准差为1.主成分求解结果如下:该表是特征值和方差贡献度表,可以看到第一个成分特征值占了总方差的91.861%,后面的特征值贡献率越来越小,由于我们选择了特征值大于1的作为主成分的抽取条件,所以SPSS 抽取了一个主成分,其特征值为6.430,累计方差贡献率为91.861%。

碎石图如下:从图中可以看出抽取的主成分是合理的。

主成分载荷分析:该表为主成分载荷表,表中7个变量的系数分别为0.867, 0.985, 0.951, 0.976, 0.948,0.988, 0.987。

就第一个变量而言,第一主成分和规模以上工业企业单位数变量的相关系数为0.867,以此类推。

相关系数越大,表明主成分对该变量的代表性越大。

可以看出,第一主成分对个变量解释得都很充分。

3.总结利用我们所熟悉的聚类分析和主成分分析,对河南工业企业发展情况作了简单的分析,就聚类分析而言,我们所研究的或指标样本之间存在着不同程度的相似性,于是根据一批样本的观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本聚为一类。

关系密切的聚为一个小的分类单位,关系疏远的聚为一个大的分类单位,直到把所有样本或指标聚类完毕,这样就可以形成一个由小到大的分类系统。

就主成分分析而言,主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。

在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。

信息的大小通常用离差平方和或方差来衡量。

4.感悟4.1在软件操作时要按照参考书的说明进行,但是当要分析相应的结果是有点不知所措。

4.2在数据处理时还是很不熟练,需要加强这方面的练习。

4.3对整个操作流程比较模糊,需借助一些资料或书籍帮助完成。

参考文献:[1]宋志刚谢蕾蕾何旭洪.SPSS实用教程.人民邮电出版社,2008.10.[2]李静萍谢邦昌.多元统计分析方法与应用.中国人民大学出版社,2008.12.。

相关主题