当前位置:
文档之家› 我国各地区经济发展水平差异性分析
我国各地区经济发展水平差异性分析
武汉理工大学《多元统计分析》课程设计(论文)
我国各地区经济发展水平差异性分析
摘要
利用统计学中的因子分析方法,选取 8 项经济指标,对 2003 年全国 31 个省、市、 自治区经济发展的基本状况进行分析,提取出 3 个综合因子,并给出综合排名,然后从综 合得分的角度对各地区的经济实力作综合的评价,最后,分析了我国进行西部大开发和振 兴东北老工业基地的必要性。 关键字:因子分析; 综合得分; 经济发展状况
0.06327
0.04155
0.774
0.414
0.782
0.03401
-0.298
0.170
-0.729
0.977
0.129
3 -0.01689
-0.173 0.123 -0.320 0.182 0.911 0.334 -0.0252
-4-
武汉理工大学《多元统计分析》课程设计(论文)
从表四可以看出由旋转后的因子载荷矩阵可以得到8个原始变量与这3个因 =1
− xj )2
令
这样用得到的标准化数据做因子分析。采用的统计软件是SPSS数据处理系统得到的样本相 关系数阵如表一所示:
生产总值 消费水平 资产投资 平均工资 货物周转 价格指数 零售指数 工业产量
生产总值 1
0.324 0.923 0.173 0.447 0.018 0.054
Analytic Method of Factors contributing to economic development conditions of areas in
our country
Abstract
This papers gives the integrative evaluation of the economic development conditions of the areas in our country by the principle component analysis ,choosing eight economic elements. It gets the integrative rank and analyzing the necessity of developing the west and the old east industrial bases northeast. Key words:factor analysis; integrative scores;economic development conditions
3 具体问题的分析
本文对我国31个省、市、自治区经济发展的基本状况采取8个主要指标进行了主成分 分析,由于多个指标量纲不同,数据缺少可比性,因此必须将原始数据标准化,使得各个
∑ ∑ 指标具有可比性,做以下变换: xi*j
=
xij − x j σj
,其中, x j
1 =⋅
n
n i=1
xij
,
σ
2 j
1 =
原则下,对高维变量空间做了降维处理,.因子分析的结果经常用于综合判定。它的数学模
型可表示如下:
⎧X1 = α11Y1 + α12Y2 + L + α1mYm + α1ε1
⎪⎪X 2 = α 21Y1 + α 22Y2 + L + α 2mYm + α 2ε 2
⎨ ⎪
LL
⎪⎩X p = α p1Y1 + α p2Y2 + L + α pmYm + α pε p
其中, X1, X 2 L X p 为 p 个原始变量,是均值为0,方差为1的标准化变量, Y1,Y2 LYm 为 m 个综合因子变量, m 小于 p , α ij 为因子载荷,表示的是第 i 个原始变量在第 j 个因子
-2-
武汉理工大学《多元统计分析》课程设计(论文)
变量上的负荷,如果把变量 X i 看成是 m 维因子空间中的一个向量,则 αij 为 X i 在坐标轴 Y j 上的投影,相当于多元回归中的标准回归系数,模型表示成矩阵形式为 X = AY + E ,其中 X 为原始变量向量,A为因子载荷矩阵,Y 为因子变量或公共因子, E = αε 由于残差E的影 响可以忽略不记,这时数学模型就变为 X = AY ,因子分析的核心问题是构造因子变量,并 对因子变量进行命名解释。
0.958 0.084 -0.139
-5-
武汉理工大学《多元统计分析》课程设计(论文)
由因子得分系数矩阵可以得到这3个因子与8个原始变量之间的表达式: Y1 = 0.374X1 − 0.017 X 2 + 0.323X 3 − 0.048X 4 + 0.007 X 5 − 0.092X 6 + 0.117X 7 + 0.345X 8 Y2 = −0.092X 1 + 0.368X 2 − 0.06X 3 + 0.281X 4 + 0.426 X 5 + 0.192X 6 − 0.283X 7 − 0.086X 8 Y3 = −0.136X1 + 0.101X 2 + 0.015X 3 − 0.084X 4 + 0.453X 5 + 0.958X 6 + 0.084X 7 − 0.139X 8
1 基本理论(因子分析的数学模型)
因子分析是一种用较少的综合变量来表达多个观测变量的多元统计分析方法。它的
基本思想是:由相关性大小把变量分组,同组内的变量之间有较高的相关性,不同组的变
量相关性较低。它的基本目的是用少数几个综合变量(也称“综合因子”)去刻画较多变量
之间的协方差关系,而各个综合变量之间是不相关的。这样,在保证数据信息丢失最少的
0.096
-0.563
-0.383
0.325
0.912
0.187
0.469
价格指数 0.018 -0.435 0.119 -0.421 -0.167 1 0.463 0.002
零售指数 0.054 -0.542 0.096 -0.563 -0.383 0.463 1 0.037
工业产量 0.991 0.325 0.912 0.187 0.469 0.002 0.037 1
X 1 = 0.981Y1 + 0.113Y2 − 0.0169Y3 X 2 = 0.234Y1 + 0.884Y2 − 0.173Y3 X 3 = 0.957Y1 + 0.06327Y2 + 0.123Y3 X 4 = 0.04155Y1 + 0.774Y2 − 0.320Y3 X 5 = 0.414Y1 + 0.782Y2 + 0.182Y3 X 6 = 0.034Y1 − 0.298Y2 + 0.911Y3 X 7 = 0.170Y1 − 0.729Y2 + 0.334Y3 X 8 = 0.977Y1 + 0.129Y2 − 0.0252Y3 由表达式可见 Y1 ,的系数在 X 1, X 3 , X 8 里最大,在其余的5个原始变量中的系数非常小, 所以可以把第1因子看成主要是由国民生产总值 X 1 ,固定资产投资 X 3 ,工业总产值 X 8 ,构成 的,这3方面都是从总体角度衡量一个地区经济发展状况的,因此命名为“总量因子” Y2 的系数在 X 2 , X 5 , X 4 中最大,且为正,所以可以把第2因子看成是由居民消费水平 X 2 ,货物 周转量 X 5 ,职工平均工资 X 4 三方面构成的,这三方面都是反映消费水平的,因此命名为 “消费因子”.同时注意到 Y2 在 X 7 中的负荷量相对来讲也比较大,但是负的,代表的是商 品零售价格指数,这和我们分析的正好吻合,因为商品零售价格越低越促进消费,所以将 第2因子命名为“消费因子”是合理的。 Y3 在 X 6, X 7 中系数最大,且均为正, X 6 代表居民 消费价格指数, X 7 代表商品零售价格指数,因此把第3因子命名为“价格因子”。要求得3 个主要因子与原始变量之间的表达式,就要计算因子得分系数矩阵。SPSS软 件 求 得 结 果 , 如表五:
0.991
表一八个指标的样本相关系数阵
消费水平 资产投资 平均工资 货物周转
0.324
0.923
0.173
0.447
1
0.246
0.726
0.737
0.246
1
0.003
0.471
0.726
0.003
1
0.420
0.737
0.471
0.420
1
-0.435
0.119
-0.421
-0.167
-0.542
利用因子分析有一个潜在的要求,即原始变量之间要有比较强的相关性,如果原始 变量之间不存在较强的相关关系,那么就无法从中综合出共同特性的少数因子来。因此, 在作因子分析时,需要对原始变量做相关分析,利用SPSS数据处理系统提供KMO和巴特 利球形检验来判断变量是否适合做因子分析,当KMO检验值大于0.6时,适合做因子分析, 通过SPSS软件计算得到本例中的KMO检验值为0.688,因此适合做因子分析。由表二,我 们取前3个因子,累积贡献率已经达到85.734,可见提取3个因子后,它们反映了原始变量 的大部分信息,同时也起到了降维的作用。
生产总值 消费水平 资产投资 平均工资 货物周转
价格指数 零售指数 工业产量
表五因子得分系数矩阵
公共因子
1
2
0.347
-0.092
-0.017
0.368
0.323
-0.060
-0.048
0.281
0.007
0.426
-0.092
0.192
0.117
-0.283
0.345
-0.086