湖北省各地区经济差异的多元统计分析摘要本文通过多元统计分析的方法,对湖北省各地区主要的经济指标进行因子分析和方差分析,进而可以得出湖北省12个城市的经济发展水平的差异,由因子分析的结果可知,这12个城市的综合经济实力从大到小的排名依次为武汉、宜昌、襄樊、黄石、荆州、十堰、鄂州、荆门、随州、孝感、黄冈、咸宁。
由方差分析的结果可知,以武汉为中心,根据地理位置将这12个城市划分为四个地区:武汉以东的地区(黄石、鄂州、黄冈)、武汉以南的地区(孝感、荆州)、武汉以西的地区(宜昌、荆门、随州)、武汉以北的地区(十堰、襄樊、咸宁)这四个地区的经济发展趋于稳定。
根据分析的结果我们可以为湖北省经济的稳步发展出一份薄力。
关键词经济指标;因子分析;方差分析multivariate statistical analysis of Hubei regional economic disparitiesAbstractBy multivariate statistical analysis method Hubei region of the main economic indicators for factor analysis and analysis of variance.thus can reach12cities in Hubei Province in the level of economic development,ranging from factor analysis of the results,This12cities in the overall economic strength of the smallest order of the rankings Wuhan,Yichang,Xiangfan,Huangshi,Jingzhou,Shiyan,Ezhou,Jingmen, Suizhou,Xiaogan,Huanggang,Xianning.By analysis of variance to the results,with Wuhan at the center,according to this location12cities is divided into four areas:the area to the east of Wuhan(Huangshi,Ezhou,Huanggang),in the area south of Wuhan (Xiaogan,Jingzhou)Wuhan west of the region(Yichang,Jingmen,Suizhou),the area to the north of Wuhan(Shiyan,Xiangfan,Xianning)The four areas of economic development has become stable.According to the results of the analysis we will be able to Hubei's steady economic development of a thin edge.Key words:Economic indicators;Factor analysis;Analysis of variance1引言近几年湖北省经济得到了快速发展,但发展中还是碰到了很多问题,各个城市的经济水平还存在很大的差异,为了准确弄清楚湖北省主要的12个城市的经济差异,我们利用因子分析对各个地区的综合经济实力进行比较分析,然后再利用方差分析对各个地区的整体实力进行比较,为湖北今后的经济发展提供一些比较科学的发展方案。
2分析方法介绍2.1因子分析因子分析模型是主成分分析的推广。
它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关剧增。
因子分析的思想始于1904年查尔斯·斯皮尔曼对学生考试成绩的研究。
近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医院、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。
2.1.1基本思想因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。
对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线形函数,另一部分是与公共因子无关的特殊因子。
2.1.2因子分析的模型①查尔斯·斯皮尔曼提出因子分析时用到的例子①一般因子分析模型:设有n个样品,每个样品观察p个指标,这p个指标之间有较强的相关性(要求p 个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。
为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。
2. 1.3因子分析的步骤①确定因子载荷:主成分法、主轴因子法、最小二乘法、极大似然法、因子α提取法等。
由于这些方法求解因子载荷的出发点不同,所得的结果也不完全相同,为此我们就本论文所用到的主成分法寻找公共因子的方法做详细介绍。
主成分寻找公共因子的方法如下:假定从相关阵出发求解主成分,没有p 个变量,则我们可以找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为,则主成分与原始变量之间存在如下关系式:p Y Y Y ,,,21L (1)11111221221122221122p pp p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩L L LLLL 式中,为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特ij γ征向量之间彼此正交,从X 到Y 的转换关系是可逆的,很容易得出由Y 到X 的转换关系为:(2)11112121212122221122p pp p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩L L LLLL 我们对上面每一等式只保留前m 个主成分而把后面的部分用代替,则㈡式可i ε变为:(3)1111212112121222221122m m m m p p p mp m pX Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩L L LLL L 这个式子在形式上已经与因子模型相一致,且之间相互独立,为),,2,1(m i Y i L =了把转化成合适的公因子,现在要做的工作只是把主成分变为方差为1的变i Y i Y 量。
为完成此变换,必须将除以其标准差(即为特征根的平方根。
于是,i Y i λ令,则㈢式变为:ji i ij i i i a Y F γλλ==,/(4)1111122112211222221122m m m m p p p pm m pX a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩L L LLL L 这与因子模型完全一致,这样,就得到了载荷A 矩阵和一组初始公因子(未旋转)。
②因子旋转:因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A左乘一正交阵而得到。
经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。
而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。
但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零。
③因子得分:因子得分就是公共因子在每一个样品点上的得分。
根据因子得分我们可以知道那个城市的经济发展水平要高,那个城市的经济发展水平要底。
2.2方差分析方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS 及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F 值;最后根据F 值的大小确定P 值,作出统计推断方差分析的检验假设H 0为各样本来自均数相等的总体,H 1为各总体均数不等或不全相等。
若不拒绝H 0时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。
理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F 为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F 应接近于1。
若拒绝H 0,接受H 1时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。
此时的组间变异远大于组内变异,两者的比值即统计量F 明显大于1。
在实际应用中,当统计量F 值远大于1且大于某界值时,拒绝H 0,接受H 1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。
3问题分析我们给出2003年湖北省12个城市的主要经济指标,借助这些指标体系对湖北省12个城市的经济差异作出分析。
然后以武汉为中心,根据地理位置将这12个城市划分为四个地区:武汉以东的地区(黄石、鄂州、黄冈)、武汉以南的地区(孝感、荆州)、武汉以西的地区(宜昌、荆门、随州)、武汉以北的地区(十堰、襄樊、咸宁),用方差分析对这四个地区的经济进行分析比较。
4数据处理过程下表给出的是2003年湖北省12个城市的主要经济指标,为了得出它们的经济的差异,我用多元统计方法里面的因子分析和方差分析对这些数据进行处理。
表1湖北省12个城市的经济指标武汉黄石十堰宜昌襄樊鄂州116621797136610014360052332767241456712570002804368506564653097407949473524231177840836287568915902614874070224424398914137396123922682527125472013180425005134503292366133449381474692308076914523192474900152580977550216423602697305512238132997131398619375310813552742113492151786796364459664261545010232476610622821539418831570018467806336252936571116954682933784229110486932352340712542.7929.6433.2667.3373.7634.32134273309305052228599238951453595324188814749861761811816930728101252401532476795761003110852316651320011220523284297877173457796963801693310541230118875162605069208917218738116194905301723324185234992677031302044841364600399721139025127833120212623328464838续表荆门孝感荆州黄冈咸宁随州11477638554715108332734036039190011232002430071889044589200952882728627368527503429345551137461906332941892119157207205362105533394500779130842829686138384237074910264841772512857711149358722511754171183682824298138897835379794964620296227686111475959412629035421857336039991017619218001840607721352912770318652411348912588057039256658334258221214.7733.7225.0611.57 6.0620.18131552961772693199407935899125186524146910376391113466510043421555149474160231511161619401549154976254215937175395544150015242248015271828525598614700872040001100019211441952651133206001764617042026128186004470014600132002373221282320181942注:数据来源于《2004年中国统计年鉴》其中1—地区生产总值(单位:万元)2—地方财政一般预算内收入(单位:万元)3—地方财政一般预算内支出(单位:万元)4—当年合同外资金额(单位:万美元)5—环境污染治理投资额(单位:万元)6—工业总产值(单位:万元)7—建成区绿化覆盖面积(单位:公顷)8—产品销售收入(单位:万元)9—邮政业务总量(单位:万元)10—固定资产投资完成额(单位:万元)11—房地产开发投资完成额(单位:万元)12—商品房屋销售面积(单位:万平方米)13—全年新增固定资产(单位:万元)14—全年供水总量(单位:万立方米)15—年末实有铺装道路总面积(单位:万平方米)16—园林绿地面积(单位:公顷)17—工业废水排放总量(单位:万吨)18—液化石油气供气总量(单位:吨)19—高等学校学生数(单位:人)20—各类专业技术人员(单位:万人)21—医院、卫生院数(单位:个)4.1因子分析的结果由于经济指标太多,不利于我们进行问题的分析,因此我们需要对其进行降维处理。