当前位置:文档之家› 居民消费主要经济指标

居民消费主要经济指标

数学实验作业:
主成分分析法
姓名:孙浩圣
学号:200811910
专业:应用数学
主成分分析法处理居民消费主要经济指标问题
主成分分析法是简化步骤的一种很常用的方法,本题中通过分析2006至2009年以来居民消费支出的数据,得出今年来居民消费水平状况以及主要消费方向。

3.下表为国家2010年统计年鉴数据,请您根据表中数据(也可补充其他数据)建立居民消费支出的数学模型:
根据上表我们可以简单的得出在居民消费中城镇支出要远高于农村支出,
但无论是城镇支出还是农村支出都以食品类支出和居住类支出为主。

只是细分起来又稍有不同,对此我们通过主成分分析法给以说明。

一.基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。

假定有n 个样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵:
)1(212222111211⎪⎪⎪
⎪⎪⎭
⎫ ⎝⎛=np n n p p x x x x x x x x x X
如何从这么多变量的数据中抓住地理事物的内在规律性呢?当然是对这p 维空间进行处理。

为此需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使它们既能尽量多地反映原来较多指标所反映的信息,同时又是彼此独立的。

那么,应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为X 1,X 2,…,X p ,它们的综合指标——新变量指标为z 1,z 2,…,z m (m≤p)。


)2(22112222121212121111⎪⎪⎩
⎪⎪

⎧+++=+++=+++=p mp m m m p p p p X l X l X l z X l X l X l z X l X l X l z
在(2)式中,系数l ij 由下列原则来决定:
(1)z i 与z j (i≠j;i ,j=1,2,…,m)相互无关;
(2)z 1是X 1,X 2,…,X p 的一切线性组合中方差最大者;z 2是与z 1不相关的X 1,X 2,…,X p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的X 1,X 2,…,X p 的所有线性组合中方差最大者。

这样决定的新变量指标z 1,z 2,…,z m 分别称为原变量指标X 1,X 2,…,X p
的第一,第二,…,第m 主成分。

其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。

在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。

从以上分析可以看出,找主成分就是确定原来变量X j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m ;j=1,2,…,p),从数学上容易知道,它们分别是X 1,X 2,…,X p 的相关矩阵的m 个较大的特征值所对应的特征向量。

二.计算过程
通过上述主成分分析基本原理知,我们可以把主成分分析计算步骤归纳如下(1)计算相关系数矩阵
)3(212222111211⎪⎪⎪




⎝⎛=pp p p p p r r r r r r r r r R
在公式(3)中,r ij (i ,j=1,2,…,p)为原来变量X i 与X j 的相关系数,其
计算公式为
()()
(4)n
ki
i kj j ij x
x x x r --=

因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元
素即可。

(2)计算特征值与特征向量
首先解特征方程|λI-R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。

(3)计算主成分贡献率及累计贡献率
一般取累计贡献率达85-95%的特征值λ1,λ2,…,λm 所对应的第一,第二,……,第m (m ≤p)个主成分。

(4)计算主成分载荷
(,)(,1,2,)
(5)k i ki p z x i k p ==……,
由此可以进一步计算主成分得分:
11121212221
1
......=6...............
m m n n nm z z z z z z Z z z z ⎛⎫
⎪ ⎪ ⎪ ⎪⎝⎭
()
三.SAS 处理过程
在此我们利用sas 软件来处理数据,如下:
3.1农村居民消费
图一
(说明:图一为农村居民消费水平整理的数据以及标准化后的数据。

)(1)下图为在sas中导入数据后的分析图
1.标准数据
(2)对标准化的数据进行处理,由公式(4)计算相关系数矩阵见下图
2.相关系数矩阵
(3)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率如下可知,第一第二主成分的累计贡献率已高达92.34%,故只需求第一第二主成分即可。

3.特征值与主成分贡献率
(4)对于特征值λ1=6.132963,λ2=4.024733分别求出其特征向量e1,e2,并计算各变量在各主成分上的载荷得到主成分载荷矩阵如下
4.主成分载荷
由上表可知,第一主成分pcr1与col0,col4,col5,col9有较大的正相关与col3有较大的负相关;第二主成分prc2与col10有较大的正相关,与col1,col8有较大的负相关。

比较符合实际,且简化了计算。

(说明:图二为城镇居民消费水平整理的数据以及标准化后的数据。

)(1)下图为在sas中导入数据后的分析图
1.标准数据
(2)对标准化的数据进行处理,由公式(4)计算相关系数矩阵见下图
2.相关系数矩阵
(3)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率如下可知,第一第二第三主成分的累计贡献率已高达100%,故只需求第一第二第三主成分即可。

3.特征值与主成分贡献率
(4)对于特征值λ1=,4.818639,λ2=3.439797,λ2=2.74154,分别求出其特征向量e1,e2,e3,并计算各变量在各主成分上的载荷得到主成分载荷矩阵如下
4.主成分载荷
由上表可知,第一主成分pcr1与col0,col4,有较大的正相关与col7,col10,有较大的负相关;第二主成分prc2与col2,col9,有较大的正相关,与col,5,col10,有较大的负相关,;第三主成分prc3与col6有较大的正相关。

比较符合实际,且简化了计算。

由上可知农村与城镇居民消费水平虽有联系,本质上还是有些区别的。

相关主题