当前位置:文档之家› 多元课程论文_农村居民收入与支出多元统计分析

多元课程论文_农村居民收入与支出多元统计分析

多元统计分析课程论文-----我国农村居民收入与支出多元统计分析班级:统计1203姓名:李犁学号:13041207242015年7月目录1.引言 (3)1.1研究问题的背景 (3)1.2研究问题的目的 (3)2.分析方法的简单介绍 (4)2.1主成分分析 (4)2.1.1主成分分析的思想 (4)2.1.2主成分分析的几何意义 (4)2.2聚类分析 (5)2.2.1聚类分析的思想 (5)2.2.2聚类分析的过程 (5)3.农村居民收入的多元统计分析 (5)3.1主成分分析 (5)3.2聚类分析 (7)4. 农村居民支出的多元统计分析 (9)4.1 主成份分析 (9)4.2聚类分析 (11)5. 结论 (13)【摘要】本文主要研究农村居民收入与支出的相关问题,利用spss软件,首先对农村居民收入进行了数据的收集和整理,数据取自中国统计年鉴网络实时数据,利用多元统计分析中的主成分分析,分析影响农村居民收入的几个重要因素。

再对其进行聚类分析,按照农村居民不同的收入对30个省、自治区、直辖市进行聚类,分出几个不同的收入等级。

然后对农村居民支出情况的数据进行主成分分析,分析影响收入的因素,再对其进行聚类分析,分析不同的支出等级,最后将收入与支出综合分析,大致得出结论,我国实际的居民收入与消费结构还存在一定的不合理。

【关键词】农村居民收入农村居民支出主成分分析聚类分析1.引言1.1研究问题的背景我国是发展中的农业人口大国,农业的基础地位和作用比任何国家都重要,小康目标能否全面实现,重点、难点在提高人民收入,要实现农村稳定,农民小康和农业现代化,前提条件就是要保持农民收入的持续稳定的快速发展。

2000年,在国家连续三年扩大内需的宏观政策作用下,我国居民消费保持了稳中有旺的运行态势。

但是从城乡消费结构来看,农村消费明显不如城市消费活跃。

农村消费之所以增长缓慢,主要是因为农村居民收入停滞不前以及受到农村传统消费观念的主导1.2研究问题的目的劳动者报酬收入和家庭主营收入已成为农民收入的主要来源,但是由于我国经济发展的不平衡,各地区的农民收入有着很大不同,另一方面,经济改革使得地区之间、农民内部之间的富裕家庭和贫穷家庭之间的收入差距越来越大。

“二元思维”造就了经济发展层面上的“两个中国”-----“城市中国”和“农村中国”,“三农”问题日益突出,“三农”问题的核心是农民问题,即农民利益和平等待遇问题,“三农”是我国的根本问题,建设现代化农业、发展农村经济、增加农民收入,始终是中国政府面临的重大问题如何客观准确的分析这些差异,具有重要的理论和实际意义,因此,本文试图用多元统计分析对我国各地区农民收入来源及消费支出问题进行全面深入的分析。

2.分析方法的简单介绍2.1主成分分析2.1.1主成分分析的思想主成分分析也称主分量分析,由于多个变量之间往往存在着一定程度的相关性。

人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。

当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。

这就是主成分分析的思想。

一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。

以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。

2.1.2主成分分析的几何意义主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。

因此,主成分分析在二维空间中有明显的几何意义。

假设共有n 个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图1所示。

事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。

显然,在坐标系x1Ox2中,单独看这n 个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。

如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。

图1如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐标系12y Oy ,这里1y 是椭圆的长轴方向,2y 是椭圆的短轴方向。

旋转公式为112212cos sin sin cos Y X X Y X X θθθθ=+⎧⎨=-+⎩我们看到新变量1Y 和2Y 是原变量1X 和2X 的线性组合,它的矩阵表示形式为:1122cos sin sin cos Y X Y X θθθθ⎡⎤⎡⎤⎛⎫'== ⎪⎢⎥⎢⎥-⎝⎭⎣⎦⎣⎦T X其中,'T 为旋转变换矩阵,它是正交矩阵,即有1-'=T T 或'=T T I 。

2.2聚类分析2.2.1聚类分析的思想根据距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

2.2.2聚类分析的过程假设总共有n 个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n 类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n -1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n -2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。

为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。

所以有时系统聚类也称为谱系分析。

3.农村居民收入的多元统计分析3.1主成分分析利用Spss 软件,对农村居民收入情况的数据进行主成分分析,分析结果如图一:相关矩阵a公因子方差初始提取纯收入 1.000 .853 工资性收入 1.000 .901 家庭经营纯收入 1.000 .197 财产性收入 1.000 .901 转移性收入 1.000 .803 提取方法:主成份分析。

成份矩阵a成份1纯收入.924工资性收入.949家庭经营纯收入-.444财产性收入.949转移性收入.896提取方法 :主成份。

成份矩阵a成份 1 纯收入 .924 工资性收入 .949 家庭经营纯收入 -.444 财产性收入 .949 转移性收入 .896提取方法 :主成份。

a. 已提取了 1 个成份。

第一个主成分中的4个变量在0.05水平上都是显著的,相关系数越大,说明该主成分受该指标的影响也越大,因此,决定第一个主成分prin1大小的主要是x1、x2、x3、x4第一个主成分即可反映农村居民收入情况。

3.2聚类分析通过以上主成分分析可得出:第一主成分得分x x x x 4321489065.0506076.0519507.0484576.0prin1+++=;第二主成分得分x x x x 4321640406.0260739.0212978.0690316.02prin --+=;综合得分E=0.8080prin1+0.1133prin2;其中,0.8080为第一主成分贡献率,0.1133为第二主成分贡献率。

对数据进行聚类分析,可得出结果如图四:图四 聚类分析结果1由聚类分析结果1可以看出:当NCL为2时,半偏R2(SPRSQ)较大,0.4359,说明RSQ 在从NCL为3到2的过程中减少了0.4359,说明NCL为3时为最优,再看CCC值,由于CCC 无正数,所以忽略,再看PSF,当PSF在NCL=3时达到峰值73.8,最后看PST2,在NCL=3时增加到NCL=2的增加量最多,因此,将其分为3类。

图五聚类分析结果2第一类为高收入地区:上海第二类为中等收入地区:北京、浙江、天津、江苏、广东第三类为低收入地区:河北、辽宁、山东、黑龙江、吉林、海南、江西、湖南、广西、福建、山西、安徽、内蒙、西藏、新疆、河南、四川、贵州、青海、陕西、宁夏、云南、甘肃、湖北4. 农村居民支出的多元统计分析4.1 主成份分析对数据中的农村居民支出数据进行spss主成分分析结果如下:图六相关矩阵的特征值公因子方差初始提取合计 1.000 .992食品 1.000 .830衣着 1.000 .781居住 1.000 .717家庭设备 1.000 .773交通通信 1.000 .829文教娱乐 1.000 .888医疗保健 1.000 .678其他 1.000 .909提取方法:主成份分析。

图七主成分分析特征向量x x x x x x x x 87654321343825.0363822.0354944.0344809.0369305.0351498.0346487.0352914.0prin1+++++++=X1-x8与prin1-prin8之间的相关系数如图所示:图八 相关系数矩阵第一个主成分中的8个变量在0.05水平上都是显著的,相关系数越大,说明该主成分受该指标的影响也越大,因此,决定第一个主成分prin1大小的主要是x1、x2、x3、x4、x5、x6、x7、x8第一个主成分即可反映农村居民收入情况。

由于只抽取了一个变量,所以无法旋转此解。

4.2聚类分析通过以上主成分分析可得出: 第一主成分得分x x x x x x x x 87654321343825.0363822.0354944.0344809.0369305.0351498.0346487.0352914.0prin1+++++++=;综合得分E=0.8955prin1;其中,0.8955为第一主成分贡献率。

对数据进行聚类分析,可得出结果:图九 聚类分析结果1由聚类分析结果1可以看出:当NCL为2时,半偏R2(SPRSQ)较大,0.4301,说明RSQ 在从NCL为3到2的过程中减少了0.4301,说明NCL为3时为最优,再看PSF,当PSF在NCL=3时达到峰值84.2,最后看PST2,在NCL=3时增加到NCL=2的增加量最多,因此,将其分为3类。

图十聚类分析结果2第一类为高消费地区:上海第二类为中等消费地区:北京、浙江、广东、江苏、福建第三类为低消费地区:天津、辽宁、黑龙江、吉林、内蒙、广西、江西、湖北、山东、湖南、河北、四川、安徽、宁夏、海南、山西、河南、贵州、新疆、陕西、甘肃、青海、云南5. 结论本次研究主要研究分析了我国各地区农村居民家庭人均收入与消费支出的统计特性。

通过大量的统计数据,我们不难发现,我国实际的居民收入与消费结构还存在一定的不合理。

通过对我国居民收入水平聚类分析以及主成分分析发现,我国居民收入差距并没有得到明显的改善;同时对比消费支出统计分析结果发现高收入地区不一定对应高消费水平,例如福建省为低收入地区,而其消费水平为高水平,天津市为高收入水平地区,其消费水平却为低水平。

相关主题