我国城镇居民家庭收入的多元统计分析08708班 0807524021 杨黎竹摘要:收入分配和消费结构都是国民经济的重要课题,居民消费的主要来源是居民收入,而消费又是拉动经济增长的重要因素。
本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。
通过分析,找出我国城镇居民收入特点及其中存在的不足。
主要利用聚类分析法,对我国不同地区居民家庭收入的差异程度及不合理因素进行分析,并提出一些政策性建议,促进建设合理的城镇居民收入分配体系,提高我国居民生活水平和居民生活的幸福感。
关键字:多元统计分析聚类分析法经济增长生活水平引言:改革开放以来,我国的国民经济增长迅速,居民的收入水平也大幅提高,但居民收入分配差距也在不断扩大。
2008年的金融危机为我国带来的后遗症还在继续影响着居民正常生活,物价上涨和通货膨胀的压力仍然困扰着老百姓,收入和消费支出体系的健康发展至关重要。
消费是拉动国民经济增长的一架重要马车,收入又是决定居民消费的最主要因素。
我国人口基数大,消费群体众多,但由于居民收入分配差距大,直接影响到居民消费需求的降低,从而影响经济增长。
而且,随着中国特色的市场经济体制的建立,各种收入分配问题也愈发明显。
因此,鉴于篇幅限制,本文就只针对城镇居民的收入进行分析。
下面通过统计数据对2009年我国城镇居民家庭收入的总体现状和发展态势进行分析,了解我国居民收入分配情况。
1.聚类分析方法概述:聚类分析方法是仅次于回归分析的一种常用方法,其中对样本进行分类叫做Q型聚类,对变量进行分类叫做R型聚类,本文用的是Q型聚类。
聚类分析的核心思想是从一批样品的多个观测指标中,定义能度量样本间相似成都的统计量,在此基础上求出各个样本之间的相似程度的度量值,按相似程度的大小,将样本逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,知道所有的样品都聚集完毕,把不同类型一一划分出来,形成一个亲疏关系谱系图,用以直观地显示分类对象的差异和联系。
2.搜集数据材料及确定指标:按居民收入类别分为总收入、人均可支配收入、工资性收入、经营性收入、财产性收入、转移性收入,分别记为:X1、X2、X3、X4、X5、X6(如图1):(图1)2009年我国城镇居民平均每人全年家庭收入来源3.利用SPSS软件进行分析:(1)输出样品的距离矩阵(表1):Case Processing Summary (a, b)a Euclidean Distance usedb Centroid Linkage表1表明了6个分析指标的记录数据统计结果。
共有31个有效样品参加分析,缺失值记录为3,总记录数为34。
(2)输出的样品矩阵表(表2):Proximity Matrix3: 3 33.183 11.836 .000 .264 2.771 1.572 .475 1.056 4: 4 36.791 14.892 .264 .000 2.539 2.596 .506 .812 5: 5 31.758 15.476 2.771 2.539 .000 2.085 1.741 3.254 6: 6 26.559 8.585 1.572 2.596 2.085 .000 1.565 3.140 7: 7 37.305 15.140 .475 .506 1.741 1.565 .000 .368 8: 8 44.609 19.172 1.056 .812 3.254 3.140 .368 .000 9: 9 1.300 13.766 40.705 44.469 36.714 32.797 44.195 52.331 10:10 13.804 6.048 10.460 12.656 7.136 4.466 10.607 14.636 11: 11 24.920 32.970 44.530 45.946 30.307 32.917 43.824 51.148 12: 12 34.556 14.010 .298 .074 1.922 2.175 .477 1.051 13: 13 21.774 18.286 16.948 16.842 9.183 12.479 16.997 21.340 14: 14 37.261 15.719 .450 .141 1.657 2.232 .219 .599 15: 15 22.542 11.437 3.930 3.884 1.417 3.522 4.011 6.478 16: 16 35.768 14.387 .299 .285 1.694 1.661 .063 .549 17: 17 34.826 14.864 .634 .332 1.051 1.928 .381 1.083 18: 18 34.112 15.622 2.355 2.209 .356 1.583 1.387 2.576 19: 19 16.919 17.069 18.708 19.363 9.284 12.600 17.896 22.983 20: 20 29.509 13.129 1.829 1.575 .587 1.920 1.705 3.199 21: 21 39.959 19.681 2.362 1.549 .803 3.266 1.312 1.889 22: 22 29.232 11.860 .763 .701 1.658 2.240 1.137 2.335 23: 23 36.562 15.782 .628 .185 1.517 2.450 .468 .956 24: 24 44.156 19.831 1.096 .535 2.835 3.719 .473 .196 25: 25 36.930 20.126 7.329 6.189 6.106 8.427 8.026 9.382 26: 26 48.094 29.199 8.080 6.048 9.171 14.388 8.284 8.318 27: 27 36.690 15.083 .966 .664 4.811 4.698 1.864 2.079 28: 28 49.884 23.748 2.466 1.481 6.013 7.273 2.292 1.410 29: 29 42.770 17.955 .856 .584 4.501 4.145 .906 .541 30: 30 40.109 20.149 3.795 3.501 .804 2.754 1.856 2.682 31: 3148.90325.2823.1851.8634.2537.3172.3481.856This is a dissimilarity matrix由于数据量较大,只给出部分的距离矩阵结果。
样品之间的距离采用欧氏距离公式计算。
不同省份的收入形式越接近,计算得到的距离越小;数值越大,两省份越不相似。
(3)输出凝聚过程表(表3):Agglomeration Schedule7 5 20 672.628 0 0 98 24 29 731.272 0 0 139 5 22 731.622 7 0 2010 4 25 801.199 6 0 1111 3 4 768.047 0 10 1212 3 27 817.543 11 0 1413 8 24 841.857 0 8 1714 3 21 868.110 12 0 1515 3 30 809.761 14 0 1616 3 18 1004.132 15 0 1917 8 28 1341.517 13 0 1818 8 31 1508.198 17 0 1919 3 8 1770.688 16 18 2120 5 6 1928.430 9 0 2121 3 5 2138.050 19 20 2622 2 10 2591.475 0 0 2323 2 13 3160.542 22 0 2524 1 9 3480.587 0 0 3025 2 19 3494.289 23 0 2726 3 26 3676.397 21 0 2927 2 15 4093.059 25 0 2828 2 11 5625.377 27 0 2929 2 3 8193.156 28 26 3030 1 2 18721.822 24 29 0表3反映了聚类过程的凝聚过程表。
在第一步中,样品4和样品14合为一类,合并结果取最小的样品序号4,其距离为289.323;合并的两项都是首次出现,所以Stage Cluster First Appears栏都取0;该步合并结果将在第三步再次出现。
在第三步中,样品4和样品7又合并为一类,合并结果取小的样品号4,其距离系数为445.568,样品7首次出现,所以Stage Cluster First Appears栏取0,而第4类是第一步形成的,所以Stage Cluster First Appears栏取1。
经过30步类聚过程,31个样品最后合成一大类,聚类过程结束。
(4)输出分类结果(表4):Cluster MembershipCase 6 Clusters 5 Clusters 4 Clusters1: 1 1 1 12: 2 2 2 23: 3 3 3 34: 4 3 3 35: 5 4 4 36: 6 4 4 37: 7 3 3 38: 8 3 3 39: 9 1 1 110: 10 2 2 211: 11 5 5 412: 12 3 3 313: 13 6 5 414: 14 3 3 315: 15 4 4 316: 16 3 3 317: 17 3 3 318: 18 4 4 319: 19 6 5 420: 20 4 4 321: 21 4 4 322: 22 3 3 323: 23 3 3 324: 24 3 3 325: 25 4 4 326: 26 3 3 327: 27 3 3 328: 28 3 3 329: 29 3 3 330: 30 4 4 331: 31 3 3 3表4给出了划分4—6类时每个样品属于某一类别的结果。
不管聚成几类,上海、北京都属于第1类,天津和江苏都属于第2类。
当聚成4类时,宁夏属于地3类;当聚成5、6类时,宁夏属于第4类。
(5)输出谱系聚类图(图3):* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *Dendrogram using Ward MethodRescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+17 ⇩23 ⇩▫14 ⇩▫4 ⇩▫12 ⇩▫7 ⇩▫16 ⇩▫3 ⇩▫22 ⇩⇳⇩8 ⇩▫⇔24 ⇩▫⇔28 ⇩▫▫⇩29 ⇩▫⇔⇔27 ⇩▫⇔⇔31 ⇩⇔⇔26 ⇩⇩⇩⇔5 ⇩▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩18 ⇩▫⇔⇔20 ⇩▫⇔⇔21 ⇩▫⇔⇔30 ⇩▫⇔⇔6 ⇩⇳⇩⇔⇔15 ⇩▫⇩⇔25 ⇩⇩⇩⇔13 ⇩✗⇩⇔19 ⇩▫⇩⇩⇩⇩⇩⇩⇩⇔11 ⇩⇩⇩▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩1 ⇩✗⇩⇩⇩⇔9 ⇩▫⇩⇩⇩⇩⇩2 ⇩✗⇩⇩⇩10 ⇩图3显示出了样品逐步合并的过程,分类结果如下:A.高收入类:北京、上海、浙江、广东B.中等收入类:天津、江苏、福建、山东C.低收入类:其他省市此结果说明此类中的变量与其他类的差距较为明显,中等收入类的四个省市也具有和高收入类相似的统计特性,说明此类中的数据与高、低收入类之间的相关系数也比较小,即收入差异较大。