当前位置:文档之家› 统计学专业实习论文

统计学专业实习论文

题目:关于城镇居民人均可支配收入的分析学院:班级:姓名:学号指导教师:2016年12月28日摘要收入分配和消费结构都是国民经济的重要课题,而居民消费的主要来源又是居民收入。

本文通过应用多元线性回归分析方法对我国各地区城镇居民收入的现状进行分析,找出影响人均可支配收入的因素。

城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。

本文以我国城镇居民人均可支配收入为研究对象,选取可能影响居民人均可支配收入的5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘方法建立回归方程,再对方程进行异方差,自相关和多重共线性诊断,再用前进法,后退法,逐步回归法消除多重共线性,又运用岭回归,主成分法,偏最小二乘方法建立回归方程。

进而确定5个因素对居民人均可支配收入的影响程度,分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。

关键词:城镇居民人均可支配收入逐步回归岭回归偏最小二乘目录1.引言 (1)2.数据来源及介绍 (2)3.模型方法和介绍 (3)3.1多元线性回归模型 (3)3.1.1多元线性回归模型的一般形式 (3)3.1.2多元线性回归模型的基本假定 (4)4. SAS程序及输出结果 (6)4.1 用普通最小二乘方法作多元线性回归 (6)4.1.1相关分析 (6)4.1.2普通最小二乘法作多元线性回归 (6)4.2模型检验 (8)4.2.1异方差模型检验 (8)4.2.2 自相关检验 (9)4.2.3 异常值检验 (10)4.2.4多重共线性检验 (11)4.3 模型修正 (12)4.3.1前进法 (12)4.3.2后退法 (13)4.3.3逐步回归 (14)4.3.4最优子集回归 (16)4.3.5 岭回归 (17)4.3.6主成分回归 (20)4.3.7偏最小二乘回归 (21)5.结论及建议 (22)6.参考文献 (23)7.附录 (24)1.引言改革开放以来我国的国民经济增长迅速,居民的收入水平也大幅提高,但居民收入分配差距也在不断扩大。

2008年金融危机为我国带来的后遗症还在继续影响着居民正常生活,物价上涨和通货膨胀的压力仍然困扰着老百姓。

收入和消费支出体系的健康发展至关重要。

消费是拉动国民经济增长的一架重要马车,收入又是决定居民消费的最主要因素。

我国人口基数大消费群体众多,但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。

而且随着中国特色的市场经济体制的建立,各种收入分配问题也愈发明显。

国家统计局发布的数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。

政府也在积极调整收入分配政策,刺激消费需求,促进国民经济持续快速健康发展。

本文以我国城镇居民人均可支配收入为研究对象,分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。

2.数据来源及介绍以1991年—2011年的城镇居民家庭人均可支配收入y为因变量,选取城乡居民储蓄存款年底余额x1,储蓄存款年底增加额x2,国民总收入x3,职工基本就业情况x4,城乡居民家庭恩格尔系数x5为自变量。

数据来源于国家统计局网站统计年鉴,数据见表1。

表1年份可支配收入年底余额年增加额国民总收入就业情况家庭恩格尔系数1991 1700.6 9244.9 2125.3 21826.2 58360 57.61992 2026.6 11757.3 2512.4 26937.3 59432 57.61993 2577.4 15203.5 3446.2 35260 60220 58.11994 3496.2 21518.8 6315.3 48108.5 61470 58.91995 4283 29662.3 8143.5 59810.5 62388 58.61996 4838.9 38520.8 8858.6 70142.5 68850 56.31997 5160.3 46279.8 7759 78060.9 69600 55.11998 5425.1 53407.5 7127.7 83024.3 69957 53.41999 5854 59621.8 6214.4 88479.2 70586 52.62000 6280 64332.4 4710.6 98000.5 71150 49.12001 6859.6 73762.4 9430.1 108068.2 74432 47.72002 7702.8 86910.7 13148.2 119095.7 75360 46.22003 8472.2 103617.7 16707 134977 76075 45.62004 9421.6 119555.4 15937.7 159453.6 76823 47.22005 10493 141051 21495.6 183617.4 77877 45.52006 11759.5 161587.3 20544 215904.4 78244 432007 13785.8 172534.2 10946.9 266422 78645 43.12008 15780.8 217885.4 45351.2 316030.3 79243 43.72009 17174.7 260771.7 42886.3 340320 77510 412010 19109.4 303302.5 42530.8 399759.5 78388 41.12011 21809.8 343635.9 41656.6 472115 78579 40.43.模型方法和介绍3.1多元线性回归模型3.1.1多元线性回归模型的一般形式设随机变量y 与一般变量1x ,2x ,… ,p x 的线性回归模型为: εββββ+++++=0p p x x x y 2211 (3.1)式中,0β,1β,…,p β是1+p 个未知参数,0β称为回归常数,1β,…,p β称为回归系数。

y 称为被解释变量(因变量),p x x x ,,,21 是p 个可以精确测量并控制的一般变量。

称为解释变量(自变量)。

1=p 时,式(3.1)为一元线性回归模型;2≥p 时,我们就称式(3.1)为多元线性回归模型。

ε是随机误差,与一元线性回归一样,对随机误差项我们常假定0=E )(ε (3.2)2var σε=)( 称()p p x x x y ββββ++++=E 22110 (3.3) 为理论回归方程。

对一个实际问题,如果我们获得n 组观测数()()n i y x x x i ip i i ,,2,1;,,,21 =,则线性回归模型式(3.1)可表示为:1112211101εββββ+++++=p p x x x y2222221102εββββ+++++=p p x x x y (3.4)n np p n n n x x x y εββββ+++++= 22110写成矩阵形式为:εβ+=X y (3.5)X 是一个()1+⨯p n 阶矩阵,称为回归设计矩阵或资料矩阵。

在实验设计中,X 的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称X 为设计矩阵。

3.1.2多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定 (1)解释变量1x ,2x ,… ,p x 是确定性变量,不是随机变量,且要求()n p X <+=1rank 。

这里的()n p X <+=1rank ,表明设计矩阵X 中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X 是一满秩矩阵。

(2)随机误差性具有零均值和等方差,即()0=E i ε2σ,j i =()=j i εε,cov n j i ,,2,1, = 0,j i ≠这个假定通常称为高斯—马尔柯夫条件。

()0=E i ε,即假设观测值没有系统误差,随机误差项i ε的平均值为零,随机误差项i ε的协方差为零,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。

(3)正态分布的假定条件为 ()2,0~σεNin εεε,,,21 相互独立对于多元线性回归的矩阵模型式(3.5),这个条件便可表示为: ()n N I 2,0~σε由上述假定和多元正态分布的性质可知,随机变量y 服从n 维正态分布,回归模型式(3.5)的期望向量()βX y E =()n y I =2var σ因此),(~2n X N y I σβ4. SAS 程序及输出结果4.1 用普通最小二乘方法作多元线性回归 4.1.1相关分析 程序结果:结果分析:从表2相关阵看出,y 与1χ,2x ,3x ,,的相关系数都在0.9以上,说明所选自变量与y 高度线性相关,用y 与自变量作多元线性回归是合适的。

y 与1χ的相关系数偏小,说明1χ对y 无显著影响。

4.1.2普通最小二乘法作多元线性回归先对数据做标准化处理,再对标准化数据作回归分析。

结果分析:回归方程为:Y=0.063121χ+0.025882χ+0.826923χ+0.288444χ+0.288445χ(1)由R 方=0.9990,调整R 方=0.9987,所以回归方程高度显著。

(2)由F=3108.47,P<.0001,所以回归方程高度显著。

(3)回归系数的显著性检验。

在显著性水平05.0=α上,3χ,4χ,5χ通过了显著性检验,其余变量未通过检验,模型需要进一步检验。

(4)由模型可知,国民总收入对人均可支配收入影响较大。

国民总收入增加,人均可支配收入就会增加,符合经济学原理。

4.2模型检验4.2.1异方差模型检验采用残差图法,等级相关系数法图1表6结果分析:从图1残差图看出,误差项没有呈现任何趋势,也无任何规律,初步判断不存在异方差。

表6结果显示个等级相关系数t 检验统计量的P 值均大于显著水平α=0.05。

综上,我们有很大把握认为异方差不存在。

4.2.2 自相关检验采用DW 检验 程序结果:表7Durbin-Watson D 2.085观测数 21 第一阶自相关-0.094结果分析:由表7知DW=2.085,查DW 表,n=21,k=6,显著性水平α=0.05,得L d =0.83,U d =1.96,由DW>d,我们可以认为所拟合的回归方程不存在自相关性。

U4.2.3 异常值检验程序结果:表8结果分析:由表8知,所有的学生化残差的绝对值都小于3,所以不存在异常值。

4.2.4多重共线性检验(1)方差扩大因子法表9结果分析:由表9知,4 ,5x 的方差膨胀因子4V IF =12.80022,5VIF =14.04276大于10,1x ,3x 的方差膨胀因子1VIF =189.25699,3VIF =167.95087远大于10,存在严重的多重共线性。

相关主题