多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。
并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。
关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。
研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。
回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。
一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。
如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。
回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。
通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。
实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。
本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。
以探求影响居民消费水平的各个因素,得到最优线性回归模型。
随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。
本文将分为5章进行论述。
在第2章,我们介绍多元线性回归模型的概念。
第3章,我们进行模型的建立与数据的收集和整理。
我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。
在第5章,我们进行总结。
2.预备知识2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。
回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。
在实际问题回归分析模型的建立和分析中有几个重要的阶段:●根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。
首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。
●收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。
当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。
●确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。
如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。
●模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。
位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。
●模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。
模型的检验一般需要进行统计检验和模型经济意义的检验。
统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。
●回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。
在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。
2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。
这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。
设随机变量Y与P(P≥2)个一般变量X1,X2,…,X P的线性回归模型可表示为:Y=β0+β1X1+β2X2+⋯+βP X P+εβ0称为回归常数,β1,…,βP称为偏回归系数,他们决定了因变量Y与自变量X1,X2,…,X P的线性关系的具体形式;ε是随机误差,满足ε~N(0,σ2)。
如果获得满足条件ε=(ε1ε2⋮εn)n×1{Y=Xβ+εE(ε)=0,D(ε)=σ2I nQεσ2~χ2(n−p−1)的n组观测数据(x i1,x i2,…,x ip;y i),其中i=1,2,…,n,则线性回归模型可表示为y i=β0+β1x i1+β2x i2+⋯+βP x iP+εi其中i=1,2,…,n。
上式写成方程组形式为{y1=β0+β1x11+β2x12+⋯+βP x1P+ε1 y2=β0+β1x21+β2x22+⋯+βP x2P+ε2…y n=β0+β1x n1+β2x n2+⋯+βP x nP+εn记Y=(y1y2⋮y n)n×1,X=(1x11x12⋯x1p1x21x22⋯x2p⋮1⋮x n1⋮x n2⋱⋯⋮x np),β=(β0β1⋮βp)(p+1)×1,ε=(ε1ε2⋮εn)n×1则回归模型成为{Y=Xβ+εE(ε)=0,D(ε)=σ2I n。
3.模型建立与数据收集本文根据不同地区居民消费的影响因素进行分析,寻找居民消费水平与各个因素间的关系。
根据回归模型的具体实现步骤,进行如下模型建立与数据收集工作。
3.1 设置指标变量现实生活中,影响一个地区居民消费的因素有很多。
从人口、财政收入、财政支出、能源、产业结构,到各个项目的居民消费支出,都将会影响到此地区军民的消费。
根据现实生活的经验,我们分别选择各地区人均生产总值、职工平均工资、食品花费、衣着花费、居住花费、医疗花费、教育花费、失业人员人数以及人均电力耗费量等9个解释变量研究城镇居民家庭平均每人全年的消费性支出。
解释变量具体为:X1:各地区人均生产总值(单位:元)X2:各地区职工平均工资(单位:元)X3:各地区食品花费(单位:元)X4:各地区衣着花费(单位:元)X5:各地区居住花费(单位:元)X6:各地区医疗花费(单位:元)X7:各地区教育花费(单位:元)X8:各地区失业人员(单位:万人)X9:各地区人均电力耗费量(单位:万千瓦小时)3.2 数据的收集和整理数据选自2011年《中国统计年鉴》我国31个省、市、自治区2010年的数据,以居民的消费性支出(单位:元)为因变量,以如上9个解释变量做回归分析。
数据如表1所示。
表1 2010年不同地区居民消费支出表4.数据处理与分析4.1 确定理论回归模型的数学形式利用SPSS软件计算城镇居民消费支出数据的样本相关系数。
计算结果如表2所示。
表2 城镇居民消费支出数据样本相关系数从相关系数表中我们可以看出,Y与X1、X2、X3、X5、X7的相关系数均在0.8以上,说明其与因变量Y高度线性相关,因此我们选用多元线性回归模型,讨论居民消费支出与X1、X2、X3、X5、X7这五个影响因素之间的关系。
另外,从相关系数表中我们可以看出,Y与X8、X9的相关系数偏小(相关系数小于0.4)。
对于X8,其为各地区失业人员人数,参考各地区失业人数以及失业人数比例,我们可以获知各地区失业人数比例大致相似,因此其对总体消费水平的影响较小也在情理之中。
对于X9,其为各地区人均电力耗费量,虽然消费水平与能源(电力)耗费量具有一定的关系,但由于各个地区能源耗费方式不同,能源耗费方式更多地与地域条件有关。
因此其对总体消费水平的影响较小,但也具有一定的影响(相关系数接近0.4)。
4.2 模型参数的估计在确定X1、X2、X3、X5、X7这五个影响因素后,我们利用逐步回归法,取显著性水平采用SPSS软件对原始数据作线性回归分析,得到回归系数表如表3所示。
表3 回归系数表模型非标准化系数标准系数t Sig.从输出结果看到,逐步回归的最优子集为模型3,回归方程为:Ŷ=−5351.353+0.409X1+1.127X3+3.112X5由回归方程亦可看出,对居民的消费支出有显著影响的是X1、X3和X5这3个解释变量。
即各地区人均生产总值、各地区食品花费以及各地区居住花费。
回归方程中3个自变量的系数都为正,即,这3种因素值越大,居民的消费支出就越多。
同时,从表中还可以看到逐步回归的选元过程。
本例逐步回归的选元过程为第一步引入X1,第二步引入X3,第三步引入X5,在回归过程中剔除了X2和X7两个变量。
因此,各地区职工平均工资以及各地区教育花费虽然对国民消费水平产生了一定的影响,但未起到决定性作用。
从经济层面上看,各地区人均生产总值与各地区国民消费水平必然有直接影响。
从实际生活中我们也可以看到,由于中国仍然为发展中国家,食品花费依然对国民消费水平具有决定性的影响。
然而,随着近1年住房价格的提升,各地区居住花费对国民消费水平的影响开始凸显,这是我们必须要注意到的特点。
4.3 模型的检验4.3.1 回归方程的显著性检验对回归方程的显著性检验就是要看自变量X1、X2、…X P从整体上对随机变量Y是否有明显的影响,显著性检验有两种方法:一是回归方程显著性的F检验,二是回归系数显著性的t检验。
这里仅对F检验进行论述,t检验原理相同。
F检验原假设H0假定自变量系数β1=β2=⋯=βP=0当所构造F检验统计量F>Fα(n−p−1)时拒绝原假设,认为回归方程显著;或P=P{F>Fα(n−p−1)}<α时,拒绝原假设,回归方程显著。
选定α=0.05,利用SPSS软件计算出的方差分析表如表4所示。
表4 方差分析表输出结果中,Sig即显著性P值,小于0.05,因此拒绝原假设,所得回归方程高度显著。
4.3.2 拟合度检验拟合度用于检验回归方程对样本观测值的拟合程度。
定义样本决定系数为R2=U L yy其值越接近1,表明回归拟合的效果越好。
表5展示了逐步回归过程中3个模型的相关系数R2值。
表5 模型汇总表模型R R 方调整 R 方标准估计的误差1 .962a.926 .924 1628.1802 .974b.949 .945 1380.0703 .978c.957 .952 1291.709由表5可知,模型3相关系数R=0.978,R2=0.957最大,表明模型3的拟合效果最好,Y与X1、X3和X5这3个解释变量之间具有很强的线性关系。
4.3.3 残差服从正态分布的检验如图4.1和图4.2分别是残差分布直方图和观测量累计概率P-P图。