线性回归分析管理中经常要研究变量与变量之间的关系,并据以做出决策。
前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。
本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。
回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。
社会经济现象中的许多变量之间存在着因果关系。
这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某种规律唯一地确定,例如,在价格P确定的条件下,销售收入Y与所销售的产品数量之间的关系就是一种确定性的关系:Y=P·X。
另一类是变量之间存在着某种程度的不确定关系。
例如,粮食产量与施肥量之间的关系就属于这种关系。
一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。
统计上我们把这种不确定关系称为相关关系。
确定性关系和相关关系之间往往没有严格的界限。
由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。
两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性。
对这类统计规律性的研究就称为回归分析。
回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。
第一节一元线性回归分析一、问题的由来和一元线性回归模型例7-1。
某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1所示。
现要求确定两者之间是否存在相关关系。
表7-1如果作一直角坐标系,以人均收入x i为横轴,销售额y i为纵轴,把表7-1中的数据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。
即:y i =a+b x i+e i()i n=12,,,其中:yi是因变量Y的第i个观察值,xi是自变量X的第i个观察值a与b是回归系数,n是样本容量,ei为对应于Y的第i个观察值的随机误差,这是一个随机变量。
在上述线性模型中,自变量X是个非随机变量,对于X的第i个观察值xi ,Y的观察值yi是由两个部分所组成的:b x i和e i,前者是一个常数,后者是一个随机变量,所以也是一个随机变量。
对于上述回归模型中的随机误差e i要求满足如下的假设条件:1、应当是服从正态分布的随机变量,即ei满足“正态性”的假设。
2、ei 的均值为零,即E(ei)=0,我们称e i满足“无偏性”的假设。
3、ei 的方差等于()σ2ei=e i2,这就是说,所有的e i分布的方差都相同,即满足“共方差性”的假设。
4、各个ei 间相互独立,即对于任何两个随机误差ei和e j()i j≠其协方差等于零,即,Cov(ei,e j)=0,()i j≠)这称之为满足“独立性”的假设。
综上所述,随机误差必须服从独立的相同分布。
基于上述假定,随机变量的数学期望和方差分别是:E(y i)=a+b x i()σ2ei=e i2由此:yi~N(a+b x i,e i2)这就意味着,当X=x i时,y i是一个服从正态分布的随机变量的某一个取值。
如果不考虑式中的误差项,我们就得到简单的式子:yi=a+b x i这一式子称为Y对X的回归方程。
依据这一方程在直角坐标系中所作的直线就称为回归直线。
二、模型参数的估计和估计平均误差1、回归参数的估计回归模型中的参数a 与b 在一般情况下都是未知数,必须根据样本数据(x i ,y i )来估计。
确定参数a 与b 值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。
为此,可以采用“最小二乘法”的办法来解决。
对应于每一个x i ,根据回归直线方程(7-1)可以求出一个 yi ,它就是y i 的一个估计值。
估计值和观察值之间的偏差()e y yi i i =- 。
有n 个观察值就有相应的n 个偏差。
要使模型的拟合状态最好,就是说要使n 个偏差的总和最小。
但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。
这就要求()()Q y yy a bx i i n i i i n=-=--==∑∑ 1212是个极小值。
根据微积分中的极值定理,要使上式取极值,其对a 与b 所求的偏导数应为0,即()()∂∂∂∂Qa y a bx Qby a bx x i i i i i =---==---=∑∑2020经整理后可得:y na b x x y a x b xiii iii∑∑∑∑∑=+=+2解上式,可得:()()()b x y nx y x n x a ynbxni i ii iiii=--=-∑∑∑∑∑∑∑1122记 ()()X x n Y y n ii==∑∑,。
()()()()()()()()S x xx nx S x x y y x y nx y S y yy ny XX i i iXY i i i i iiYY i i i=-=-=--=-=-=-∑∑∑∑∑∑∑∑∑∑222222111于是,得到参数a 与b 的简单表达形式如下:b S S a y bxXY XX ==-求出参数a 与b 以后,就可以得到回归模型ya bx =+ 由此,只要给定了一个x i 值,就可以根据回归模型求得一个 y i 来作为实际值y i 的预测值。
2、估计平均误差的计算对于给定的x i ,根据回归模型就可以求出y i 的预测值。
但是用 yi 来预测y 的精度如何,产生的误差有多大是统计上所关心的。
统计上用估计平均误差这个指标来度量回归方程的可靠性,对回归方程进行评价。
估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。
但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。
一个回归模型的估计平均误差或剩余标准离差由下式定义: ()S n y y e i i i n =--=∑1221值得注意的是上式中分母是用()n -2而不是()n -1或n 去除,这是因为n 个观察值的数据点用于计算参数a 与b 时失去了2个自由度,还余下()n -2个自由度。
运用估计平均误差可以对回归方程的预测结果进行区间估计。
若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在±S e 的范围内,有95.45%的点落在±2S e 的范围内,有99.73% 的点落在±3S e 的范围内。
三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。
对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。
下面我们分别讨论这两个问题。
(一)线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y 与X 之间的线性相关关系的估计模型 ya bx =+来估计y 时所产生的误差和所减少的误差,这称为回归中的方差分析。
若没有利用Y 与X 之间的相关关系来估计总体的均值,我们就会选择y i 的平均值y 作为总体的估计值。
由此而产生的误差是()y y i i -∑ 2,我们称之为“总离差平方和”,记为SST 。
若利用Y 与X 之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是:()y yi i -∑ 2,我们称之为残差平方和,记为SSE 。
为了说明SST 与SSE 之间的关系,我们对SST 进行分解。
()()()[]()()()()()()()()SST y yyy y y yy y y y y y y y y y y yy y yi i i i i iii i i iiiiii=-=-+-=-+-+--=-+-+=-+-∑∑∑∑∑∑∑∑∑2222222220若记 SSR=()y yi i -∑ 2SSE=()y y i i -∑ 2则 SST = SSR + SSE图7-1:三种误差之间的关系SSR 反映了由于利用Y 和X 之间的线性回归模型 yi 来估计Y 的均值时,而不是简单地利用y 来估计Y 的均值时,使得总误差SST 减少的部分,因此统计上称之为“可解释误差”。
SSE 是利用Y 与X 之间的线性回归模型来估计Y 的均值时仍然存在的误差,因此称之为“不可解释误差”。
于是,上式实际上就表示:总误差=可解释误差+不可解释误差图7-1直观地表示了三种误差之间的相互关系。
2、相关分析对于任何给定的一组样本(xi yi)( i =1,2,…n )都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。
但是,这样的一条回归直线并不是总有意义的。
只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。
统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。
相关系数记作r或r2,它能够较精确地描述两个变量之间线性相关的密切程度。
相关系数可以定义为可解释误差SSR 和总误差SST之比,即:r2= SSR/SST=1 - SSE/SST它反映了由于使用了Y与X之间线性回归模型来估计yi的均值而使离差平方和SST 减少的程度,从而表明Y与X之间线性相关程度及拟合模型的优良程度。
r2与SSR 成正比。
r2越大,说明Y与X之间的线性相关程度越高,也就说明模型的拟合性能较优;r2越小,说明Y与X之间的线性相关程度越低,说明模型的拟合性能较差。
当相关系数用r来表示时不仅可以测定Y与X之间的相关程度,而且也可以表示相关的方向。
事实上,相关系数r也可以定义为:r S S SXY XX YY=⋅从上述两个公式计算所得到的结果完全相同,意义也相同。
但从r2计算r时为:r r=±2要确定r的符号,就需要利用以下的关系:rSS SbSSXYXX YYXXYY =⋅=由此可见,r与b同号,可以根据b的符号来决定r的符号。
从r2的计算公式可以看出:r2总是界于0与1之间的,即0≤r2≤1。
如果 y yi i=,则SST=SSR,SSE=0,此时,r2=1。
这时称为完全线性相关,模型的拟合程度最优。
用Y与X之间的线性回归模型来估计yi时的总离差和完全可以用SSR来解释。
如果y yi=,则SST=SSE,SSR=0,因此,r2=0。
这时,使用Y与X之间的线性回归模型没有能对任何的总离差平方和SST作出任何解释,说明Y与X之间事实上无线性相关,模型的拟合程度最差。