01一元线性回归分析l m一元线性回归分析1一元回归分析在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。
这种关系可以用Y 的函数的形式表示出来,即Y 是所谓的因变量,它仅仅依赖于自变量X ,它们之间的关系可以用方程式表示。
在最简单的情况下,Y 与X 之间的关系是线性关系。
用线性函数a+bX 来估计Y 的数学期望的问题称为一元线性回归问题。
即,上述估计问题相当于对x 的每一个值,假设bx a y E +=)(,而且,),(~2σbx a N y +,其中a, b, σ2都是未知参数,并且不依赖于x 。
对y 作这样的正态假设,相当于设:ε++=bx a y(3)其中),0(~2σεN ,为随机误差,a, b, σ2都是未知参数。
这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y 与X 的散点图来初步确认。
对于公式(3)中的系数a 、b ,需要由观察值),(i i y x 来进行估计。
如果由样本得到了a ,b 的估计值为b aˆ,ˆ,则对于给定的x ,a+bx 的估计为x b aˆˆ+,记作y ˆ,它也就是我们对y 的估计。
方程 x b a yˆˆˆ+= (4)称为y 对x 的线性回归方程,或回归方程,其图形称为回归直线。
例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x 下,溶解于水中的数量y 如下表所示:这里x 是自变量,y 是随机变量,我们要求y 对x 的回归。
其散点图如下:2.确定回归系数(应用最小二乘法)在样本的容量为n 的情况下,我们我们可以得到n 对观察值为),(i i y x 。
现在我们要利用这n 对观察值来估计参数a ,b 。
显然,y的估计值为:bx a y+=ˆ 在上式中a ,b 为待估计的参数。
估计这两个参数的方法有极大似然法和最小二乘法。
其中最小二乘法是求经验公式时最常用的一种方法,也最简单。
现在就采用这种方法。
当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。
因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。
我们用i y 表示y 的样本观察值,i yˆ表示根据回归方程所得到的y 的估计值,则估计值与实际观察值之间的误差为,ii i i i x b a y y y e ˆˆˆ--=-= (5)其总的误差,可以表示为误差的平方和的形式,222)ˆˆ()ˆ()ˆ,ˆ(∑∑∑--=-==ii i i i x b a y y y e b a Q (6)现在要使上式取得极小值,只需令Q 对a ,b 的一阶偏导等于0,因此:0)ˆˆ(2ˆ)ˆˆ(ˆ0)ˆˆ(2ˆ)ˆˆ(ˆ222=---=∂--∂=∂∂=---=∂--∂=∂∂∑∑∑∑∑∑∑x b x a xy bx b a y b Q x b a n y ax b a y aQ i i ii由此可解得如下结果:()∑∑∑∑∑∑∑∑∑---=--=-=-=222)())((ˆˆ1ˆ1ˆx x y y x x n x x n yx xy b x b y x nb y n a其中b aˆ,ˆ就是参数a ,b 的无偏估计。
此外,所谓最小二乘估计,实际上就是使误差的平方和最小的估计。
估计出了回归方程的系数,我们就可以在给定的x 值的情况下对y 进行估计,或预测。
例2:求例1中的y 关于x 的回归方程。
解:此处,n=9,有关回归方程计算所需要的数据如下:1444.9093.811,269234,9=====y x n 4060)(291=-∑=i ix x9822.3083)(291=-∑=i iy y8.3534))((91=--∑=i iiy yx x5078.67ˆˆ8706.040608.3534)())((ˆ91291=-===---=∑∑==x b y ax xy y x xbi ii i i用Minitab 求得的结果如下:因此所求的回归直线方程为:x y8706.05078.67ˆ+= 3.参数估计量的分布为了对前面所作的y 与x 是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。
1).bˆ的分布:由于∑∑==---=ni ini i ix xy y x xb121)())((ˆ按假定,n y y y ,,21相互独立,而且已知),(~2σbx a N y +,其中ix 为常数,所以由b ˆ的表达式知b ˆ为独立正态变量n y y y ,,21的线性组合,于是b ˆ也是正态随机变量。
可以证明))(/,(~ˆ122∑=-ni ix x b N b σ 另外,对于任意给定的0x x =,其对应的回归值00ˆˆˆx b a y +=,由于x b y aˆˆ-=,所以可以写成, )(ˆˆˆˆ000x x b y x b a y -+=+= 也就是说,在0x x =处y 所对应的估计值也是一个正态分布的随机变量,可以证明,))()(1,(~ˆ2122000σ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--++∑=n i i x x x x n bx a N y2).方差σ2的估计:为了估计方差,考查各个i x 处的i y 与其相对应的回归值)(ˆˆx x b y y ii -+=与其离差i i y y ˆ-的平方和SSD : ∑=-=ni i i yy SSD 12)ˆ( 可以证明,其期望值为,2)2()(σ-=n SSD E因此,)2/()(-n SSD E 是2σ的无偏估计,即,∑=--=-=ni i y y n n SSD 122)ˆ()2(1)2(ˆσ 而且,其自由度为n-2,其分布为,)2(~ˆ)2(2222-=-n SSDn χσσσ4.线性假设的显著性检验现在来检验ε++=bx a y ,),0(~2σεN 这一线性假设是否合适,这也就是检验假设,0:0=b H0:1≠b H由于设)1,0(~N X ,)(~2n Y χ,并且X 与Y 相互独立,则随机变量nY X t /=服从自由度为n 的t (student )分布,记为)(~n t t 。
因此从上面的结果可以得知统计量,)2(~ˆ/)(ˆ22122---∑=n t x xb bni iσσσ(5)即,因为在假设00=b H 下,所以,在此假设下,)2(~)(ˆˆ12--∑=n t x xb ni iσ由此可得,如果,)2()(ˆ212->-∑=n t x xb ni iασ,或写成,)2(ˆ2->=n t s b t bα其中∑=-=ni ib x xs 12)(ˆσ则在显著水平α下拒绝假设0:0=b H ,认为回归效果是显著的,也就是说y 与x 之间存在着线性关系ε++=bx a y ;若上述不等式反号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:a) 影响y 的除x 外,还有其它不可忽略的因素; b) y 与x 的关系不是线性的,而是存在着其他的关系; c) y 与x 无关。
因此,在这样的情况下,要查明原因,分别处理。
例3:检验例2的回归效果是否显著。
取α=0.05。
解:因为n=9所以∑∑∑===---=-ni ini i i ni i x xy y n bx x b 121212)()ˆ(2ˆ)(ˆˆσ利用前面计算的结果,代入上式,有58.56)4060()8706.0(9822.3083)4006)(29(8706.0)(ˆ212=--=-∑=ni i x x b σ注意,∑∑∑===---=-ni ini i ni i i x x b y y y y 1221212)(ˆ)()ˆ( 在此,58.563646.2)7()2(025.02<==-t n t α,所以拒绝H 0,即认为线性回归的效果是显著的。
在线性回归的效果显著时,由(5)式可得到b 的100(1-α)%的置信区间为:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛--±∑=n i i x x n t b 122)(1ˆ)2(ˆσα 另一种进行检验假设,0:0=b H 0:1≠b H 的方法是利用F 分布。
其公式为:∑∑----=)/()()1/()ˆ(22k n y yk y y F ii其中,k 表示回归方程中的系数的个数,在一元线性回归中显然只有两个系数,所以k=2,n 表示样本数。
统计量F 的公式可以表示成:)/()1()1/(22k n r k r F ---= 拒绝域为:)2,1(->n F F α 5.置信区间在利用回归分析进行预测的过程中,我们不仅需要知道预测变量的值,往往还需要了解它的变化范围,即点估计和区间估计的问题。
对于任意给定的0x x =,其对应的y 的观察值的取值范围可以采用以下方法确定:设0x x =,其对应的y 值为y 0,则000ε++=bx a y ,),0(~20σεN上式中,除x 0外,其他参数都是未知的,我们只能使用它们的估计量,考虑随机变量,00ˆyy u -= 显然,0)ˆ()()(00=-=yE y E u E 而且0ˆy是各y i 的线性组合,且0ˆy 与各y i 是相互独立的,都是正态变量,所以它们的差00ˆyy u -=是两个相互独立的正态随机变量的差,因此,)ˆ()()ˆ()(0000y D y D yy D u D +=-= 由于21220020)()(1)ˆ()(σσ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--+==∑=n i i x x x x n yD y D从而得到,212202)()(11)(σσ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--++==∑=ni i u x x x x n u D 也就是,)1,0(~N uuσ由前面)2(~ˆ)2(222--n n χσσ并且可以证明uuσ与22ˆ)2(σσ-n 相互独立,于是)2(~/ˆ/22-n t u u σσσ即,)2(~)()(11ˆˆ122000-⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--++-∑=n t x x x x n yy n i i σ所以y 0的100(1-α)%的置信区间为:⎪⎪⎪⎪⎪⎭⎫⎝⎛--++-±∑=ni i x x x x n n t y 122020)()(11ˆ)2(ˆσα 从上式可以看出,对于给定的样本观察值及置信度而言,当x 0越是靠近其均值x ,预测区间的宽度就越是窄小,预测也就越精确。
若将上式记为))(ˆ(00x yδ±,对于给的样本观察值,作出曲线, )(ˆ)()(ˆ)(0201x yx y x yx y δδ±=±=则这两条曲线形成一含回归直线x b a yˆˆˆ+=的区域,它在x x =处最窄。