第五章回归分析§1.回归分析的数学模型1.1.线性统计模型1.线性回归方程从一个简单的例子谈起。
个人的消费水平Y与他的收入水平X间的关系,大体上可以描述:收入水平高,一般消费水平也高。
但Y 和X绝不是简单的线性关系,这从常识便能判别;而且也不是一种确定的数学关系,两个收入水平完全一样的个人,他们的消费水平可能有很大的差异。
比较合理的看法是:个人的消费水平Y是一个随机变量,从平均的意义上看,应与收入水平成正比。
因此,我们可以给出以下模型:Y = b0 + b1X +ε (1)其中b0,b1是待定常数,ε是随机变量,且有E(ε)=0,这样就能保证E(Y) = b0 + b1X (2)即从平均意义上Y和X线性相关。
等式(2)称为变量Y对于变量X的线性回归方程。
一般情况下,一个随机变量Y与变量X1,X2,…,X p有关系Y = b0 + b1X1 + b2X2 + … + b p X p +ε (3)随机变量ε的期望E(ε)=0,即有:E(Y) = b0+ b1X1 + b2X2+ … + b p X p (4)从平均意义上,Y与X1,X2,…,X p呈线性关系。
(4)式称为变量Y对于变量X1,X2,…,X p的线性回归方程,p=1时,称方程是一元的;p≥2时,称方程是多元的;b0,b1,…,b p称为回归系数。
2.统计模型的假设设变量Y与X1,X2,…,X p之间有关系(3),对(X1,X2,…,X p,Y)做n 次观察,得到一个容量为n的样本:(x i1,x i2, …,x i p,y i)i=1,2,…,n,按(4)式给出的关系,这些样本观察值应有:y1= b0+ b1x11+ b2x12 + … + b p x1p+ε1y2= b0+ b1x21+ b2x22 + … + b p x2p+ε2 (5) …………………………………y n= b0+ b1x n1+ b2x n2 + … + b p x n p+εn其中的εi, i=1,2,…,n是随机误差,出于数学上推导的需要,假设:1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差;2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n p p x x x x x x X12211111113)Cov(εi εj )=0,i ≠j.由假设1),它等价于随机误差项互相不相关。
3.矩阵表示以上模型与假设,可以用矩阵表示。
用矩阵表示有利于数学推导以及结果的表示。
记向量Y,b,ε和矩阵X 分别为: Y=(y 1, y 2, … , y n )ˊ b=(b 0, b 1, … , b p )ˊ ε=(ε1,ε2,…,εn )ˊ模型(5)的矩阵表示便是Y = Xb + ε (6) 假设1)—3)便是E(ε) = 0 Var(ε) = σ2I 其中I 是n 级单位矩阵。
)ˆ,,ˆ,ˆ(ˆ10'=pb b b b .,,2,1,ˆˆˆˆˆ22110n i x b x b x b b y ipp i i i =++++=∑=-=n i i i yy Q 12)ˆ(Y X X X b''=-1)(ˆ1.2.回归系数的最小二乘估计对于回归方程(4),有两个明显的问题要解决:1)回归系数如何确定?这基本上是一个参数估计问题;2)当回归系数估计出结果后,回归方程能在多大程度上代表变量Y 与X 1,X 2,…,X p 的真实关系,也就是所谓回归方程的显著性检验问题。
先解决回归系数的估计问题。
设b=(b 0,b 1,…,b p )T的估计为 估计值最小二乘估计应使最小,据此,经数学推导可得这就是参数b 的最小二乘估计,其中的逆矩阵(X ˊX)-1称为信息矩阵,用C=(c ij ),i,j=0,1,2,…,n 表示。
它在以后的估计与检验中经常用到。
pp x b x b x b b y ˆˆˆˆˆ22110++++= n i x b x b x b b y ipp i i i ,,2,1,ˆˆˆˆˆ22110 =++++=()()()212121ˆˆ∑∑∑===-+-=-n i ini i in i iyyyyyy()21)(∑=-=n i iyyTSS Total ni x b x b x b b y i ip p i i i ,,2,1,22110 =+++++=ε1.3.回归方程的显著性检验 1.复相关系数 (1)平方和分解公式 设由样本得到的回归方程是由此得到的y i 的估计值便是数学上可以证明以下的“平方和分解公式”误差项ε是不可直接观察到的,它只能从yi -yi 的估计值中估计出来。
εi 称为残差。
我们记()21ˆ)(Re ∑=-=ni i iyyESS sidual ()21ˆ)(Re ∑=-=n i iyyRSS gression RSSESS RSS R+=2其中Total 为平方总和(TSS ),Residual 为残差平方和(ESS ),Regression 为回归平方和(RSS )。
(2)复相关系数平方和分解公式给出: TSS = ESS + RSS其中的TSS 完全由样本观察值决定,在取定一组样本后,它是一个常量。
ESS 是观察值与估计值的误差平方和,表示回归直线的拟合误差,ESS 越小(RSS 的值就越大),回归直线的拟合质量就越好;反之,ESS 越大(RSS 就越小),回归直线的拟合质量就越差。
所以,RSS 的大小或RSS/TSS 的大小,就成了衡量回归方程好坏的尺度。
记:称它的算术平方根R 为复相关系数(恰好是Pearson 相关系数的绝对值)。
这是一个从直观上判断回归方程拟合好坏的尺度,有0≤R ≤1,显然R 值越大,回归方程拟合越好。
)1/(/--=p n ESS p RSS F 1)1(.222----=p n R p R RAdj (3)R 2的校正值(Adjusted R Square)由于多元线性回归方程的复相关系数R 有随着自变量个数p 增加而增大的趋势,为了准确反映模型的拟合程度,引入校正的判决系数,即R 2的校正值。
这是一个更精确的R 2估计值,它的计算公式是2.假设检验回归方程拟合的好坏(也称显著与否)可以进行假设检验。
假设为:H 0:b 1=b 2=…=b p =0 (意为:回归方程不显著) H 1:H 0不对用F 检验,统计量为:其中,p 为自变量的个数。
若H 0为真,则F ~F (p, n-p-1),检验临界域由 P(F >f α)=α 确定。
1.4.回归系数的显著性检验 1.检验的意义pi c b Q iii i ,,2,1,ˆ2==∆回归系数的显著性检验的目的是检验自变量对因变量作用的显著程度,从而剔除回归方程中那些对因变量作用不显著的变量,简化回归方程。
2.偏回归平方和 (1)偏回归平方和的意义在平方和分解公式中,已经得到:回归平方和RSS 是回归方程拟合好坏的一个衡量尺度。
设RSS 是由包含全部自变量的回归方程所计算的回归平方和,而RSS (i )是剔除了自变量X i 后,所得的回归方程计算而得的回归平方和。
差:△Q i = RSS - RSS (i )表示在变量X i 被剔除后,回归平方和减少了多少。
显然,△Q i 越大,说明变量X i 越重要。
△Q i 称为变量X i 的偏回归平方和。
(2)计算公式3.假设检验回归系数的显著性检验,假设为: H 0:b j =0(即变量X j 不显著) H 1:b j ≠ 0 检验统计量为jj j j c b t σˆˆ=若H 0为真,便有t j ~t(n-p-1),检验的临界域由 P(│t │>t α)=α 确定。
1.5.回归方程的诊断1.共线性(Collinearity )诊断1)共线性的含义 p(≥2)元线性回归方程p p X b X b X b b Y ˆˆˆˆˆ22110++++=中,如果自变量X 1,X 2,…,X p 也构成一个显著的线性模型。
换言之:存在一个自变量,不妨设它是X 1,如果用X 1作因变量,对于剩下的自变量X 2,…,X p 构成一个显著的p-1元线性回归方程:pp Xc X c c X +++= 2201ˆ2)变量X j 的容限(Tolerance )设2jR 是以自变量X j 为因变量,与其他 p -1个自变量构成的p -1元线性回归方程的判决系数,称21)(jj R X Tol -=为变量X j 的容限。
它是判断回归方程共线性的重要指标。
显然有:1)(0≤≤j X Tol 。
并且:Tol (X j ) 的值越小,自变量X j 的共线性越显著。
2.残差分析 1)残差残差(Residual )指实际观察值与预测值之差:n i Y Y e ii i ,...,2,1,ˆ=-=残差向量:Y X X X X I Y Y e n ])([ˆ1''-=-=- (1)残差的均值为零,即有:0)(=e E。
(2)残差的协方差矩阵 ])([)(12X X X X I e D n''-=-σ 2)Durbin-Watson 统计量∑∑==--=n t tn t t t e e e d 12221)(当n 充分大时,)ˆ1(2ρ-≈d ,其中的ρˆ是残差序列的一阶自相关系数的估计。
可见此时的d 值大约在区间[0, 4]之内,而当d =2时,可判定残差序列独立。
§2.命令Regression 初步 2.1.线性回归分析命令使用1.命令调用 Statistics → Regression → Linear 2.Linear Regression 对话框的使用Dependent 是因变量框,Independent 是自变量框。
在使用的时候,只需要将因变量、自变量输入各自的框中。
Method 是方法选择框,包括有Enter(直接进入)、Stepwise(逐步回归)、Remove(移出)、Backward(向后剔除)和Forward(向前剔除)五种建立回归方程的方法。
系统默认的是Enter法。
点击系统将按照直接进入法进行回归分析。
下面详细说明对话框中各部分的功能和使用方法。
【Independent框】:用于选入回归分析的自变量。
【Method下拉列表】:用于选择对自变量的选入方法,有Enter (强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward (向后法)、Forward(向前法)五种。
该选项对当前Independent 框中的所有变量均有效。
【Selection Variable框】:选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。