第六章多元回归解析
注意:一个有趣的现象
Y Y Y Yˆ Yˆ Y Y Y Y Yˆ Yˆ Y ˆ ˆ Y Y Y Y Y Y
i i i i i 2 2 2 i i i 2 2 i i i i
中国居民人均消费支出与人均 GDP(元/人) 表 2.5.1 中国居民人均消费支出与人均 GDP(元 /人)
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 人均居民消费 CONSP 395.8 437.0 464.1 501.9 533.5 572.8 635.6 716.0 746.5 788.3 836.4 779.7 人均GDP GDPP 675.1 716.9 763.7 792.4 851.1 931.4 1059.2 1185.2 1269.6 1393.6 1527.0 1565.9 年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 人均居民消费 CONSP 797.1 861.4 966.6 1048.6 1108.7 1213.1 1322.8 1380.9 1460.6 1564.4 1690.8 人均GDP GDPP 1602.3 1727.2 1949.8 2187.9 2436.1 2663.7 2889.1 3111.9 3323.1 3529.3 3789.7
y 12 x2 3 x3 k q xk q u
( RSSr RSSur ) / q F ~ Fq ,nk RSSur /(n k )
对立假设H1:不正确(即中至少有一个异于0)。定义 检验的F统计量
式中RSSr为受约束模型的残差平方和,RSSur为不受约 束模型的残差平方和。 分子中使用的自由度df =被检验的约束个数=dfr-dfur 即受约束模型与不受约束模型的自由度之差。 分母中使用的自由度df =不受约束模型的自由度=n-k 检验不同组之间回归函数(例如k个参数)上差别的邹至庄
log(salary) 0 1 years 2 gamesyr 3babg 4 hrunsyr 5rbisyr u
式中,salary为1993年的总薪水;years为进入俱乐部的年资; gamesyr为平均每年的比赛次数;bavg为平均职业击球次数; hrunsyr为平均每年的本垒打次数;rbisyr为每年的击球跑垒 得分。 假设检验的虚拟假设是,一旦控制了俱乐部的年资和 每年的比赛次数,度量球员表现的统计指标(bavg、hrunsyr、 rbisyr)对薪水没有影响。则 虚拟假设为:
F统计量为
F 198 .311 183 .186 347 9.55 183 .186 3
显著性水平为5%的临界值为2.60,显著性水平为1%的 临界值为3.78,所以在1%的显著性水平拒绝bavg、 hrunsyr、rbisyr对薪水没有影响的假设。
t统计量
由于
ˆ ) 2 ( XX) 1 Cov (β
从t检验而言, bavg、hrunsyr、rbisyr中没有一个变量在 5%的显著性水平上具有一个统计显著的t统计量,但这 并不能表明可以拒绝H0,必须估计受约束模型。
受约束模型估计结果为
log(salary) 11.22 0.0713years 0.0202gam esyr (0.11) (0.0125 ) (0.0013 ) n 353, SSR 198.311 , R 2 0.5971
因此,可构造如下t统计量 ˆ i t i ~t (n k ) ee cii nk
t检验 设计原假设与备择假设: H0:i=0 H1:i0 给定显著性水平,可得到临界值t/2(n-k),由 样本求出统计量t的数值,通过 |t| t/2(n-k) 或 |t|t/2(n-k)
在中国居民人均收入-消费支出二元模型例中, 由应用软件计算出参数的t值: t 0 3.306 t1 3.630 t 2 2.651 给定显著性水平=0.05,查得相应临界值: t0.025(19) =2.093。
以cii表示矩阵(X’X)-1 主对角线上的第i个元素, 于是参数估计量的方差为: ˆ ) 2c Var (
i ii
其中2为随机误差项的方差,在实际计算时, 用它的估计量代替:
2 e ee 2 i ˆ nk nk
ˆ ~ N ( , 2 c ) i i ii
称为偏回归系数(偏效应),它表示在其它自变量保
持不变的条件下,该自变量变化一个单位将引起因变
量平均变化多少个单位。
例
假定有如下总体回归函数: E(Y)=15-1.2X2+0.8X3 令X3取值为10,将其代入式,得 E(Y)=15-1.2X2+0.8(10)=(15+8)-1.2X2=23-1.2X2 斜率B2=-1.2表示当X3为常数时,X2每增加一个单位,Y的 平均值将减少1.2个单位
(i=2,3…k)
来拒绝或接受原假设H0,从而判定对应的解释变 量是否应包括在模型中。
注意:一元线性回归中,t检验与F检验一致
一方面,t检验与F检验都是对相同的原假设H0: 2=0 进行检验;
另一方面,两个统计量之间有如下关系:
F
e
2 ˆ y i 2 i
n2 ˆ 2
对多个线性约束的F检验
不受约束模型(unrestricted model)
y 12 x2 3 x3 k xk u
H0 : k q1 k 0
假设有q个排除性约束,不防设为自变量中的最后q个, 虚拟假设为: 受约束模型(restricted model)
( X X ) 1 X ( Xβ μ) β ( X X ) 1 X μ
பைடு நூலகம்
和
) 2I E (μμ
6.4 多元线性回归模型的统计检验
总离差平方和的分解 记
TSS (Yi Y ) 总离差平方和 2 ˆ ESS (Yi Y ) 回归(解释)平方和
统计量如下
[ RSS ( RSS1 RSS2 )] / k F ~ Fk ,n1 n2 2 k ( RSS1 RSS2 ) /(n1 n2 2k )
例6-1:在一个F3,60分布中5%的临界值和拒绝域
面积=0.95
面积=0.05
0 2.76 拒绝区域
例6-2:考虑如下解释主要俱乐部棒球运动员薪水的模型:
2
可决系数
ESS RSS R 1 TSS TSS
2
该统计量越接近于1,模型的拟合优度越高。
调整的可决系数(adjusted coefficient of determination) 在样本容量一定的情况下,增加解释变量必定使 得自由度减少,所以调整的思路是:将残差平方和 与总离差平方和分别除以各自的自由度,以剔除 变量个数对拟合优度的影响: RSS /(n k) 2 R 1 TSS /(n 1) 其中:n-k为残差平方和的自由度,n-1为总体平 方和的自由度。
2
2 ˆ RSS (Yi Yi ) 残差平方和
则
TSS (Yi Y ) 2 ˆ ) (Y ˆ Y )) 2 ((Yi Y i i ˆ ) 2 2 (Y Y ˆ )(Y ˆ Y ) (Y ˆ Y )2 (Yi Y i i i i i
第六章 多元回归分析
§6.1 模型的假定
§6.2 参数的最小二乘估计 §6.3 最小二乘估计量的性质 §6.4 多元线性回归模型的统计检验 §6.5 应用举例
6.1 多元线性回归模型及其假定
回归系数
在前面的多元线性回归模型中,
1 , 2 , 3 ,..., k
称为回归系数。
2 , 3 ,..., k
6.2 参数的最小二乘估计
拟合值和残差的重要性质
(1)残差的样本均值为0; (2)每个自变量和OLS残差之间的样本协方差为0;拟合
值与残差之间的样本协方差也为0;
(3)点( X 2 , X 3 ,
, X k , Y ) 总位于OLS回归线上;
ˆ ˆ X ˆX Y 1 2 2 3 3
Eviews软件估计结果
LS // Dependent Variable is CONS Sample(adjusted): 1979 2000 Included observations: 22 after adjusting endpoints Variable C GDPP CONSP(-1) Coefficient 120.7000 0.221327 0.451507 0.995403 0.994920 26.56078 13404.02 -101.7516 1.278500 Std. Error 36.51036 0.060969 0.170308 t-Statistic 3.305912 3.630145 2.651125 Prob. 0.0037 0.0018 0.0158 928.4946 372.6424 6.684995 6.833774 2057.271 0.000000
H0 : 3 0, 4 0, 5 0
采用Wooldridge中MLB1.RAW数据未受约束的模型估 计结果为
log(salary) 11.1 0.0689years 0.0126gam esyr (0.29) (0.0121 ) (0.0026) 0.00098 babg 0.0144hrunsyr 0.0108rbisyr (0.0011 ) (0.0161 ) (0.0072) n 353, SSR 183.186, R 2 0.6278
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat