§2.5 一元线性回归模型的置信区间与预测多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。
所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
一、参数估计量的置信区间在前面的课程中,我们已经知道,线性回归模型的参数估计量^β是随机变量i y 的函数,即:i i y k ∑=1ˆβ,所以它也是随机变量。
在多次重复抽样中,每次的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。
现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
即回答1β以何种置信水平位于()a a +-11ˆ,ˆββ之中,以及如何求得a 。
在变量的显著性检验中已经知道)1(~^^---=k n t s t iii βββ (2.5.1)这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2αt ,那么t 值处在()22,ααt t -的概率是α-1。
表示为ααα-=<<-1)(22t t t P即αββαβα-=<-<-1)(2^2^t s t P iiiαββββαβα-=⨯+<<⨯-1)(^^2^2^iis t s t P i i i于是得到:在(α-1)的置信水平下i β的置信区间是)(^^2^2^iis t s t i i βαβαββ⨯+⨯-,i=0,1 (2.5.3)在某例子中,如果给定01.0=α,查表得012.3)13()1(005.02==--t k n t α从回归计算中得到01.0,15,21.0ˆ,3.102ˆ1ˆˆ10====ββββS S 根据(2.5.2)计算得到10,ββ的置信区间分别为()48.147,12.57和(0.1799,0.2401) 显然,参数1β的置信区间要小。
在实际应用中,我们当然希望置信水平越高越好,置信区间越小越好。
如何才能缩小置信区间?从(2.5.3)式中不难看出:(1)增大样本容量n 。
在同样的置信水平下,n 越大,从t 分布表中查得自由度为(n-k-1)的临界值2αt 越小;同时,增大样本容量,在一般情况下可使估计值的标准差βˆS 减小,因为式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合度,以减小残差平方和∑2i e 。
设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间也为0。
(3)提高样本观测值的分散度。
在一般情况下,样本观测值越分散,标准差越小。
置信水平与置信区间是矛盾的。
置信水平越高,在其他情况不变时,临界值2αt 越大,置信区间越大。
如果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。
二、预测值的置信区间1、点预测计量经济学模型的一个重要应用是经济预测。
对于模型i i i u x y ++=10ββ,n i ,,2,1 =如果给定样本以外的解释变量的观测值f x ,有f f f u x y ++=10ββ因f x 是前述样本点以外的解释变量值,所以f u 和()n i u i ,,2,1 =是不相关的。
引用已有的OLS 的估计值,可以得到被解释变量f y 的点预测值:ff x y 10ˆˆˆββ+= (2.5.4)但是,严格地说,这只是被解释变量的预测值的估计值,而不是预测值。
原因在于两方面:一是模型中的参数估计量是不确定的,正如上面所说的;二是随机项的影响。
所以,我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水平处于以该估计值为中心的一个区间中。
于是,又是一个区间估计问题。
2、区间预测如果已经知道实际的预测值f y ,那么预测误差为f f f yy e ˆ-= 显然,f e 是一随机变量,可以证明()()()()()0ˆˆˆ10101010=+-+=+-++=-=f f f f f f f f x x x E u x E y y E e E ββββββββ 而()()()()()()()()f f f u f f f f f f f f f f f f f y y Cov yD y y Cov yy Cov y y Cov y y yy Cov e e Cov e D ˆ,2ˆˆ,ˆˆ,2,ˆ,ˆ,2-+=+-=--==σ因为f yˆ由原样本的OLS 估计值求得,而f y 与原样本不相关,故有: ()0ˆ,=f f y y Cov ,()()f u f yD e D ˆ2+=σ 可以计算出来:()()2121ˆu ni if f x xxx n yD σ⎪⎪⎪⎪⎭⎫ ⎝⎛--+=∑= (2.5.5)()()21211u ni if f x xxx n e D σ⎪⎪⎪⎪⎭⎫⎝⎛--++=∑= (2.5.6) 因f yˆ和f e 均服从正态分布,可利用它们的性质构造统计量,求区间预测值。
利用f yˆ构造统计量为: ()()()1,0~1ˆ212ˆN x x x x n y E y N uni i f f f y f σ⎪⎪⎪⎪⎭⎫ ⎝⎛--+-=∑=将2u σ用估计值2ˆu σ代入上式,有 ()()()2~ˆ1ˆ212ˆ-⎪⎪⎪⎪⎭⎫ ⎝⎛--+-=∑=n t x x x x n y E y t u ni i f f f y f σ这样,可得显著性水平α下()fy E的置信区间为()()⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛--+*+⎪⎪⎪⎪⎭⎫ ⎝⎛--+*-∑∑==21222122ˆ1ˆ ,ˆ1ˆu n i i f f un i i f f x x x x n t y x x x x n t y σσαα (2.5.7) (2.5.7)式称为f y 的均值区间预测。
同理,利用f e 构造统计量,有()()()1,0~11ˆ11212212N x x x x n yy x x x x n e N u n i i f f f u n i i f fe f σσ⎪⎪⎪⎪⎭⎫⎝⎛--++-=⎪⎪⎪⎪⎭⎫ ⎝⎛--++=∑∑==将2u σ用估计值2ˆu σ代入上式,有:()()()2~ˆ11ˆˆ11212212-⎪⎪⎪⎪⎭⎫⎝⎛--++-=⎪⎪⎪⎪⎭⎫⎝⎛--++=∑∑==n t x xxx n yy x x x x n e t u ni if f f u ni i f fe f σσ根据置信区间的原理,得显著性水平α下fy 的置信区间:()()⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎭⎫⎝⎛--++*+⎪⎪⎪⎪⎭⎫⎝⎛--++*-∑∑==21222122ˆ11ˆ ,ˆ11ˆu ni i f f u ni i f f x x x x n t y x x x x n t y σσαα(2.5.8)上式称为f y 的个值区间预测,显然,在同样的α下,个值区间要大于均值区间。
(2.5.7)和(2.5.8)也可表述为:f y 的均值或个值落在置信区间内的概率为α-1,α-1即为预测区间的置信度。
或者说,当给定解释变量值f x 后,只能得到被解释变量f y 或其均值()f y E 以)1(α-的置信水平处于某区间的结论。
经常听到这样的说法,“如果给定解释变量值,根据模型就可以得到被解释变量的预测值为……值”。
这种说法是不科学的,也是计量经济学模型无法达到的。
如果一定要给出一个具体的预测值,那么它的置信水平则为0;如果一定要回答解释变量以100%的置信水平处在什么区间中,那么这个区间是∞。
在实际应用中,我们当然也希望置信水平越高越好,置信区间越小越好,以增加预测的实用意义。
如何才能缩小置信区间?从(2.5.5)和(2.5.6)式中不难看出:(1)增大样本容量n 。
在同样的置信水平下,n 越大,从t 分布表中查得自由度为(n-k-1)的临界值2αt 越小;同时,增大样本容量,在一般情况下可使2ˆ22-=∑n e iu σ减小,因为式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合优度,以减小残差平方和∑2i e 。
设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间长度也为0,预测区间就是一点。
(3)提高样本观测值的分散度。
在一般情况下,样本观测值越分散,作为分母的()2∑-x x i 的值越大,致使区间缩小。
置信水平与置信区间是矛盾的。
置信水平越高,在其他情况不变时,临界值2αt 越大,置信区间越大。
如果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。
四、一元线性回归模型参数估计实例为了帮助读者理解一元线性回归模型参数估计的原理,下面以我国国家财政文教科学卫生事业费支出模型为例,不采用计量经济学应用软件,用手工计算,进行模型的参数估计。
经分析得到,我国国家财政中用于文教科学卫生事业费的支出,主要由国家财政收入决定,二者之间具有线性关系。
于是可以建立如下的模型:t t t FI ED μβα++=其中,t ED 为第t 年国家文教科学卫生事业费支出额(亿元),t FI 为第t 年国家财政收入额(亿元),t μ,为随机误差项,βα和为待估计的参数。
选取1991—1997年的数据为样本,利用(2.2.6)和(2.2.7)的计算公式,分别计算参数估计值。
表2.2.1 有关数据表8812=∑ttED38500=∑ttFI1259=ED 5500=FI2368696442=∑ttFI54078207·=∑ttEDFI 5612207.=∑ttFI251196442.=∑tFI由电脑计算的参数估计值为24.0ˆ,65.39ˆ=-=βα全部统计结果如下表。
从表中可看出,判定系数=2R 0.99,表示以国家财政收入额来解释国家文教科学卫生事业费支出额,在1991至1997年间,拟合度相当理想。
截距项α的估计值对应的t-统计量为0.47,不能通过显著性检验,即不能推翻α为0的假设;而一次系数β的估计值对应的t-统计量为20.34,不用查表即可知通过显著性检验,即β显著不为0,因果关系成立。
F-统计量的值为413.58,也表示方程系数显著不为0。
表一:Eviews计算结果Dependent Variable: EDMethod: Least SquaresDate: 09/21/02 Time: 16:22Sample: 1991 1997C 30.05237 63.90691 0.470252 0.6580R-squared 0.988055 Mean dependent var 1258.857 Adjusted R-squared 0.985666 S.D. dependent var 459.8972 S.E. of regression 55.06160 Akaike info criterion 11.08974 Sum squared resid 15158.90 Schwarz criterion 11.07428 Log likelihood -36.81408 F-statistic 413.5768表二:不含截距项的Eviews计算结果:Dependent Variable: EDMethod: Least SquaresDate: 09/21/02 Time: 16:19Sample: 1991 1997FI 0.228304 0.003337 68.40877 0.0000R-squared 0.987526 Mean dependent var 1258.857 Adjusted R-squared 0.987526 S.D. dependent var 459.8972 S.E. of regression 51.36364 Akaike info criterion 10.84730 Sum squared resid 15829.34 Schwarz criterion 10.83957Dependent Variable: LEDMethod: Least SquaresDate: 09/21/02 Time: 16:21Sample: 1991 1997Included observations: 7C -1.522329 0.383141 -3.973290 0.0106LFI 1.005563 0.044764 22.46341 0.0000 R-squared 0.990188 Mean dependent var 7.077084 Adjusted R-squared 0.988226 S.D. dependent var 0.382958 S.E. of regression 0.041554 Akaike info criterion -3.288701 Sum squared resid 0.008634 Schwarz criterion -3.304156 Log likelihood 13.51045 F-statistic 504.6048 Durbin-Watson stat 1.930000 Prob(F-statistic) 0.000003多元线性回归模型的参数估计实例例2.3.1 建立中国消费模型。