当前位置:文档之家› 3多元线性回归与最小二乘估计

3多元线性回归与最小二乘估计

1.3 多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。

u t 代表众多影响y t 变化的微小因素。

使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。

当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。

y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。

……….. 几何意义:y t 表示一个多维平面。

y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。

)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (1.3)Y = X β + u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。

假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 σ2相同且为有限值,即E(u ) = 0 = ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡00 , Var (u ) = E(uˆu ˆ' ) = σ 2I = σ 2⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡10000001 假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0假定 ⑶ 解释变量之间线性无关。

rk(X 'X ) = rk(X ) = k 其中rk (⋅)表示矩阵的秩。

假定⑷ 解释变量是非随机的,且当T → ∞ 时T – 1X 'X → Q其中Q 是一个有限值的非退化矩阵。

最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。

代数上是求极值问题。

min S = (Y - X βˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2βˆ'X 'Y + βˆ'X 'X βˆ (1.5) 因为Y 'X βˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。

(1.5) 的一阶条件为: βˆ∂∂S = - 2X 'Y + 2X 'X βˆ= 0 (1.6) 化简得X 'Y = X 'X βˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有βˆ= (X 'X )-1 X 'Y (1.7) 因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则βˆ是Y 的线性组合,为线性估计量。

求出βˆ,估计的回归模型写为 Y = X βˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … 1ˆ-k β)' 是 β 的估计值列向量,u ˆ= (Y - X βˆ) 称为残差列向量。

因为 uˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以uˆ也是Y 的线性组合。

βˆ的期望和方差是 E(βˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β + u )] = β + (X 'X )-1X ' E(u ) = β (1.11)Var(βˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 (1.12)高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。

βˆ具有无偏性。

βˆ具有最小方差特性。

βˆ具有一致性,渐近无偏性和渐近有效性。

2. 残差的方差s 2 = uˆ'u ˆ/ (T - k ) (1.13) s 2是σ 2的无偏估计量,E(s 2 ) =σ 2。

βˆ的估计的方差协方差矩阵是 ∧Var (βˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)Y = X βˆ+u ˆ=Y ˆ+u ˆ (1.15) 总平方和SST =∑=-Tt t y y 12)(= Y 'Y - T 2y , (1.16)其中y 是y t 的样本平均数,定义为y = T y Tt t /)(1∑=。

回归平方和为SSR =∑=-Tt t y y12)ˆ( = Y ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。

残差平方和为SSE =∑=-Tt t t y y 12)ˆ( = ∑=Tt t u12ˆ = u ˆ'u ˆ (1.18) 则有如下关系存在,SST = SSR + SSE (1.19)R 2= 22ˆˆy T y T SST SSR -Y Y Y 'Y '-= (1.20) 显然有0 ≤ R 2 ≤ 1。

R 2 →1,拟合优度越好。

4. 调整的多重确定系数当解释变量的个数增加时,通常R 2不下降,而是上升。

为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下:2R = 1 -))(1(1)1/()/(SST SSR SST k T T T SST k T SSE ----=-- = 1 - )1(12R kT T --- (1.21)5. OLS 估计量的分布若u ~ N (0, σ 2I ) ,则每个u t 都服从正态分布。

于是有Y ~ N (X β, σ 2I ) (1.22)因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有βˆ ~ N ( β, σ2(X 'X )-1 ) (1.23) 6. 方差分析与F 检验与SST 相对应,自由度T -1也被分解为两部分,(T -1)= (k -1) + (T - k ) (1.24)回归均方定义为MSR =1-k SSR ,误差均方定义为MSE = kT SSE- 表1.1 方差分析表方差来源 平方和自由度 均方 回归 SSR =Yˆ'Y ˆ-T y 2 k -1 MSR = SSR / (k -1) 误差 SSE = uˆ'u ˆ T -k MSE = SSE / (T -k ) 总和SST = Y 'Y - T y 2T -1H 0: β1= β2 = … = βk -1 = 0; H 1: βj 不全为零F =MSEMSR = )/()1/(k T SSE k SSR -- ~ F (k -1,T -k ) (1.25)设检验水平为α,则检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0;若 F > F α (k -1,T -k ) , 拒绝H 0。

0 F α (k -1, T -k ) -t α(T-k) 0 t α(T-k)F 检验示意图 t 检验示意图7.t 检验H 0:βj = 0, (j = 1, 2, …, k -1), H 1:βj ≠ 0 t =)ˆ(ˆjj s ββ=1121)'(ˆ)ˆ(ˆ+-+=j jj j s Var X X βββ~ t (T -k ) (1.26)判别规则:若∣ t ∣≤ t α(T -k ) 接受H 0;若∣ t ∣> t α(T -k ) 拒绝H 0。

8.βi 的置信区间(1) 全部βi 的联合置信区间接受F =k1(β -βˆ)' (X 'X ) (β -βˆ) / s 2 ~ F α (k , T -k ) (1.27) ( β -βˆ)' (X 'X ) ( β -βˆ) ≤ s 2 k F α (k , T -k ),它是一个k 维椭球。

(1.28) (2) 单个βi 的置信区间βi = i βˆ±1+j v s t α/2(T -k ) . (1.29)9.预测(1)点预测C = (1 x T +1 1 x T +1 2 … x T +1 k -1 ) (1.30) 则T + 1期被解释变量y T +1的点预测式是,1ˆ+T y= C βˆ=βˆ0 +βˆ1 x T +1 1 + … +βˆ k -1 x T +1 k -1(1.31)(2)E (y T +1) 的置信区间预测首先求点预测式C βˆ的抽样分布 E (1ˆ+T y) = E (C βˆ) = C β (1.32) Var (1ˆ+T y) = Var (C βˆ) = E[(C βˆ- C β ) (C βˆ- C β ) ' ] = E[C (βˆ- β ) [C (βˆ- β )] ' ]= C E[(βˆ- β ) (βˆ- β ) ' ]C ' = C Var (βˆ)C '= C σ2 (X 'X )-1C ' = σ2 C (X 'X )-1C ' , (1.33)因为βˆ服从多元正态分布,所以C βˆ也是一个多元正态分布变量,即 1ˆ+T y= C βˆ~ N (C β, σ2C (X 'X ) -1C ') (1.34) 构成 t 分布统计量如下t =')'()ˆ(ˆ111C X X C -++-s y E yT T =')'(ˆ1C X X C C C --s ββ ~ t (T -k ) (1.35)置信区间 C βˆ± t α/2 (1, T -k ) s ')'(1C X X C - (1.36) (3) 单个y T +1的置信区间预测y T +1值与点预测值1ˆ+T y有以下关系 y T +1 = 1ˆ+T y+ u T +1 (1.37) 其中u T +1是随机误差项。

相关主题