第四章 GLS 和MLE 一、广义最小二乘法(GLS ) 1、回归模型的矩阵表示总体回归方程可表示为:=+y X βε也可以写成:[|] =E y X X β。
当(|)E y X 取不同的形式时,也就构成了不同的模型,包括:线性、非线性和非参数等。
我们这里主要讨论的是线性模型(一元或多元):其中:12(1)N N y y y ⨯⎛⎫⎪⎪= ⎪ ⎪⎝⎭y ,111112122111()111j k j k N N jN k N k x x x x x x x x x ---⨯⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭X ,011(1)k k βββ-⨯⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭ β T表示样本数量,k 表示解释变量个数(包含了常数项),当2k =时就是一元线性回归模型。
而()12(1)TNN εεε⨯=ε表示的是随机扰动项,包含了除了解释变量以外的其他影响因素。
若遗漏变量,则这个变量也将被扰动项所包含。
2、经典假设满足时的残差项的方差协方差矩阵在无异方差和无自相关的假定下,残差项的方差协方差矩阵是一个对角阵,并且主对角线的元素都相同。
即有:(22200σσσ⎛⎫⎪'= ⎪⎝⎭E (εε|X)=I此时OLS 估计量是最优线性无偏估计BLUE )问题的提出:若扰动项违背球形假定,结果怎样?Ω='=+=2][,0][,σεεεεβE E X y (1)其中Ω是一般的正定矩阵,而不是在古典假设的情况下的单位矩阵。
(1)异方差时212222200000n σσσσσ⎡⎤⎢⎥'Ω==⎢⎥⎢⎥⎣⎦E (εε|X)=Ω存在异方差时的后果:OLS 估计量是线性无偏估计,但不是最有效的。
处理方法:第一条思路:找到最优线性无偏估计。
具体方法加权最小二乘法(WLS ),也就是模型变换法;第二条思路:存在异方差时OLS 估计量是线性无偏,但是原OLS 方法得到的方差计算公式有误。
对于系数估计仍采用OLS 估计,对于系数的方差估计进行修正。
得到稳健估计量。
具体参见本科课程(2)自相关时211122122112111n n n n n n ρρσσρρσσσσρρ----⎡⎤⎛⎫⎢⎥ ⎪'=Ω=⎢⎥ ⎪⎝⎭⎢⎥⎣⎦E (εε|X)=存在自相关时的后果:OLS 估计量是线性无偏估计,但不是最有效的。
处理方法:第一条思路:找到最优线性无偏估计。
具体方法广义差分方法; 第二条思路:存在自相关时OLS 估计量是线性无偏,但是原OLS 方法得到的方差计算公式有误。
对于系数估计仍采用OLS 估计,对于系数的方差估计进行修正。
得到稳健估计量。
具体参见本科课程(利用广义差分方法处理,具体参见本科课程)(3)同时存在异方差和自相关时21111122211n n n nn n n σσωωσσωωσσ⎛⎫⎛⎫⎪' ⎪== ⎪ ⎪⎝⎭⎝⎭E (εε|X)=Ω存在异方差、自相关时的后果:OLS 估计量是线性无偏估计,但不是最有效的。
处理方法:第一条思路:找到最优线性无偏估计。
具体方法广义最小二乘(GLS ); 第二条思路:存在异方差、自相关时OLS 估计量是线性无偏,但是原OLS 方法得到的方差计算公式有误。
对于系数估计仍采用OLS 估计,对于系数的方差估计进行修正。
得到稳健估计量。
3.GLSGLS的思想十分简单,就是通过对总体方差协方差矩阵的分解,将回归的残差转变成满足古典假定的残差,然后使用OLS估计。
由于Ω是一个正定的对称矩阵,由矩阵代数的知识,我们知道存在一个满秩矩阵P,使得'PPΩ=。
在古典回归方程y=Xβ+u两边同乘1P-,得到:-1-1-1P y=P Xβ+P u或者写成:***y=Xβ+u(其中-1-1-1***y=P y,X=Pβ,u=P u)可以看出,'-1'-1'**-1'-1'-12-1'2-1'-1'2E(u u)=E(P uu(P))=P E(uu)(P)=P(σΩ)(P)=σP(P P)(P)=σI显然变换后的模型满足古典假定,因此可以用OLS对该式进行估计。
得到如下结果:ˆ''-1-1-1-1****β=(X X)(X y)=(XΩX)XΩY4、FGLS(可行的GLS)FGLS是GLS在实际问题中的应用。
显然,如果方差协方差矩阵是Ω已知的,那么GLS就是最优的估计方法。
但是,在实际的问题中,Ω往往是未知的。
这就要求我们必须先对矩阵Ω进行估计,得到ˆΩ,然后再按照上述GLS的方法对回归模型进行估计。
二、最大似然估计(MLE )一个关于最大似然估计的实例(打猎的例子) 1、引子利用来自泊松分布的10个观测值,估计相关的参数。
已知泊松分布的密度函数是:(,)!ix i i e f x x θθθ-=,θ为参数,X 为观察值。
Poisson 分布,X 所有的可能取值为0,1,2……。
取各值的概率既和x 有关,也和参数θ有关。
思考问题:现得到10个观测值,5,0,1,1,0,3,2,3,4,1,估计其参数。
解答:似然函数11012101(,)(,,|)(|)(|)(|)()Ni i L x f x x f x f x f x f x θθθθθ===⋅=∏具体的:11010201011(,)()!!207360iii x x N i i i i i e eeL x f x x x θθθθθθθ=---==∑====∏∏∏该似然函数给出由具有未知参数θ的泊松分布生成数据时,观察到特定样本的概率。
什么样的的θ使这个样本最为可能。
考虑最大化这个函数。
由于对数函数是单调递增的,而且便于处理,因此通常最大化lnL(θ),即最大化对数似然函数。
ln (,)1020ln 12.242ln ()201002L x d L d θθθθθθθ=-+-=-+==又因为222ln ()200,d L d θθθ=-<因此为极大值。
2、极大似然函数及其估计的基本原理 (1)MLE 估计的原理 ○1似然函数的定义: 从总体中经过N 次随机抽取得到样本容量为N 的样本观测值,在任一次随机抽取中,样本观测值都以一定的概率出现,各样本的抽取是独立的,因此容易得到样本的联合密度函数。
似然函数——样本观测值的联合概率函数(联合密度函数)○2似然函数的表示: 设总体的概率密度函数为f ,其类型是已知的,但含有未知参数θ,观测值12,,,N x x x 的联合密度函数为:样本的似然函数——1(,)()Ni i L x f x θ==∏,包含有未知参数θ。
对数似然函数——1ln (,)ln()Ni i L x f x θ==∑○3原理: 极大似然估计的原理就是寻找参数估计量 θ,使得似然函数达到最大, θ就称为极大似然估计量。
求解的方法:通过取对数以及一阶条件可以求得该参数估计值。
最大化ln (,)L x θ的必要条件是ln (,)0L x θθ=∂一般来说似然函数是非线性的,必须采用迭代计算的方法求参数的极大似然估计值。
极大似然估计量 (MLE) 具有一致性和渐近有效性。
(2)例2,经典线性回归模型的最大似然估计量 线性回归模型的MLEy t = β0 + β1 x t1 + β 2 x t 2 + … + β k-1 x t k -1 + u t , t = 1, 2, …, T,进行极大似然估计。
假定u t ~ N(0, σ 2 ), 则y t 也服从正态分布。
y t ~ N(E( y t ), σ 2 ),其中E( y t ) = β0 + β1 x t1 + β 2 x t 2 + … + βk -1 x t k -1。
若y t 是相互独立的,则对于样本 ( y 1, y 2, …, y T ),似然函数是L(y 1, ,y 2, …, y T |β, σ 2) = f( y 1) f( y 2) … f( y T ), 其中 β 表示未知参数 β0, β1, …, β k -1的集合。
正态分布:f ( x t ) =2/12)2(1πσ22()2x u eσ--每个y t 的概率密度函数为:f ( y t ) =2/12)2(1πσexp[222))(E (σt t y y --].取对数后:ln f ( y t ) = 222111lnf ( yt )=-ln 2ln [E ()]222t t y y πσσ---].对于样本 ( y 1, y 2, …, y T ),对数似然函数为logL = ∑=Tt log 1f ( y t )= -2T log 2π -2T log σ 2-∑=Tt ty 12[21σ- E( y t ) ]2.= -2T log 2π -2T log σ 2-∑=Tt t y 12[21σ- β0 + β1 x t1 + β 2 x t 2 + … + β k -1 x t k -1 ]2分析:对logL 极大化,等同于使平方和∑=Tt t y 1[- E( y t )]2 极小化,即选择β~使∑=Tt t y 1(-0~β -1~βx t 1 -2~βx t 2 - (1)-k βx t k -1) 2= ∑=Tt t u 12~极小化。
上式中tu ~表示残差。
这种估计方法恰好与OLS 法相同,所以在这个例子中 β 的MLE 估计量β~与OLS 估计量βˆ完全相同,即β~=βˆ。
(具体的,是对数似然值对于每个β~求偏导数,并等0。
ln 0ˆiLβ∂=∂)与OLS 法不同的是极大似然估计法在估计β~的同时,还得到u t 方差的估计量。
对(lnL )求 σ 2 的偏导数并令其为零。
2σ∂∂L l o g = -22σT +421σ∑=Tt t y 1[- E( y t ) ]2= 0.用β~代替上式中E(y t ) 中的β 得2~σ= T -1∑=Tt tu 12~3、极大似然估计的性质若似然函数(),f x θ满足正则条件,极大似然估计量有下列渐进性质:M1、一致性:ˆlim p =θθ M2、渐进正态:()1ˆ,a N -⎡⎤−−→⎡⎤⎣⎦⎣⎦θθI θ,()2ln T L E ⎡⎤∂=⎢⎥∂∂⎣⎦I θθθ M3、渐进有效: θ是渐进有效的,且达到一致估计量的克拉美-劳下界: ()12ln ˆ.T L Asy Var E -⎧⎫⎡⎤∂⎪⎪⎡⎤=-⎨⎬⎢⎥⎣⎦∂∂⎪⎪⎣⎦⎩⎭θθθθ()()1l n l n TL L E -⎧⎫⎡⎤∂∂⎛⎫⎛⎫⎪⎪=⎢⎥⎨⎬ ⎪ ⎪∂∂⎢⎥⎝⎭⎝⎭⎪⎪⎣⎦⎩⎭θθθθM4、不变性:若 θ是θ的ML 估计,()θc 是连续函数,则()θ=γc 的ML 估计是 ()θc 。
这四个性质特别是最后两个性质,估计量达到了最小方差,即ML 估计量是有效估计量。