当前位置:文档之家› 计量经济学讲义共十讲

计量经济学讲义共十讲

计量经济学讲义共十讲文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]第一讲 普通最小二乘法的代数一、 问题假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。

我们对01ββ、这两个参数的值一无所知。

我们的任务是利用样本数据去猜测01ββ、的取值。

现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。

问题是,如何利用该样本来猜测01ββ、的取值为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。

既然y 与x 具有近似的线性关系,那么我们就在图中拟合一条直线:01ˆˆˆy x ββ=+。

该直线是对y 与x 的真实关系的近似,而01ˆˆ,ββ分别是对01,ββ的猜测(估计)。

问题是,如何确定0ˆβ与1ˆβ,以使我们的猜测看起来是合理的呢笔记:1、为什么要假定y 与x 的关系是01y x ββε=++呢一种合理的解释是,某一经济学理论认为x 与y 具有线性的因果关系。

该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。

2、01y x ββε=++被称为总体回归模型。

由该模型有:01E()E()y x x x ββε=++。

既然ε代表其他不重要因素对y 的影响,因此标准假定是:E()0x ε=。

故进而有:01E()y x x ββ=+,这被称为总体回归方程(函数),而01ˆˆˆy x ββ=+相应地被称为样本回归方程。

由样本回归方程确定的ˆy 与y 是有差异的,ˆy y-被称为残差ˆε。

进而有:01ˆˆˆy x ββε=++,这被称为样本回归模型。

二、 两种思考方法法一:12(,,...,)N y y y '与12ˆˆˆ(,,...,)N y y y '是N 维空间的两点,0ˆβ与1ˆβ的选择应该是这两点的距离最短。

这可以归结为求解一个数学问题:由于ˆi i y y -是残差ˆi ε的定义,因此上述获得0ˆβ与1ˆβ的方法即是0ˆβ与1ˆβ的值应该使残差平方和最小。

法二:给定i x ,看起来i y 与ˆi y越近越好(最近距离是0)。

然而,当你选择拟合直线使得i y 与ˆi y是相当近的时候,j y 与ˆj y的距离也许变远了,因此存在一个权衡。

一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择应该使1y 与2ˆy、2y 与2ˆy 、...、N y 与ˆN y 的距离的平均值是最小的。

距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题:由于N 为常数,因此法一与法二对于求解0ˆβ与1ˆβ的值是无差异的。

三、 求解定义2011ˆˆ()Ni ii Q y x ββ==--∑,利用一阶条件,有: 由(1)也有:在这里11N i i y y N ==∑、11Ni i x x N ==∑笔记:这表明:1、样本回归函数01ˆˆˆy x ββ=+过点(,)x y ,即穿过数据集的中心位置;2、ˆy y =(你能证明吗),这意味着,尽管01ˆˆββ、的取值不能保证ˆi i y y =,但01ˆˆββ、的取值能够保证ˆy 的平均值与y 的平均值相等;3、虽然不能保证每一个残差都为0,但我们可以保证残差的平均值为0。

从直觉上看,01ˆˆββ、作为对01ββ、的一个良好的猜测,它们应该满足这样的性质。

笔记:对于简单线性回归模型:01y x ββε=++,在OLS 法下,由正规方程(1)可知,残差之和为零【注意:只有拟合直线带有截距时才存在正规方程(1)】。

由正规方程(2),并结合正规方程(1)有:1ˆˆˆˆˆ0()()()0ˆ(,)0i ii i iixx x x Cov x εεεεεε=⇒-=--=⇒=∑∑∑见练习()提示无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方法是需要改进的!对模型01y x ββε=++利用OLS ,我们能保证(1):残差均值为零;(2)残差与解释变量x 不相关【一个变量与另一个变量相关是一个重要的信息】。

方程(1)与(2)被称为正规方程,把01ˆˆy x ββ=-带入(2),有:上述获得01ˆˆββ、的方法就是普通最小二乘法(OLS )。

练习: (1)验证:提示:定义i Z 的离差为i i z Z Z =-,则离差之和10Nii z==∑必为零。

利用这个简单的代数性质,不难得到: 笔记:定义y 与x 的样本协方差、x 的样本方差分别为:2(,)()()/()()/i i i Cov x y x x y y N Var x x x N=--=-∑∑,则1(,)ˆ()Cov x y Var x β=。

上述定义的样本协方差及其样本方差分别是对总体协方差xy δ及其总体方差2x δ的有偏估计。

相应的无偏估计是:基于前述对()Var x 与(,)Cov x y 的定义,可以验证:其中a ,b 是常数。

值得指出的是,在本讲义中,在没有引起混淆的情况下,我们有时也用()Var x 、(,)Cov x y 来表示总体方差与协方差,不过上述公式同样成立。

(2)假定y x βε=+,用OLS 法拟合一个过原点的直线:ˆˆyx β=,求证在OLS 法下有: 并验证:∑∑∑+=222ˆˆi i i y y ε笔记:1、现在只有一个正规方程,该正规方程同样表明ˆ0i i x ε=∑。

然而,由于模型无截距,因此在OLS 法下我们不能保证ˆ0iε=∑恒成立。

所以,尽管ˆ0i ix ε=∑成立,但现在该式并不意味着ˆ(,)0Cov x ε=成立。

2、无截距回归公式的一个应用:01101()()()i i i i i i y x y y x x y x ββεβεεββε=++⎫⎪⇓⇒-=-+-⎬⎪=++⎭定义ii F y y =-、i i D x x =-、i i e εε=-,则1i i i F D e β=+。

按照OLS 无截距回归公式,有:(3)假定y βε=+,用OLS 法拟合一水平直线,即:ˆˆyβ=,求证ˆy β=。

笔记:证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是ˆ0iε=∑;另外一种思路是,模型y βε=+是模型y x βε=+的特例,利用ˆ0i i x ε=∑的结论,注意到此时1ix =,因此同样有ˆ0i ε=∑。

(4)对模型01y x ββε=++进OLS 估计,证明残差与ˆy 样本不相关,即ˆˆ(,)0Cov y ε=。

四、 拟合程度的判断(一)方差分解及其R 2的定义可以证明,ˆˆ()()()Var y Var y Var ε=+。

证明:方差表示一个变量波动的信息。

方差分解亦是信息分解。

建立样本回归函数01ˆˆˆy x ββ=+时,从直觉上看,我们当然希望关于ˆy的波动信息能够最大程度地体现关于y 的波动信息。

因此,我们定义判定系数2ˆ()()Var yR Var y =,显然,201R ≤≤。

如果R 2大,则y 的波动信息就越能够被ˆy 的波动信息所体现。

R 2也被称为拟合优度。

当21R =时,ˆ()0Var ε=,而残差均值又为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟合。

(二)总平方和、解释平方和与残差平方和定义:其中TSS 、ESS 、RSS 分别被称为总平方和、解释平方和与残差平方和。

根据方差分解,必有:TSS=ESS+RSS 。

因此,2/1/R ESS TSS RSS TSS ==-(三)关于R 2的基本结论1、R 2也是y 与ˆy的样本相关系数r 的平方。

证明:2、对于简单线性回归模型:01y x ββε=++, R 2是y 与x 的样本相关系数的平方。

证明:22222011201122ˆˆˆˆ(,+)(,)(,)R ˆˆˆˆ()()()(+)()()(,)xyCov y x Cov y y Cov y x Var y Var y Var y Var x Var y Var x Cov y x r ββββββ=====练习:(1)对于模型:y βε=+,证明在OLS 法下R 2=0。

(2)对于模型:01y x ββε=++,证明在OLS 法 警告!软件包通常是利用公式21/R RSS TSS =-,其中2ˆi RSS ε=∑来计算R 2。

应该注意到,我们在得到结论 222ˆˆ()()i i i y y y y ε-=-+∑∑∑时利用了ˆ0ε=的性质,而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证R 2为一非负值。

总而言之,在利用R 2时,我们的模型一定要带有截距。

当然,还有一个大前提,即我们所采用的估计方法是OLS 。

五、 自由度与调整的R 2如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。

为什么呢举一个例子。

假如我们用OLS 法得到的模型估计结果是:01122ˆˆˆˆi i iy x x βββ=++, 此时,OLS 法估计等价于求解最小化问题:令最后所获得的目标函数值(也就是残差平方和)为RSS1。

现在考虑对该优化问题施加约束:2ˆ0β=并求解,则得到目标函数值RSS2。

比较上述两种情况,相对于RSS1, RSS2是局部最小。

因此,RSS1小于或等于RSS2。

应该注意到,原优化问题施加约束后对应于模型估计结果:011ˆˆˆi iy x ββ'''=+ 因此,如果单纯依据R 2标准,我们应该增加解释变量以使模型拟合得更好。

增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。

这涉及到自由度问题。

什么叫自由度假设变量x 可以自由地取N 个值12(,,...,)N x x x ,那么x 的自由度就是N 。

然而,如果施加一个约束,i x a =∑,a 为常数,那么x 的自由度就减少了,新的自由度就是N-1。

考虑在样本回归直线01122ˆˆˆˆi i iy x x βββ=++下残差ˆε的自由度问题。

对残差有多少约束根据正规方程(1)(2),有:ˆˆ0;0i i i x εε==∑∑,因此存在两个约束。

故残差的自由度是N-2。

如果当样本回归函数是:012ˆˆˆˆy x z βββ=++,则残差的自由度为N-3。

显然,待估计的参数越多,则残差的自由度越小。

自由度过少会带来什么问题简单来说,自由度过少会使估计精度很低。

例如,我们从总体中随机抽取12,,...,N x x x 来计算x 以作总体均值的估计,现在x 的自由度是N ,显然N 越大则以x 作为总体均值的估计越精确。

相关主题