当前位置:文档之家› (新)计量经济学讲义第一讲(共十讲)

(新)计量经济学讲义第一讲(共十讲)

第一讲 普通最小二乘法的代数一、 问题假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。

我们对01ββ、这两个参数的值一无所知。

我们的任务是利用样本数据去猜测01ββ、的取值。

现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。

问题是,如何利用该样本来猜测01ββ、的取值?为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。

既然y 与x 具有近似的线性关系,那么我们就在图中拟合一条直线:1ˆˆˆyx ββ=+。

该直线是对y 与x 的真实关系的近似,而01ˆˆ,ββ分别是对01,ββ的猜测(估计)。

问题是,如何确定0ˆβ与1ˆβ,以使我们的猜测看起来是合理的呢? 笔记:1、为什么要假定y 与x 的关系是01y x ββε=++呢?一种合理的解释是,某一经济学理论认为x 与y 具有线性的因果关系。

该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。

2、01y x ββε=++被称为总体回归模型。

由该模型有:01E()E()y x x x ββε=++。

既然ε代表其他不重要因素对y的影响,因此标准假定是:E()0x ε=。

故进而有:01E()y x x ββ=+,这被称为总体回归方程(函数),而01ˆˆˆy x ββ=+相应地被称为样本回归方程。

由样本回归方程确定的ˆy与y 是有差异的,ˆy y -被称为残差ˆε。

进而有:01ˆˆˆy x ββε=++,这被称为样本回归模型。

二、 两种思考方法法一:12(,,...,)N y y y '与12ˆˆˆ(,,...,)N yy y '是N 维空间的两点,0ˆβ与1ˆβ的选择应该是这两点的距离最短。

这可以归结为求解一个数学问题:01012201ˆˆˆˆ,,11ˆˆˆ()()NNi i i i i i Min y y Min y x ββββββ==-=--∑∑ 由于ˆi i y y -是残差ˆi ε的定义,因此上述获得0ˆβ与1ˆβ的方法即是0ˆβ与1ˆβ的值应该使残差平方和最小。

法二:给定i x ,看起来i y 与ˆi y 越近越好(最近距离是0)。

然而,当你选择拟合直线使得i y 与ˆi y是相当近的时候,j y 与ˆj y的距离也许变远了,因此存在一个权衡。

一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择应该使1y 与2ˆy、2y 与2ˆy 、...、N y 与ˆN y 的距离的平均值是最小的。

距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题:01012201ˆˆˆˆ,,11ˆˆˆ()/()/NNi i i i i i Min y y N Min y x N ββββββ==-=--∑∑ 由于N 为常数,因此法一与法二对于求解0ˆβ与1ˆβ的值是无差异的。

三、 求解定义2011ˆˆ()Ni ii Q y x ββ==--∑,利用一阶条件,有: 01001ˆˆ2()(1)0ˆˆˆ()0(1)ˆ0i ii iiQ y x y x βββββε∂=---=∂⇒--==∑∑∑由(1)也有:01ˆˆy x ββ=+ 在这里11N i i y y N ==∑、11Ni i x x N ==∑笔记:这表明:1、样本回归函数01ˆˆˆy x ββ=+过点(,)x y ,即穿过数据集的中心位置;2、ˆy y =(你能证明吗?),这意味着,尽管01ˆˆββ、的取值不能保证ˆi i y y =,但01ˆˆββ、的取值能够保证ˆy的平均值与y 的平均值相等;3、虽然不能保证每一个残差都为0,但我们可以保证残差的平均值为0。

从直觉上看,01ˆˆββ、作为对01ββ、的一个良好的猜测,它们应该满足这样的性质。

01101ˆˆ2()()0ˆˆˆ()0(2)ˆ0i i ii i ii iQ y x x y x x xβββββε∂=---=∂⇒--==∑∑∑笔记:对于简单线性回归模型:01y x ββε=++,在OLS 法下,由正规方程(1)可知,残差之和为零【注意:只有拟合直线带有截距时才存在正规方程(1)】。

由正规方程(2),并结合正规方程(1)有:1ˆˆˆˆˆ0()()()0ˆ(,)0i ii i iixx x x Cov x εεεεεε=⇒-=--=⇒=∑∑∑见练习()提示无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方法是需要改进的!对模型01y x ββε=++利用OLS ,我们能保证(1):残差均值为零;(2)残差与解释变量x 不相关【一个变量与另一个变量相关是一个重要的信息】。

方程(1)与(2)被称为正规方程,把01ˆˆy x ββ=-带入(2),有:11ˆ[()]0()ˆ()ii iiiiiy y x x xy y x x x xββ---=-⇒=-∑∑∑上述获得01ˆˆββ、的方法就是普通最小二乘法(OLS )。

练习: (1)验证:12222()()()()ˆ()()()i i i i i i i ii i i i iy y x y y x x x x y x x x x x x x x y Nx y x Nxβ----===----⋅=-∑∑∑∑∑∑∑∑提示:定义i Z 的离差为i i z Z Z =-,则离差之和10Nii z==∑必为零。

利用这个简单的代数性质,不难得到:()()()()()()i i iiiiiiy y x x y y x y y x x y x x --=---=-∑∑∑∑笔记:定义y 与x 的样本协方差、x 的样本方差分别为:2(,)()()/()()/i i i Cov x y x x y y N Var x x x N=--=-∑∑,则1(,)ˆ()Cov x y Var x β=。

上述定义的样本协方差及其样本方差分别是对总体协方差xy δ及其总体方差2x δ的有偏估计。

相应的无偏估计是:22()()/(1)()/(1)xy i i xi s x x y y N s x x N =---=--∑∑基于前述对()Var x 与(,)Cov x y 的定义,可以验证:2()()(,)(,)Var a bx b Var x Cov a bx y bCov x y +=+=其中a ,b 是常数。

值得指出的是,在本讲义中,在没有引起混淆的情况下,我们有时也用()Var x 、(,)Cov x y 来表示总体方差与协方差,不过上述公式同样成立。

(2)假定y x βε=+,用OLS 法拟合一个过原点的直线:ˆˆyx β=,求证在OLS 法下有: 2ˆi i ix y x β=∑∑ 并验证:∑∑∑+=222ˆˆi i i y y ε笔记:1、现在只有一个正规方程,该正规方程同样表明ˆ0i ixε=∑。

然而,由于模型无截距,因此在OLS 法下我们不能保证ˆ0iε=∑恒成立。

所以,尽管ˆ0i i x ε=∑成立,但现在该式并不意味着ˆ(,)0Cov x ε=成立。

2、无截距回归公式的一个应用:01101()()()i i i i i i y x y y x x y x ββεβεεββε=++⎫⎪⇓⇒-=-+-⎬⎪=++⎭定义ii F y y =-、i i D x x =-、i i e εε=-,则1i i i F D e β=+。

按照OLS 无截距回归公式,有:122()()ˆ()i i i i i i F D y y x x D x x β--==-∑∑∑∑(3)假定y βε=+,用OLS 法拟合一水平直线,即:ˆˆyβ=,求证ˆy β=。

笔记:证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是ˆ0iε=∑;另外一种思路是,模型y βε=+是模型y x βε=+的特例,利用ˆ0i i x ε=∑的结论,注意到此时1ix =,因此同样有ˆ0i ε=∑。

(4)对模型01y x ββε=++进OLS 估计,证明残差与ˆy样本不相关,即ˆˆ(,)0Cov y ε=。

四、 拟合程度的判断(一)方差分解及其R 2的定义可以证明,ˆˆ()()()Var y Var y Var ε=+。

证明:ˆˆˆˆˆˆ()()()2(,)y yVar y Var y Var Cov y εεε=+⇒=++ 011ˆˆˆˆˆˆˆ(,)(,)(,)0ˆˆ()()()Cov y Cov x Cov x Var y Var yVar εββεβεε=+==∴=+方差表示一个变量波动的信息。

方差分解亦是信息分解。

建立样本回归函数01ˆˆˆyx ββ=+时,从直觉上看,我们当然希望关于ˆy的波动信息能够最大程度地体现关于y 的波动信息。

因此,我们定义判定系数2ˆ()()Var yR Var y =,显然,201R ≤≤。

如果R 2大,则y 的波动信息就越能够被ˆy的波动信息所体现。

R 2也被称为拟合优度。

当21R =时,ˆ()0Var ε=,而残差均值又为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟合。

(二)总平方和、解释平方和与残差平方和定义:22222()ˆˆˆ()()ˆˆˆ()i i i i i TSS y y ESS yy y y RSS εεε=-=-=-=-=∑∑∑∑∑其中TSS 、ESS 、RSS 分别被称为总平方和、解释平方和与残差平方和。

根据方差分解,必有:TSS=ESS+RSS 。

因此,2/1/R ESS TSS RSS TSS ==-(三)关于R 2的基本结论1、R 2也是y 与ˆy的样本相关系数r 的平方。

证明:222ˆˆˆˆˆˆˆ(,)()(,)()ˆˆ(,)()ˆ()()()y yCov y y Var y Cov y Var y Cov y y Var y r R Var y Var yVar y εε=+⇒=+=⇒===2、对于简单线性回归模型:01y x ββε=++, R 2是y 与x 的样本相关系数的平方。

证明:22222011201122ˆˆˆˆ(,+)(,)(,)R ˆˆˆˆ()()()(+)()()(,)xyCov y x Cov y y Cov y x Var y Var y Var y Var x Var y Var x Cov y x r ββββββ=====练习:(1)对于模型:y βε=+,证明在OLS 法下R 2=0。

(2)对于模型:01y x ββε=++,证明在OLS 法221()ˆR ()Var x Var y β=警告!软件包通常是利用公式21/R RSS TSS =-,其中2ˆi RSS ε=∑来计算R 2。

相关主题