当前位置:文档之家› 第4章 双变量回归模型:估计问题

第4章 双变量回归模型:估计问题


差。如下图:
图3.4
变。这种情形的相应名称是异方差性 (heteroscedasticity)或者说非相同的散布(unequal spread)或非相等的方差(variance)。用符号表示:
注意下标i, 它表示Y总体的方差不再是恒定不变的了。 区分同方差性和异方差性: 令Y代表每周消费支出,X代表每周收入。图3.4和3.5都表示 随着收入增加,平均消费支出也增加。但在图3.4中,消费支出的 方差在所有的收入水平上都保持不变,而在图3.5中,这个方差随 着收入的增加而增加,换句话说,富有的家庭比贫穷的家庭平均消 费更多,但前者的消费支出也有更大的变异。 假定4意味着Y 的条件方差也是同方差的,就是说:
ˆ ˆ min (Yi 1 2 Xi ) 2
(4-1)
根据微积分中求极限的原理,要使式(4-1)达到最小,式(4-1)对
ˆ ˆ 1、 2 的一阶偏导数应等于0,即
ˆ ˆ 2[Yi ( 1 2 X i )] 0 2 X [Y ( X )] 0 i i ˆ1 ˆ2 i
普通最小二乘法归功于德国数学家高斯,在回归分析 中得到了广泛运用。它比最大似然法简单的多。
回顾双变量总体回归函数PRF: 该PRF不可直接观测,同过SRF去估计它:
( 是 的估 计量,条件均值) 为了考察SRF,把上式化为如下:
对于给定的Y和X的n对观测值,我们希望SRF尽可能靠近实际的Y。 规则之一:选择这样的SRF,使得残差和 可能小。(good or bad?) 尽
图 最小二乘准则
最小二乘准则是要确定SRF使得下式尽可能的小:
可以看出,
给出不同的

将会得到不同的

现在做两个实验。在实验1中,假设 在实验2中,假设 , 。


总和:
表3.1
SRF的实验决定法
选择哪一组的 第1个实验的
值? 值比第2个实验的 更优。 值给出一个更低的 。
所以说第1个实验的 如何知道最优?
式(4-4)可改写为
ˆ ˆ 1 Y 2 X xy ˆ i i 2 xi2
称为参数 1 、 2 的普通最小二乘估
(4-5) 计量的离差形式(deviation form)
样本回归线通过Y和X的样本均值
一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的 回归线有如下性质:
E.g. 做许多次实验,每次选择不同的
值,然后比较所得的

并从中选择给出最可能小的
值的那组
值。花费大量时间。
最小二乘法给出了简便的运算。
普通最小二乘法(ordinary least squares,OLS)的基本思想 ——使样本回归函数尽可能好地拟合样本数据 最小二乘法以
ˆ min ui2
表示被解释变量的估计值与实际观察值的偏差总体上最小。 双变量情形下即是求得
(4-4)

xi X i X yi Yi Y(之后都遵循一个惯例,小写字母表示对均值的离差)
x (X
2 i
i
1 X ) 2 X i2 ( X i ) 2 n
1 X i Yi n
x y ( X
i 1 i i i 1
n
n
i
X )(Yi Y ) X iYi
不相关,即 值不相关,即
ˆ X u 0 ˆ Yˆ u 0
i i

i i
(离差形式)
按照离差形式,SRF可写成:
利用离差形式可以推出:
例1 对于消费函数,若已知: n = 10 , X =23, Y =20
(X X )2 64,
(X X )(Y Y ) 37
xt yt
160 40 0 30 160 390
xt2
400 100 0 100 400 1000
2
X X
n
2
Y
t
X
y
150 30, Y 5
Y
n
x
xy x
t
110 22 5
ˆ
xy 390 0.39,ˆ Y ˆ * X 22 0.39 * 30 10.3 x 1000
i 2
则有 因而
( X X )(Y Y ) 37 0.58 ˆ 64 (X X )
i i
ˆ ˆ Y X 20 0.58 * 23 6.70 ˆ Yi 6.70 0.58 X i
例2 设Y和X的5期观测值如下表所示,试估计方程
Yt = + Xt + ut
在第12章例,我们将透彻的解释这一假定的全部涵义。
直观上,我们可以对此假定做如下解释:
设想我们的 中,ut 和ut-1 正相关, 那么Yt 不仅依赖于Xt ,而且依赖于ut-1 ,因为ut-1 在一定程 度上决定了ut 。
所以现阶段我们讨论假定5,就是说我们只考虑Xt 对Yt 的系统性影响和是否有影响,而不去担心由于u之间的可能的 交互相关而造成的其他可能作用于Y的影响。
假设选择两个模型去描述货币工资变化率和失业率的理论关系:
回归模型1对参数和变量都是线性的,回归模型2则对参数为线性, 对变量X为非线性。假如回归模型1是“正确”模型,则模型2在A、 B两点间高估了真实的Y均值。
除了在选择模型时需要做出判断,假定9还为了提醒我们,回归 分析以及由分析得到的结果,是以所选的模型为条件的,从而警 醒我们,在建立计量经济模型时必须十分审慎,特别是对某些经
假定3:干扰项ui 的均值为零。对给定的X值,随机干扰项ui 的均 值或期望值为零,专业地讲,ui 的条件均值为零,符号上记为:
假定3的几何意义可由图3.3描绘出来。图中显示了变量X的几 个值以及与每一X值相对应的一个Y总体。 如图所示,对应于给定的X,每一个Y总体都是围绕其均值分 布的;一些Y值位于均值之上,一些Y值位于均值之下。离开均值 的上方和下方的距离就是ui 。 这一假定意味着凡是模型不含的因而归属于u 的因素,对Y的 均值都没有系统的影响,正的ui 值抵消了负的ui 值,以致它们的 平均影响为零。
1. 它通过Y和X的样本均值。这是从(4-5)显见的事实,该式可写成
2. 估计的
均值等于实测的Y均值。因为:
将最后一个等式两边对样本值求和并除以样本大小n,即得: 这里利用了等式 。(Why?)
3. 残差
的均值等于0。由(4-2),第一个方程是:
因为 故上述方程化为 ,从而
4.残差 5.残差
和解释变量 和预测的
假定7:观测次数n必须大于待估计的参数个数。另一种说法是,观 测次数n必须大于解释变量的个数。 不妨设想我们只有一对Y和X的观测值,则无法估计两个未知数。 假定8:X值要有变异性。在一个给定的样本中,X值不可以全是相 同的,即var(X)必须是一个有限的正数。 试想,如果全部X值都相同,则 无法估计β。 。则
第四章
经典线性回归模型
华中科技大学武昌分校 王怡
◆ ◆ ◆ ◆
普通最小二乘法 最小二乘法的基本假定
最小二乘参数估计的精度或标准误差
最小二乘估计量的性质:高斯-马尔可夫 定理
◆ ◆
判定系数r2 :拟合优度的一个度量 关于蒙特卡罗实验的一个注记
一、普通最小二乘法
前一章我们提到根据样本回归函数尽可能准确地估计 总体回归函数,通常有两种估计方法:普通最小二乘法 (Ordinary Least Squares, OLS)和最大似然法 (Maximum Likelihood, ML)。
二、最小二乘法的基本假定
如果我们的目的仅仅是估计 目的不仅仅是获得 和 和 ,则OLS法足够用。但回归分析的 和 做出推断,即判 有多接近。
,还要对真实的
断它们离总体值有多接近,或者说
与其期望值
PRF表明Yi 依赖于Xi 和ui 。因此,我们需明确Xi 和ui 是怎样产 生的,为了回归估计的有效解释,对Xi 变量(一个或多个)和误差项ui 做出假定是极其重要的。
假定5:各个干扰项之间无自相关性。给定任意两个X值:Xi 和Xj (i j),ui 和uj 之间的相关性为零,i和j为两次不同的观测,用 符号表示:
假定5即是设定ui 和uj 不相关。用专门术语来说,这是无序列 相关(no serial correlation)或无自相关(no auto correlation)。即是不会表现出如下图(a)和图(b)的模式。图(a) 中u值是正相关的,即正(负)的u伴随着正(负)的u。图(b) 中u值是负相关的,即正(负)的u伴随着负(正)的u。
假定1:线性回归模型。回归模型对参数而言是线性的,如
假定2:在重复抽样中X值是固定的。再重复的样本中,回归元所 取的数值被认为是固定的。说的更专业些,假定X是非随机的。 如第3章中的例子,考虑表2.1中各收入水平对应的各个Y总体, 把收入值X固定在80美元的水平上,随机抽取一个家庭,并观测到 它的周家庭消费支出Y为60美元。仍然把X固定在80美元,而随机 的另抽取一个家庭并观测到它的Y值为75美元。在每次抽取即重复 抽样的过程中,X值都固定在80美元。可以对表中的全部X值重复 这一过程。
图3.3 干扰项ui 的条件分布
假定4:同方差性或ui 的方差相等。给定X值,对所有的观测, ui 的方差都是相同的。就是说ui 的条件方差是恒定的,用符号表示:
对于每个u 的条件方差都是某个等于
的正常数。用专业术语
说,上式代表同方差性(homoscedasticity)或者说相同的散步 或相等的方差。这意味着,对应于不同X值的Y总体均有同样的方
ˆ 2
x y
i
i
xi2
直观上,如果家庭收入很少变动,我们就不怎么能解释消费支出的 变化。 变量必须在变!
相关主题