当前位置:
文档之家› 第2章 双变量回归分析:一些基本概念
第2章 双变量回归分析:一些基本概念
ui Yi E(Y | X i ) 或
Yi E(Y | X i ) ui (2.4.1)
离差ui 是一个不可观测的随机变量,称之为随机干扰 (stochastic disturbance)或随机误差项(stochastic error)
从计量经济学上看,对于给定的X水平,个别家庭的支出 可以分解为两个部分: ①表示收入相同的所有家庭的平均消费支出,称为系 统 性 ( systematic ) 或 确 定 性 ( deterministic ) 成 分 (component)。 ②ui为随机的或非系统性成分(nonsystematic component)。它是代表所有可能影响Y的,但又没有包 括到回归模型中的替代(surrogate)或代理(proxy)变 量 假定 E(Y | X i ) 对X i 是线性的,(2.4.1)式便可以写 为: Yi 1 2 X i ui (2.4.2) 它表示消费支出Y线性地依赖于相应的收入X i 和随机 扰动项
表2.4 表2.1总体的一个随机样本
Y
70 65 90 95 110 115 120
X
80 100 120 140 160 180 200
140
155 150
220
240 260
各次抽样之间总存在波动(误差),表2.5是另 一个随机样本 表2.5 表2.1总体的另一个随机样本
Y
55 88 90
X
图2.1可以画成图2.2的形式 可见,对应于每一个Xi都有一个Y值的总体和 一个相应的条件均值。而回归直线(曲线)正好 穿过这些条件均值
总体回归函数(PRF,population regression function) 由图2.1和图2.2可见,每一个条件均值都是 X i 的一个函 数,即:
的经济理论可以给我们一些指导。假如, E(Y | X i ) 是 X i 的线性函数:
E(Y | X i ) 1 2 X i
(2.2.2)
1 和 2 为 回 归 系 数 ( regression coefficients ) , (2.2.2)称为线性总体回归函数,或简称线性总体回归。
E(ui | X i ) 0
(2.4.5)
这就是说,给定Xi,ui的条件均值等于零。
随机干扰项的意义 干扰项是模型中省略掉的,又集体地影响Y的全部因 素(变量)的替代物(surrogate) 那么,为什么不构造一个含有尽可能多的解释变量 的复回归模型呢?原因如下: 理论的含糊性:现有的理论往往是不完全的。物理 学上有个“测不准定理”:我们永远不可能接近真实 的世界,因为我们的观测总是要借助于工具和环境 数据的欠缺:比如,在分析影响家庭消费支出的例 子中,应该加进“财富”变量,然而,人们总是怕“ 露富”,有些人 “装富”,所以,一般很难得到有关 家庭财富的确切数据
对于给定的 X i ( X X i ) ,有一个观测值 Y Yi 利用SRF可以将所观测到的 Yi 表示为:
ˆ ˆ Yi Yi u
(2.6.3)
利用PRF可以将所观测到的 Yi 表示为:
Yi E(Y | X i ) ui
(2.6.4)
Xi ,SRF低估了PRF。这种高估或低估是由抽样误差引 起的。 用什么方法或规则,可以使SRF可以尽可能地接 ˆ 近PRF?或者说,怎样构造SRF使 1 尽可能接近 1 , ˆ 尽可能接近 呢?且听下章分解
回归分析的主要任务是根据SRF:
ˆ ˆ ˆ Yi 1 2 X i ui
(2.6.2)
估计PRF:
Yi 1 2 X i ui
由于抽样有波动,根据SRF来估计PRF,最多只能 是一个近似的估算。见下图:
ˆ ˆ ˆ SRF : Yi 1 2 Xi
PRF : E(Y | X i ) 1 2 X i
(2)对参数为线性
即Y的条件期望 E(Y | X i ) 是参数 i 的一个线性函数; 它既可以是也可以不是变量X的线性函数
这样以来,
E(Y | X i ) 1 2 X i
2
就是一个线性回归模型, 而
E(Y | X i ) 1 2 X i
则不是线性的。
在今后的课程中,我们讲的“线性”指的是对参数为 线性的情况,对解释变量i 则可以是也可以不是线性的。 X
对 应 于 样 本 回 归 线 的 方 程 叫 样 本 回 归 函 数 ( sample regression function,简记 SRF):
ˆ ˆ ˆ Yi 1 2 X i
ˆ 1 表示 1的估计量 ˆ 2 表示 2 的估计量
(2.6.1)
ˆ Y 表示 E(Y | X i ) 的估计量 (全在SRF上)
样本回归函数(SRF,The Sample Regression Function) 表2.1是一个总体,这是一个假定的总体,在现 实的经济生活中总体的所有观测值往往是不能够全部 获得的。 在大多数情况下,我们只有对应于某些固定的 X的Y值的一个样本。比如,对于表2.1的总体我们只知 道如下的抽取的样本:
估计量(estimator),也称样本的统计量(statistic)是 总体参数的一个估计。由估计量算出的一个具体的数值, 称之为估计值(estimate)
SRF(2.6.1)式可以写成相应的随机形式: ˆ ˆ ˆ Yi 1 2 X i ui
ˆ ˆ u i 表示样本残差或剩余项(residual), u i 是 u i 的估 计量。
一个例子
表2.1 x y
80 100
X:每周家庭收入($)
120 140 160 180 200 220 240 260
55
65
79
80
102
110
120
135
137
150
每 周 家 庭 消 费 支 出
60
70
84
93
107
115
136
137
145
152
65
74
90
95
110
120
140
140
155
80 100 120
80
118 120 145 135 145 175
140
160 180 200 220 240 260
那么,我们能否从上表的样本数据预测整个总体 中对应于选定X的平均的消费支出Y呢?或者说,能 否估计出PRF?
根据表2.4和表2.5可以得到如下的散点图。
SRF1是根据第一个样本画的;而SRF2是根据第 二个样本画的。图中的回归线叫样本回归线 (sample regression lines)
Yi 1 2 X i ui 由(2.4.1)式: 两边取期望值 得: E (Yi | X i ) E[ E (Y | X i )] E (u i | X i )
常数的期望是它本身 E (Y | X i ) E (u i | X i )
而
E(Yi | X i ) 也就是 E(Y | X i ) ,所以有:
175
70
80
94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
—
88
—
113
125
140
—
160
189
185
—
—
—
115
—
—
—
162
—
191
共计
325
46
445
707
678
750
685
1043
966
1211
表2.1的含义:它给出了以X的给定值为条件的Y值 的条件分布(conditional distribution) 因为表2.1代表一个总体,我们可以从表中计算出 给定X的Y的概率,这在统计上叫做什么? 比如:
错误的函数形式: 比如: Yi 1 2 X i ui
lnYi 1 2 ln X i ui
Yi 1 2 X i 3 X i ui
2
Yi 1 2 ln X i ui
到底是哪一种,可能我们并不是十分清楚,借助于 经济理论,散点图会有助于我们的分析
第2章 双变量回归分析: 一些基本概念
回归分析是要根据解释变量的已知或给定值, 去估计或预测因变量的总体均值 假如我们要研究每周家庭消费支出Y与每周 可支配的家庭收入X之间的关系
假设这个国家的家体的总体由60户家庭组成。 可以按收入的高低把这60户家庭分组,每一组的 组内收入相差不大。假定我们得到的观察值如表 2.1所示
比如,给定X=80
1 1 1 1 1 E (Y | X 80) 55 60 65 70 75 65 5 5 5 5 5
可以由表 2.1绘制如 右图的散点 图
返回
散点图表明对应于各个X值的Y的条件分布,它表 明随着收入的增加,消费支出平均地说也在增加。 Y的条件均值随X增加而增加。图中的粗圆点(大 的黑点)表示Y的各个条件均值 Y的条件均值落在一条正斜率的直线上,这条线叫 总体回归线(population regression line or curve),它 代表Y对X的回归 从几何意义上讲,总体回归曲线就是,当解释变 量取给定值时,因变量的条件均值或条件期望的轨迹
糟糕的替代变量(poor proxy variables):举个例子 Milton Friedman(弗里德曼)的消费函数理论把 永久消费(YP)(permanent consumption)看作是永 久收入(XP)(permanent income)的函数 “永久消费”和“永久收入”是两个抽象的概念, 不可以观测,实际上,只能用可以观测到的当前消费 Y ( current consumption ) 和 当 前 收 入 X ( current income),或者n个时期的平均值去替代。这便有个 测量误差。∴干扰项ui也用来代表测量误差 节省原则: 做回归模型,在许可的范围内尽量节省——减少 变量的个数。这也有个“投入产出”的问题。当然, 不能为了简单而省去有关的和重要的变量