计量经济学4_一元线性回归
min m ∑ (Yi − m )
i =1
n
2
∑ (Y − b
i =1 i
n
0
− bi X i ) 2
4.6
称最小化 4.6 式中误差平方和的截距和斜率估计量为β0 和β1 的普通最小二乘(OLS)估计量。
7 8
OLS估计量、预测值和残值
斜率β1和截距β 0的OLS估计量分别为 ˆ β1 =
OLS预测值和残值
TestScore = 698.9 – 2.28×STR
ˆ YAntelope = 698.9 – 2.28×19.33 = 654.8
ˆ u Antelope = 657.8 – 654.8 = 3.0
13 14
拟合优度( Measures of Fit )
所得到的回归线描述数据的效果如何评价? 回归变量说明了大部分还是极少部分的因变量变化? 观测值是紧密地聚集在回归线周围还是很分散? • 回归的 R2 是指可由 Xi 解释(或预测)的 Yi 样本方差的 比例。回归的 R2 的取值范围为 0 到 1.
——普通最小二乘估计量
前面讨论过,Y 是总体均值μY 的 最小二乘估计量,即在所有 可能的估计量 m 中, Y 使估计误差总平方和最小:
将 OLS 估计量这种思想应用于线性回归模型。令 b0 和 b1 分 别表示β0 和β1 的某个估计量,则基于这些估计量的回归线 为:b0+b1X,于是由这条线得到 Yi 的预测值为:b0+b1Xi。 因而,第 i 个观测的观测误差为:Yi-b0-biXi,n 个观测的观测 误差平方和为:
Yi = β0 + β1Xi + ui, i = 1,…, n 不太可能出现大异常值 Xi 和(或)Yi 的观测中远落在一般数据范围 之外的大异常值是不大可能出现的。 • 表述为:X 和 Y 具有非零有限四阶距: 即 0 < E ( X ) < ∞, 0 < E (Y ) < ∞ • 或表述为:X 和 Y 具有有限峰度。 • 该假设说明 OLS 对异常值是很敏感 的。
•
实践中,出现异常值的一种可能是数据登录错误。画数 据散点图是简单有效的检查方法。
27 28
线性回归分析的概率框架模型
总体
所关注对象的集合 (例如: 所有可能的学区)
一元线性回归 Chapter 4
Linear Regression with One Regressor 一元线性回归
一元线性回归使我们可以估计、推断总体回归 线的斜率系数。我们的最终目标是估计自变量 X发生一个单位的变化, 会导致因变量Y发生多 少的变化。 • 为使问题简化,下面我们分析只有两个变量的 Y和X之间为线性关系的情形。
对于数据中的 Antelope 学区,其 STR = 19.33,与之相应的 Test Score = 657.8,则 Antelope 学区的 成绩预测值: 残差:
------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------
4 i 4 i
25
26
出现异常值情况举例
OLS估计量的抽样分布
ˆ ˆ OLS 估计量 β 0和β1 是由随机抽取的样本计算得到的,抽取的 ˆ ˆ 样本不同,得到的 β 0和β1 的取值也不同。这些估计量本身就
是随机变量,具有描述在不同可能随机样本中取值情况的概 率分布,即抽样分布。
• 图中孤立点表明 X 和 Y 哪个取值异常?
β1 = 总体回归线的斜率
=
• •
假设检验
•
ΔTest score ΔSTR = STR 变化一单位导致 test score 发生的变动
2. 我们希望知道总体参数β1 的具体数值。 3. 然而,我们并不知道 β的数值是多少,因此要根
1. 为何β0 和β1 被称为总体参数?
置信区间
•
据数据对它进行估计。
(regressand)或左边变量。
• β0 :总体回归的截距(intercept) • β1 :总体回归的斜率(slope) • ui :误差项(error item)
•
误差项构可能因遗漏因素或 Y 的测量误差引起。遗漏因 素指那些除了变量 X 之外的能够对 Y 产生影响的因素。
5 6
1
如何利用数据估计 β0 和 β1 ?
22
随机对照试验中u的条件均值
在随机对照试验中,试验对象被随机分配 到处理组(X=1)或者对照组(X=0)中。 其中随 机分配通常采用与试验对象无关的计算机 程序进行,这样就能确保 X 的分布与试验 对象的所有个体特征独立。 随机分配使 X 和 u 相互独立,这就意味着 给定 X 时,u 的条件均值为零。
3 4
一元线性回归模型的术语
Yi = β0 + β1Xi + ui, i = 1,…, n • X 是自变量(independent variable)或回归变量
7个学区的假想观测值 Yi = β0 + β1X为总体回归线 ui为第i个观测的总体误差项
( regressor)或右边变量。
• Y 是因变量(dependent variable)从属变量
ˆ ˆ β 0 = Y − β1 X
4.8
β 0、β1和ui 真值的估计。
9
10
例:测试成绩和学生/教师比关系的 OLS估计值
截距和斜率估计值的经济含义
TestScore = 698.9 – 2.28×STR
• -2.28 表示:每个教师对应的学生人数增加 1 时,学区测 试成绩平均下降 2.28 分。 ΔTest score • 即, = –2.28 ΔSTR
ˆ ˆ OLS 预测值Yi 和残差ui分别为: ˆ ˆ ˆ Y = β + β X , i = 1, 2, n
i 0 1 i
∑(X
i =1 n i =1
n
4.9 4.10
i
− X )(Yi − Y )
i
∑(X
=
− X )2
s XY 2 sX
4.7
ˆ ˆ ui = β1i − Yi ˆ ˆ ˆ 估计的截距β 0和β1和残差ui 是 利用X i 和Yi , i = 1, 2 n的n组样本观测值 计算得到的。它们分别是未知总体截距
从 R = 0.05 看,STR 仅仅揭示了测试成绩变动中的一小部 分 。这个结论有意义么?是否可以认为 STR 在政策制定中 不重要呢?
19 20
2
最小二乘假设之1
Yi = β0 + β1Xi + ui, i = 1,…, n 零条件均值 给定 Xi 时,ui,的条件分布均值为零。该假设是关于包 含在 ui 中的“其他因素”的规范数学表示,表明在 Xi 取值给定时,其他因素分布均值为零,也就是说, ˆ 这些“其他因素”与 Xi 无关。这意味着 β1 是无偏
SER =
1 n 2 ˆ ∑ ui n − 2 i =1
度量的观测值在回归线附近的离散程度。
SER =
•
除以 n–2 是进行自由度修正。类似于计算样本方差的公式 中除以 n–1,是由于计算时用到一个参数的估计量 (, 用Y 估计μY)。在计算回归标准误差的时候,用到两个参数的估 ˆ ˆ 计量(用 β 和 β 估计β0 ,β1)。
ESS TSS − SSR SSR = = 1− TSS TSS TSS • R2 = 0 表示 ESS = 0 R2 =
• R2 = 1 表示 ESS = TSS • 0 ≤ R2 ≤ 1
•
回归标准误差(standard error of the regression ,SER) 是回归误差 ui 的标准差估计量。
23
相关系数和条件均值
给定一个变量时另一个变量的条件期望为零, 则这两个变量的协方差为零。因此, 条件均值 假设 E(ui|Xi)=0,意味着 ui 和 Xi 不相关,或 corr(Xi ,ui)=0. 由于相关系数是线性关系的度量, ,上述结论 反过来不成立;即使 ui 和 Xi 不相关,给定 Xi 时,ui 的条件均值也可能不为零。但是如果 ui 和 Xi 相关,则 E(ui|Xi)必定不为零。
24
4
最小二乘假设之2
Yi = β0 + β1Xi + ui, i = 1,…, n (Xi,Yi), i =1,…,n,的观测独立同分布 (iid).(随机抽样) • 这是关于如何抽样的表述。 • 如果观测是从单个较大总体中通过 简单随机抽样得到的,则(Xi,Yi)独立 同分布。
最小二乘假设之3
• 698.9 表示:对于这个回归线,每个教师对应 0 个学生的
ˆ β1 = – 2.28 ˆ β 0 = 698.9
TestScore = 698.9 – 2.28×STR
11
学区,预计测试成绩为 698.9 分。
•
注意:截距的取值STATA做OLS回归
输入命令:regress testscr str, robust 命令的含义 Regression with robust standard errors Number of obs F( 1, 418) Prob > F R-squared Root MSE = = = = = 420 19.26 0.0000 0.0512 18.581