多元线性回归模型(5)
回归平方和的自由度=模型中偏斜率系数的个数 残差平方和的自由度=n-待估计的(结构)参数的个数 总体平方和的自由度=回归平方和的自由度+残差平方和的自由度=n-1
35
调整的可决系数(adjusted coefficient of determination)
在样本容量一定的情况下,增加解释变量必定 使得自由度减少,所以调整的思路是:将残差平方 和与总离差平方和分别除以各自的自由度,以剔 除变量个数对拟合优度的影响:
TSS
TSS
该统计量越接近于1,模型的拟合优度越高。
问题:在应用过程中发现,如果在模型中增 加一个解释变量, R2往往增大(Why?)。这是 因为残差平方和往往随着解释变量个数的增加 而减少,至少不会增加。
34
这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即 可。—— 但是,我们不能这样做。这是因为,在R2的定义中 R2=ESS/TSS并没有考虑到自由度。 因此,比较相同被解释变量,但不同个数解释变量的两个回归模 型的R2,就像是拿苹果和桔子比较(不具有可比性)。校正(或 调整)后的判定系数可以对相同被解释变量、不同解释变量(个 数不同)的两个回归模型进行比较。
中的参数j是否显著不为0。
42
可提出如下原假设与备择假设:
H0: 0=1=2= =k=0 H1: j不全为0
F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS
由于回归平方和 ESS yˆi2 是解释变量 X的联合体对被解
释变量 Y 的线性作用的结果,考虑比值
ESS / RSS
21
22
EVIEWS演示过程:
23
24
25
26
27
28
四、参数估计量的性质
在满足基本假设的情况下,其结构参数 的普通最小二乘估计量“尖”仍具有:
线性性、无偏性、有效性。
同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。
29
§3.3 多元线性回归模型的统计检验
解释:因为给定一个具体的样本,就能求 出一个特定的估计值。再换过一个样本, 又可以求出不同的估计值。所以参数的估 计量取值随着样本的改变而改变。 既然是随机变量,就可以求方差。
17
三变量模型OLS估计量方差的代数公式(教材P157)
var
ˆ1
1
n
X
2 2
x32i
X
2 3
x22i
x22i 2 X 2 X 3 x32i x2i x3i
x2i
2
x3i
2
var ˆ2
x22i
x32i x32i
22
x2i x3i
var ˆ3
x22i
x22i x32i
22
x2i x3i
18
总体回归模型的随机误差项是一个随机变量,
既然是随机变量,就可以求方差。
4
j也被称为偏回归系数,表示在其他解释变
量保持不变的情况下,X j每变化1个单位时,Y的 均值E(Y)的变化;
或者说j给出了X j的单位变化对Y均值的“直
接”或“净”(不含其他变量)影响。
用来估计总体回归函数的样本回归函数为:
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
初学者只需先掌握含两个解释变量的多元回归模型(以避免复 杂的矩阵代数运算),以下的分析都建立在以2个解释变量为 前提的多元回归模型基础上。
13
三变量模型回归系数的OLS估计量(教材P156)
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x2i yi x32i x3i yi x2i x3i
E(i ) 0 i j i, j 1,2,, n
Var(i
)
E(
2 i
)
2
Cov(i , j ) E(i j ) 0
7
假设3,解释变量与随机项不相关
Cov( X ji , i ) 0 j 1,2, k
如果X是非随机机的(即为固定值),则该假设自动满 足。因为一个固定值与一个随机变量之间当然不相关。
假设4,随机项满足正态分布
i ~ N (0, 2 )
推导:误差项代表了没有纳入回归模型的其他所有影响因素。 因为这些影响因素中,每种因素对Y的影响都很微弱。如果所 有这些影响因素都是随机的,并用μ代表所有这些影响因素之 和,那么根据中心极限定理,可以假设误差项服从正态分布
8
§3.2 多元线性回归模型的估计
44
(即斜率加上常数项)
服从自由度为(k , n-k-1)的F分布。
给定显著性水平,可得到临界值F(k,n-k-1), 由样本求出统计量F的数值,通过
F F(k,n-k-1) 或 F≤F(k,n-k-1) 来拒绝或接受原假设H0,以判定原方程总体上 的线性关系是否显著成立。
注意:此处的k表示模型中偏斜率系数的个数
2. 未校正的判定系数总为正,但校正后的判定系数可以为负数。
37
EVIEWS演示过程:
38
39
40
41
二、方程的显著性检验(F检验)
方程的显著性检验,旨在对模型中被解释变量 与解释变量之间的线性关系在总体上是否显著成 立作出推断。
1、方程显著性的F检验
即检验模型
Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n
一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间
30
一、拟合优度检验
1、可决系数与调整的可决系数 总离差平方和的分解
TSS (Yi Yˆi )2
(Yˆi
2
Y)
RSS
ESS
31
Y
离差分解示意图
32
1.什么是传统机械按键设计?
传统的机械按键设计是需要手动按压按键触动PCBA上的 开关按键来实现功能的一种设计方式。
将随机误差项的方差记为2
2客观存在,但往往未知。只能对其进行估计。
19
随机误差项的方差2的估计
2 表示总体误差项 的
方差,这个未知方差的
OLS估计量是:
2
et 2
n3
其中
et 2 yt 2 2 yt x2t 3 yt x3t
20
实例
美国1980-1995年(非农业未偿还)抵押贷款数额Y(亿美元)、 个人收入X2(亿美元)、新住宅抵押贷款费用X3 (%). 利用以下样本数据对多元线性回归模型进行估计。
yˆ
2 i
ei2
43
如果这个比值较大,则X的联合体对Y的解释 程度高,可认为总体存在线性关系,反之总体上 可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进 行推断。
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
F ESS / k RSS /(n k 1)
注意:此处的k表示模型中偏斜率系数的个数,即F值的 分子自由度;分母自由度等于n减去估计参数的个数
45
46
给定显著性水平0.05,可得到临界 值F0.05(2,13)=3.81.
由样本求出统计量F的数值为608.8292> 3.81,所以拒绝原假设H0,即认为抵押贷款 债务与个人收入和抵押贷款费用之间总体上 存在线性关系
5
其随机表示式: Yi ˆ0 ˆ1X1i ˆ2 X 2i ˆki X ki ei
ei称为残差或剩余项(residuals),可看成是
总体回归模型中随机扰动项i的近似替代。
6
二、多元线性回归模型的基本假定
(注意和一元线性回归模型的基本假定相比较)
假设1,解释变量是非随机的或固定的,且各X之间不存在完全共线性 (即无多重共线性,或解释变量之间不完全线性相关)(注:这一假设 只有在多元线性回归模型的基本假定中才有,而在一元线性回归模型中 没有,为什么?)。 假设2,随机误差项具有零均值、同方差及不序列相关性。
一般表现形式:
Yi 0 1X1i 2 X 2i k X ki i i=1,2…,n
其中:k为解释变量的数目,j称为回归参数
(regression coefficient)。
3
习惯上:把常数项看成为一虚变量的系 数,该虚变量的样本观测值始终取1。于是: 模型中解释变量的数目为(k+1)
k。12注源自意 (特别重要)《经济计量学精要》(古亚拉提 著)将多元回归分析中的解 释变量限定在2个(该类多元回归模型也称为三变量模型)。 但实际中的多元回归模型的解释变量往往多于2个(有3个或3 个以上),那么估计公式会更复杂。在这种情况下,必须使用 矩阵代数知识。当然,本书没有使用矩阵代数知识。不过现在 很少有人手工计算了,还是让计算机做这些复杂的工作吧。
Yi 0 1 X1i 2 X 2i k X ki i
也被称为总体回归函数的随机表达形式。它 的 非随机(即确定)表达式为:
E(Yi | X1i , X 2i , X ki ) 0 1 X1i 2 X 2i k X ki
表示:各变量X值固定(即给定)时Y的平均响 应(即均值)。
X 2i
ˆ k
ˆ k
X
ki
ˆ k
X
ki
X ki ) ) X1i ) X 2i
SYi SYi X1i SYi X2i
S(ˆ0
ˆ 1
X1i
ˆ 2
X
2i
ˆ k
X ki ) X ki
SYi
X ki
解该(k+1)个方程组成的线性代数方程组,即
可得到(k+1) 个待估参数的估计值
$ j
,
j
0,1,2,,
方程组的 解
ˆ