一元线性回归模型的统计检验
3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
注意英文缩写的含义
TSS: Total Sum of Squares / 总离差平方和
t0 2.306,说明在5%的显著性水平下,无法拒 绝截距为零的假设。
假设检验的p值:
p值是拒绝原假设的最低显著性水平,是基于既定 的样本数据所计算的统计量而算出的。
统计分析软件中通常都给出了检验的p值。 以t检验的双侧检验为例来说明。
显著性水平为时的临界值:t 2
由样本计算出的统计量为:t*
P t t 2
度量不含因果关系的对 称相关关系
取值:[-1,1]
二、变量的显著性检验
1.什么是变量的显著性检验
变量的显著性检验是对模型中被解释变量与某个 解释变量之间的线性关系在总体上是否显著成立作 出判断,或者说考察所选择的解释变量是否对被解 释变量有显著的线性影响。
在一元线性模型中,就是要判断X是否对Y具有 显著的线性影响。
(1)假设检验
所谓假设检验,就是事先对总体参数提出一个 假设,然后利用样本信息来判断这个假设是否合 理,从而决定是接受或否定这个假设。
假设检验采用的是具有概率性质的反证法。先 假定原假设正确,然后根据样本信息,观察由此 假设而导致的结果是否合理,从而判断是否接受 原假设。判断结果合理与否,依据是小概率事件 原理。
ei2 (n 2)替代时,可构造如下统计量
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
Sˆ1
检验步骤: (1)对总体参数提出假设
H0 : 1 0
H1 : 1 0
(2)以原假设H0构造t统计量,并由样本计算其值
t ˆ1
S ˆ1
(3)给定显著性水平,查t分布表,得临界值t (n 2)
yˆi Yˆi Y 是样本回归拟合值与观测值的平均值之
差,可认为是由回归直线解释的部分;
ei Yi Yˆi 是实际观测值与回归拟合值之差,是
回归直线不能解释的部分。
对于所有样本点, 我们
yi2 yˆi2 ei2 2 yˆiei yˆiei (ˆ1xi )ei ˆ1(Xi X )ei 0
ˆ 2 ei2 yi2 ˆ12 xi2 4590020 0.7772 7425000 13402
n2
n2
10 2
于是ˆ1、ˆ0的标准差的估计值分别是:
Sˆ1 ˆ 2 xi2 13402 / 7425000 0.0018 0.0425
Sˆ0 ˆ 2
X
2 i
n
xi2 1340253650000 /10 7425000 98.41
第三节 一元线性回归模型的统计检验
• 拟合优度检验 • 变量的显著性检验 • 回归系数的置信区间
一、拟合优度检验
1.什么是拟合优度检验 拟合优度检验:对样本回归线与样本观测值 之间拟合优劣程度的检验。
2.为什么要进行拟合优度检验
(a)拟合得好,(b)拟合得差,同样使残差平方 和达到最小,拟合得好坏却不一样,所以必须进行 拟合优度检验。
计量经济学中,主要是针对变量的参数真值是 否为零来进行变量的显著性检验的。
2.为什么要对变量进行显著性检验
所估计的回归系数ˆ0、ˆ1是通过样本估计的,
都是随抽样而变动的随机变量,它们是否可靠, 是否是抽样的偶然结果,还需要加以检验。
3. 如何进行变量的显著性检验
变量的显著性检验所应用的方法是数理统计学中 的假设检验。
RSS: Regression Sum of Squares / 回归平方和 Residual Sum of Squares / 残差平方和
ESS: Error Sum of Squares / 误差平方和(残差平方和) Explained Sum of Squares / 解释平方和(回归平方和)
(2)样本可决系数
定义:回归平方和在总离差平方和中所占的比 重称为样本可决系数/判定系数,用r2表示:
r2 RSS 1 ESS TSS TSS
yˆi2 yi2
1
ei2 yi2
样本可决系数的取值范围:[0,1]
r2越接近1,说明实际观测点离样本线越近,拟 合优度越高。
实际计算样本可决系数时,在ˆ1已经估计出
P t t* p
注意: t检验是比较t*和t 2
p值检验是比较p和
用p值判断参数的显著性检验的方法:
(1)若p < α,则在显著性水平下拒绝原假设 H0 : 1 0,即认为X 对Y有显著性影响;
(2)若p > α,则在显著性水平下接受原假设 H0 : 1 0,即认为X 对Y没有显著性影响;
所以有
yi2 yˆi2 ei2
记 TSS yi2 (Yi Y )2 总离差平方和(Total
Sum of Squares)
RSS yˆi2 (Yˆi Y )2 回归平方和(Regression
Sum of Squares)
ESS ei2 (Yi Yˆi )2
残差平方和( Error Sum of Squares )
r2
yˆi2 yi2
ˆ12
xi2 yi2
( (
xi yi )2 xi2 )2
xi2 yi2
( xi yi )2 r2 ( xi2 )( yi2 )
区别:
可决系数
相关系数
就模型而言
就两个变量而言
说明解释变量对因变量 的解释程度 度量不对称的因果关系
取值:[0,1]
度量两个变量线性依存 程度
2
(4)比较,判断
若 t t (n 2),则拒绝H0,接受H1;
2
若 t t (n 2),则拒绝H1,接受H0.
2
对常数项0的显著性检验与此类似。检验时用的
统计量为:
t
ˆ0 0
ˆ0 0 ~ t(n 2)
ˆ 2
X
2 i
n
xi2
Sˆ0
在上述收入——消费支出例子中,首先计算 2的
估计值:
t统计量的计算结果分别为:
t1 ˆ1 Sˆ1 0.777 / 0.0425 18.29 t0 ˆ0 Sˆ0 103.17 / 98.41 1.048 给定显著性水平 0.05,查t分布表得临界值
t0.025 (8) 2.306
t1 2.306,说明家庭可支配收入在5%的显著性 水平下显著,即通过了变量的显著性检验;
rXY
n
( Xi X )(Yi Y )
i 1
n
n
( Xi X )2 (Yi Y )2
i 1
i 1
n
xi yi
i 1
n
n
xi2 yi2
i1 i1
其中X 和Y 分别是变量X与Y的样本均值。 r的取值范围是:[-1,1]
(4)样本可决系数与样本相关系数的关系 联系:
在数值上, 一元线性回归模型的样本可决系 数等于被解释变量与解释变量之间样本相关系数 的平方:
得临界值t 2 (n 2),t值落在(t 2,t 2 )的概率是
1 ,即
P t 2 t t 2 1
将t统计量值代入得
P t
2
ˆi i
Sˆi
t
2
1
整理得
P ˆi t 2 Sˆi i ˆi t 2 Sˆi 1
于是得到1 的置信度下i的置信区间为:
(ˆi t 2 Sˆi , ˆi t 2 Sˆi )
后,一个较为简单的计算公式为:
r2
yˆi2 yi2
(ˆ1xi )2
yi2
ˆ12
xi2 yi2
在例2.1的收入-消费支出例子中,
r2 ˆ12
xi2 yi2
(0.777)2 7425000 4590020
0.9766
(3)样本相关系数
定义:样本相关系数是变量X与Y之间线性相关程 度的度量指标。其计算公式为: