当前位置:
文档之家› 第五讲 统计检验(2)与预测
第五讲 统计检验(2)与预测
二、变量的显著性检验
从拟合优度中看出,拟合优度越高,就说明样本 回归线对观测值的拟合就越好,但这只是推测,被 解释变量与解释变量之间的线性关系是否显著,或 者解释变量对被解释变量是否有显著的线性影响, 需要我们去研究,这就是变量的显著性检验。
回归分析中,主要是针对变量X前的参 数真值是否为零来检验。
2
,则在显著性水平
下拒绝原假设 H0 : k 0 ,即认为 X 对 Y 有显著影响 ►若
p
2
,则在显著性水平
下不拒绝原假设 H0 : k 0 ,即认为 X 对 Y 没有显著
影响
规则:当 p 时,P值越小,越能拒绝原假设 H 0
12
对于一元线性回归方程中的0,可构造如下t 统计量进行显著性检验:
(较复杂不具体证明)
ˆ 2 ei2 (n 2)代替 2时,对 e F标准化的变量 t 当用 为
t
eF E (eF ) SE (eF)
^
ˆF YF Y
1 ( X F X )2 ˆ 1 2 n x i
~ t (n 2)
23
构建个别值的预测区间
给定显著性水平 ,查 t 分布表得自由度为n—2 的临界值 t 2 (n 2) ,则有
2
26
若对于前面的例子,我们得到了总体均值 E Y X 1000 的95%的置信区间为
533.05,814.62
如何解释?
给定 X 0 1000 在重复抽样中,每100个类似于(533.05,814.62) 的区间将有95个包含着真实的均值。 如果我们对每一个X值求类似于(533.05,814.62) 的95%的 置信区间,把这些区间的端点连接起来,我们就得到如图 所展示的一个关于总体回归函数的置信带。 同样我们也可得到Y的个别值在 X 1000的95%的置信区间为 (372.03,975.65) 如果我们对每一个X值求类似于(372.03,975.65)的95%的置 信区间,把这些区间的端点连接起来,我们就得到如图所 展示的一个关于Y的个别值的置信带。
预测值、平均值、个别值的关系
SRF
点预测值
PRF
真实平均值 E YF X F
个别值
F
XF
YF
eF
ˆ 是真实平均值预测值的点估计,也是个别值预测本思想:
ˆ 值不一定等于真实总 由于存在抽样波动,预测的 Y F 体条件均值 E YF X F 。 ˆ 和 E YF X F 都有关的统计量 必须找出与 Y F
2
^
~ t (n 2)
给定 , 查 t 分布表得 ▼如果 t * t (n 2)
2
t (n 2)
则拒绝原假设 H 0 : 2 0 ▼如果 t * t (n 2)
2
则不拒绝原假设 H0 : 2 0
检验步骤:
(1)对总体参数提出假设 H0: 1=0, H1:10
P(t 2 t t 2 ) 1
P(t 2 t
^
ˆ E (Y X ) Y F F F ˆ ) SE(Y F
^
t 2 ) 1
^
ˆ F t SE(Y ˆ F )] E(Y X ) [Y ˆ F t SE(Y ˆ F )]} 1 p{[Y 2 F F 2
ˆ 的分布分析 具体做法:从 Y
F
ˆ ˆX ˆ Y F 0 1 F
ˆ ˆ X ) E( ˆ ) X E( ˆ ) X ˆ ) E( E(Y F 0 1 F 0 F 1 0 1 F
ˆ Var Y F
1 X X 2 F 2 2 xi n
相对于显著性水平 的临界值为: 计算的统计量为:
t (单侧)或 t 2(双侧)
t
*
(小概率事件) (大概率事件)
1
t 2
0
t
*
t 2
统计量 t
6
2、变量的显著性检验
确立假设:原假设为
备择假设为
H 0 : 1 0
H1 : 1 0
(本质:检验 1 是否为0,即检验 X i 是否对Y有显著影响)
回归分析结果的报告
经过模型的估计、检验,得到一系列重要的数 据,为了简明、清晰、规范的表述这些数据,计量 经济学通常采用以下规范化的方式:
ˆ 103.172 0.777 X Y i i t
2
估计的样本回归函数 标准误差SE 估计的t统计量
98.41 0.0425 1.048 18.29
平均值的预测区间
于是,在1-的置信度下,总体均值 EYF X F 的置信区间为
2 2 ( X X ) ( X X ) 1 1 F F ˆF t ˆF t ˆ ˆ [Y , Y ] 2 2 2 2 n n xi xi
个别预测值的置信区间
基本思想:
1、假设检验 I. II. 先根据实际问题的要求提出一个论断, 称为原假设, 然后根据样本信息,看能得到什么结 果,如果导致一个不合理的结果,拒 绝原假设。
III.
判断结果合理与否,是基于“小概 率事件不易发生”这一原理的。
注意这里的“接受和拒绝”
基本概念回顾: 临界值与概率、大概率事件与小概率事件
0
Yˆ ~ N (
F
X ,
1 F
2
(
1 n
(X
0
X )2
)) x
2 i
E YF
t
ˆ X Y F 0 1 F ˆ 1 XF X 2 n x i
2
t n 2
给定显著性水平α,查 t 分布表,得自由度n-2的临界值,则有
25
(2)平均值和个别值预测区间都不是常数, 是随 X F 的变化而变化的,当 X F X 时,预测区间最小。 (3)预测区间上下限与样本容量有关,当样本容量 n→∞时,个别值的预测区间只决定于随机扰 动的方差。
预测区间
1 (XF X ) ˆ ˆ 1 YF Y F t 2 2 n xi
当 2 未知,且样本容量较小时
只能用 ˆ
2
2 去代替 ,可利用 t分布作 t 检验:
t
*
ˆ 2 2 ˆ) SE ( 2
^
ˆ 2 ˆ) SE ( 2
^
~ t (n 2)
t
*
ˆ 2 2 ˆ) SE ( 2
^
ˆ 2 ˆ) SE ( 2
ˆ F t SE(e )] Y [Y ˆ F t SE(e )]} 1 P{[Y 2 F F 2 F
因此,一元回归时Y的个别值的置信度为 1 的预测区间 上下限为
2 ( X X ) 1 ˆ ˆ 1 F 2 YF Y F t 2 n xi
(2)以原假设H0构造t统计量,并由样本计算其值
t*
ˆ 0 1 S ˆ
1
(3)给定显著性水平,查t分布表,得临界值t /2(n-2)
(4) 比较,判断
注意1:
一个“大”的 t
注意2:
是与原假设相抵触的迹象。
观察t分布表,当自由度为20或更大时,计算的t值 如果是2.5或3或更大,则我们就不需要再查阅t分 布表以评定所估的参数的显著性,它必定是要拒 绝原假设,即该变量通过了显著性检验。 当自由度小于20时,我们要查阅t分布表。
2.4 一元线性回归模型的统计检验 2.5 一元线性回归分析的应用:预测问题
一、参数的区间估计 一、拟合优度检验 二、拟合优度检验 三、变量的显著性检验 三、参数的置信区间估计
二、变量的显著性检验
三、参数的置信区间估计
ˆ ˆ 1 P 1 1 1
ˆ t 1 1 : t n 2 ˆ se 1
^
^
被解释变量Y区间预测的特点
(1)Y平均值的预测值与真实平均值有误差,主要
是受抽样波动影响
预测区间
2 ( X X ) 1 F ˆF t ˆ YF Y 2 2 n x i
Y个别值的预测值与真实个别值的差异,不仅受抽 样波动影响,而且还受随机扰动项的影响 预测区间
2 ( X X ) 1 F ˆF t ˆ YF Y 1 2 2 n x i
R 0.9766 df 8 可决系数和自由度 F 2859 DW 1.85 F统计量 DW统计量
2.5 一元线性回归分析的应用:预测问题
计量经济预测是一种条件预测:
模型设定的关系式不变 所估计的参数不变 解释变量在预测期的取值已作出预测
预测的类型
对被解释变量的预测分为:平均值和个别值预测 对被解释变量的预测又分为点预测和区间预测
显著性水平 —
犯第一类错误的概率——拒绝了真值的假设的概率 经典假设检验方法的痛处 —选择 的武断
用 P 值判断参数的显著性
假设检验的 p 值:
p 值是基于既定的样本数据所计算的统计量,拒绝 原假设的最低显著性水平。 统计分析软件中通常都给出了检验的 p 值
相对于显著性水平 计算的统计量:
t ˆ
2
X
2 i
ˆ 0 0
2 i
n x
2 i
ˆ 0 S ˆ
0
~ t (n 2)
在上述收入-消费支出例中,首先计算2的估计值
ˆ
2
e
2 i
n2
y
n2
ˆ 2 x2 1 i
3354955 0.6702 7425000 2734 10 2