当前位置:文档之家› 一元线性回归分析

一元线性回归分析


(ˆ0 t (n 2) Sˆ0 )
2
1的置信水平为1-区间估计为
(ˆ1 t (n 2) Sˆ1 )
2
回归分析的Excel实现
“工具”->“数据分析”->“回归”
ˆ0
S ˆ0
ˆ1
S ˆ1
(ˆ0 t (n 2) Sˆ0 )
2
(ˆ1 t (n 2) Sˆ1 )

0
n

2 t1 Xt (Yt ˆ0 ˆ1 Xt ) 0


nˆ0

n
ˆ1
t 1
Xt
n
Yt
t 1
n
n
n


ˆ0
t 1
Xt
ˆ1
t 1
X
2 t

t 1
X tYt
n
n
n
n
n XtYt Xt Yt
( X t X )(Yt Y )
Yˆt ˆ0 ˆ1 Xt
残差平方和:
n
n
n
Q et2 (Yt Yˆt )2 (Yt ˆ0 ˆ1Xt )2
t 1
t 1
t 1
Q

ˆ0
Q
ˆ1

0 0

2
n t 1
(Yt

ˆ0

ˆ1 X t
)
907717
Xt×Yt 440 720 720 1312 8170 2112 2100 2832
11154 6678 2739 4496 2240 1323 1890 600
49526
n
n
n
n XtYt Xt Yt
ˆ1
t 1
t 1
t 1
n
n
X
2 t


n
2 Xt
t 1
n
(Yˆt Y )2 :回归平方和,记为SSR;
t 1
n
n
(Yt Yˆt )2 : 残差平法和,即 et2,记为SSE;
t 1
t 1
SST SSR SSE
决定系数 r2 SSR 1 SSE
SST
SST
修正自由度的决定系数R2 1 SSE / (n 2) SST / (n 1)
均方差 SSR/1 SSE/n-2
F
SSR / 1 SSE / n 2
可以证明:SSR
2
~

2 (1),
SSE
2
~
2(n 2)
所以 F SSR / 1 ~ F (1,n 2) SSE / n 2
H0 :回归方程不显著, H1 :回归方程显著 如果回归方程显著,意味着SSE应该比较小,所以F 值应该比较大,所以当F F (1,n 2)时,拒绝原假
(2) Cov(utus ) 0, (t, s 1,2,3,L , n; t s)
由上知:
E(Yt )
Yt
。 ut


。。
X
参数0和1的点估计
X1 X2 …… X t …… X n Y1 Y2 …… Yt …… Yn
最小二乘法: 通过使得残差平方和 (各样本点与拟合直 线的纵向距离的平方 和)为最小来估计回 归系数的一种方法。
其中:Sef S
1 1 n
( X f X )2
n
( Xt X )2
t 1
Yf的置信水平为1-的置信区间为(Yˆf t (n - 2) Sef )
2
续例:假定一种新型点心中含有10克脂肪,利用样本 的回归方程和相关数据,计算置信度为95%的热量的 预测区间.
预测值为:Yˆf 36.0725 15.2584Xt 188.6565 置信度:1- =95% 0.05
由回归系数的期望与方差,有
E(e f ) 0


Var(e f

) 21

1 n
( X f X )2
n
( Xt X )2
t 1

区间预测: 在标准假设条件下,e f ~ N (0, Var(e f ))
可以证明:Yf Yˆf ~ t(n 2) Se f
t 1
参数0和1的区间估计
根据误差项的基本标准假定
(1) ut ~ N (0, 2 ), (t 1,2,3,L n) E(ut ) 0, Var(ut ) 2.
(2) Cov(utus ) 0, (t, s 1,2,3,L , n; t s)
可以证明
ˆ0
~
N
(
设,认为回归方程显著(为显著性水平)。
P值是由检验统计量的样本观察值得出的原假设可被 拒绝的最小显著性水平。 P值越小(P值小于显著性水平α),越拒绝原假设。
回归方程的显著性检验过程
(1) H0 :回归方程不显著, H1 :回归方程显著
(2) 给定显著性水平 .
(3)检验统计量 F SSR / 1 ~ F (1,n 2) SSE / n 2
et Yt Yˆt称为残差,与总体的误差项ut对应,n为样 本的容量。
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。样本回归线是根据样本数 据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
2、总体回归函数中的β0和β1是未知的参数,表现为常数。而样
本回归函数中的 ˆ0和是ˆ1 随机变量,其具体数值随所抽取
3461
Xt平方 16 36 36 64 361 121 144 144 676 441 121 256 196 81 81 25
2799
Yt平方 12100 14400 14400 26896 184900 36864 30625 55696 184041 101124 62001 78961 25600 21609 44100 14400
拟合程度评价
拟合程度是指样本观测值聚集在样本回归线周围的紧
密程度. (Yt Y ) (Yˆt Y ) (Yt Yˆt )
n
n
n
(Yt Y )2 (Yˆt Y )2 (Yt Yˆ )2
t 1
t 1
t 1
n
(Yt Y )2 : 总离差平方和,记为SST;
S 44.0632
Sef S
1 1 n
( X f X )2
n
45.543
( Xt X )2
t 1
所求置信区间为:(188.6565 97.6806)
回归分析的SPSS实现
“Analyze->Regression->Linear”
t 1
t 1
最小二乘估计的性质
E(ˆ0 ) 0 , E(ˆ1) 1, 即ˆ0和ˆ1分别为0和1的无偏估计


Var(ˆ0 )


2
ˆ0

2

1 n


X
n
(X t
2

X
)2


t 1

Var ( ˆ1 )


2
ˆ1

2
n
(Xt X )2
回归分析的分类
一个自变量
一元回归
回归分析
两个及以上自变量
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
一元线性回归模型
(一)总体回归函数
Yt=0+1 X t+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的 随机变量,反映未列入方程式的其他各种因素对Y的 影响。
(二)样本回归函数
Yˆt ˆ0 ˆ1 Xt (t 1, 2, 3,L , n)
et2
S 2 t1 n2
E(S2 ) 2. 即S2是 2的无偏估计
利用最小二乘法计算出的ˆ0和ˆ1,可以得到残差平方
和的另一个计算公式:
n
n
n
n
n
et2 (Yt Yˆt )2 Yt2 ˆ0 Yt ˆ1 XtYt
t 1
t 1
t 1
的样本观测值不同而变动。
3、总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距 离,它是不可直接观测的。而样本回归函数中的et 是Yt与
样本回归线之间的纵向距离,当根据样本观测值拟合出样本
回归线之后,可以计算出et 的具体数值。
误差项的基本标准假定
(1) ut ~ N (0, 2 ), (t 1,2,3,L n) E(ut ) 0, Var(ut ) 2 .
(4) 拒绝域F F (1, n 2) (5) 判断是否拒绝原假设
也可以用P值检验
参数的显著性检验
(1) 提出假设:H0 : 1 0, H1 : 1 0 (2) 给定显著性水平 . (3)检验统计量t= ˆ1 0 ~ t(n 2)
Sˆ1 (4) 拒绝域|t| t (n 2)

(n

2)
S2 ˆ0
2 ˆ0
:
2(n 2)
S 2 ˆ1

S2
n
(Xt X )2
t 1

(n

2)
S2 ˆ1
2 ˆ1
:
2(n 2)
所以根据t分布的定义,有
ˆ0 0 ~ t(n 2), ˆ1 1 ~ t(n 2)
Sˆ0
Sˆ1
相关主题