当前位置:文档之家› 一元线性回归分析

一元线性回归分析

第八章 第二节 一元线性回归分析 ●一、什么是回归分析?
测定变量之间数量变化关系的数学方法,称为回归分析。

只有一个因变量和一个自变量的线性回归模型,叫一元线性回归模型。

由于总体回归函数实际上是未知的,一元线性回归模型称为“样本回归直线”。

其近似的函数关系为:
t u x y ++=211ββ
其中:β1、β2是待定系数,也叫回归系数。

u t 又
称随机干扰项,(或随机误差项)它是一个特殊的随机变量,反映未列入方程式的其他各种因素对y 的影响,随机误差项u t 是无法直接观测的。

随机误差项u t 的假定条件如下: ●二、标准假定(高斯假定):
(1)误差项的期望值为0,即:
)(t u E
(2)误差项的方差为常数,即:2
2)()(σ==t
t u E u Var ; (3)误差项之间无系列相关关系,其协方差为0,
即:0)()(==s t s t u u E u u Cov ;
(4)自变量是给定的变量,与随机误差项线性无关;
(5)随机误差项服从正态分布。

※关于非标准条件下的分析方法参照《计量经济学》。

●三、回归系数β1、β2的估计值
由于假定的第一条,故:x y t 21ββ+=。

理论上令:
∑∑=--=-0)(0)(2
2
12
x y y y t
ββ 对β1、β2求偏导数,经整理得: ⎪
⎩⎪⎨
⎧-=--=∑∑∑∑∑x
y x x n y
x xy n 212
22)(βββ 以相关分析中例题为例:
▲案例1:某地区对15户居民家庭人均可支配收入与某类商品消费支出的调查数据如下:(百元/月)
合计:ΣX=1516,ΣY=423,ΣXY=44632,
ΣX 2=163654,ΣY 2
=12311 。

代入公式:
⎪⎪⎩
⎪⎪⎨

=-⨯⨯-⨯==⨯-=1802
.0151616365415423151644632159872.91515161802.015423221ββ
回归方程为:
x
y t 1802.09872.9+=
◎ 9.9872和0.1802的经济含义?
●四、回归方程的估计标准差S y :
◎估计标准差S 越小,说明实际观察值与所拟合的样本回归线的离散度越小,样本回归线的代表性越强。

●五、回归方程的拟合度
●拟合度:指回归直线与各样本观察点的接近程度。

●可决系数:用来说明回归直线的拟合度。

●可决系数的理论依据:对“总离差平方和”进行分解。

X
从上图看出,每一观察点的离差,都可以分解为:
将上式两边平方,并对所有点(n
个)求和,经整理得:
总的离差平方和 = 回归平方和 + 残差平方和
SST = SSR + SSE 两边同除以SST 得:
1= SSR/ SST+ SSE/ SST SSR/ SST=1- SSE/ SST
SST SSE SST SSR r -
==12
r 2
叫做可决系数(判定系数)
※可决系数r 2
测度了回归直线对观测数据的拟合程度。

假定所有观测值都落在直线上,则“残差平方
和”SSE=0,r 2=1,表示完全拟合;r 2
越接近于1,表示“回归平方和” 占“总的离差平方和”的比例越大,可决系数越大,回归直线的拟合度越高。

可决系数的取值范围为:0≤r 2
≤1。

◎r 2
的另一算法:
可决系数 = 相关系数的平方
◎用可决系数说明回归直线的拟合度比相关系数更慎重些。

●六、回归系数的显著性检验
回归系数的显著性检验是检验自变量对因变
量的影响是否显著的问题。

在 x y t 21ββ+=中,
假如总体回归系数β2= 0,则总体回归线是一条水
平线,表明自变量对因变量没有影响。

※回归系数的显著性检验就是检验回归系数与0之间是否有显著差异。

检验的步骤: (1) 陈述假设:0:,0:2120≠=ββH H ;
(2) 计算假设统计量t 值:
(3)确定显著水平α,(一般为:0.05或0.01)
自由度为df= n-2,查找相应的临界值;
(4)计算相关统计量,做出统计判断。

以上题为例:S=1.834 ΣX=1516,
ΣX2=163654。

陈述假设:H0:β2= 0,H0:β2≠ 0。

df=15-2=13,α=0.05 (双尾)t=2.1604
10.037879大于2.1604,拒绝原假设,接受备择假设。

收入对该类商品消费支出有显著影响。

●七、回归预测
根据自变量X的取值,估计因变量y取值的可能范围,这个可能范围称为预测区间,或置信区间(置信度为1-α)。

在小样本的条件下,一般使用t分布df=n-2。

设自变量x的任意取值为x0,根据回归方程可知因
变量
y
t
的点估计值为:假定
x0
=280
(百元)
,则:
44
.
60
280
1802
.0
9872
.
9
ˆ
2
1
=

+
=
+
=
x
y
t
β
β
上述问题的估计区间为:∑
-
-
+
+
±
2
2
2
/
)
(
)
(
1
1
ˆ
x
x
x
x
n
S
t
y
i
t
α
若置信度1-
α为95%,df=n-2=15-2=13,tα/2=2.1604
之间
百元)
(
496
.
68
384
.
53
056
.8
44
.
60
0333
.2
834
.1
1604
.2
44
.
60
15
/
1516
163654
)
15
/
1516
280
(
15
1
1
834
.1
1604
.2
44
.
60
2
2


±
=


±
=
-
-
+
+


±
t
y
▲习题1:
已知12户居民家庭收入与储蓄的有关数据。

X:月收入(百元);Y:月储蓄(百元)。

ΣX=254,ΣY=92,ΣX2=5950,ΣY2=794,ΣXY=2164。

要求:(1)计算相关系数;(2)拟一条回归模型并解释经济含义;(3)计算可决系数;(4)计算回归估计标准差;(5)对回归系数进行显著性检验(显著水平5%);(6)若x0=40(百元),置信度为95%时,其置信区间是多少?
解:(1)r=0.9607;(2)Y t=-0.328+0.3777x;(3)
r2=0.923
(4)S=0.8266(百元);(5)t=10.9478>tα
=2.2281,拒绝H0,回归系数显著;(6)当x0=40 /2
时:
Y t=-0.328+0.3777×40=14.78(百元);置信区间为:
▲习题2:教材290页1、3、4
[]
n
x x nn x n n x x n x n n
x x x x x x x x x 2
22
222
2
2
22)
()
()(22)(2)(∑
∑∑∑
∑∑∑∑∑∑
∑-=+-=⎪⎪⎭
⎫ ⎝⎛+-=+-=-
◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎
()
()
[]2
22
2
2
22222
2
2
2
2
2
22
2
2
2
)()
()()n x ( 1
)(n x )(x )()(2
x )
(2)(2x x n
x n
x n
x x n x n n x n n
x n nn
x n
n
x n n
x n n
x x x n
x x x x n
x x n
x x -=-=
-=
∴-=⨯-=
-
=
+-=
+-=
+-=
--=
∑∑

∑∑∑∑∑∑∑∑∑∑∑
∑∑∑∑∑σσ。

相关主题