第三讲 一元线性回归预测法
试计算:(1)拟合适当的回归方程; (2)判断拟合优度情况; (3)对模型进行显著性检验;(α=0.05) (4)当体重为75公斤时,求其身高平均值的95% 的置信区间。
解答:
(1)n=8,经计算得: ∑x = 472 ∑x2 = 28158 ∑y =13.54 因此:
ˆ ∑(x − x)( y − y) = n∑xy − ∑x∑y = 8×8032 2 8× 28158 − 4722 n∑x2 − (∑x) ∑(x − x)
yi = b0 + b1xi + µi , µi ~ N 0,σ 2
(
)
• 如 H0为真,则可以证明 S余和 S回 相互独立, S回 且 F= ~ F(1, n − 2) S余 /(n − 2)
• 习惯上,当算得的 F ≤ F0.05 (1, n − 2) 时,认为y与 x线性相关关系不显著; • 当 F .05(1, n − 2) ≤ F ≤ F .01(1, n − 2) 时,认为y 0 0 与x线性相关关系显著; • F ≥ F0.01(1, n − 2) 时,认为y与x线性相关关系特 2 别显著。 lxy • 可推导出 S回 = l
∑y
2
= 22.9788
∑xy = 803.02
13.54 472 ˆ ˆ b0 = y − b1x = − 0.0134 × = 0.9 8 8
ˆ 因此,建立的一元线性回归方程为: y = 0.898 + 0.0134x
(2) R2 =0.4815 回归直线的拟合优度不是很理想 。
R2 (n − 2) 0.4815× 6 (3) F = = = 5056 > F0.05 (1,6) 2 1− 0.4815 1− R
• (一)方差分析法(F统计) • 先将观测值 y1 , y2 ,..., yn 的总离差平方和加以分解:
ST = ∑ yi − y
i=1
n
(
)
2
= ∑ yi − yi + ∑ yi − y i=1 i=1
n n
Λ
2
Λ
2
•
S余 = ∑ yi − yi 称剩余平方和,反映了观察值 i=1 记
Λ
Λ
下面,来讨论 y0 的区间预测问题。 可以证明
y0 − y0
Λ
x0 − x 1 S 1+ + n lxx
(
)
2
~ t(n − 2)
其中, S = S余 /(n − 2)
即剩余标准差
• 容易得出
y0 置信度为 置信度为1-α的预测区间是 的预测区间是
:
•
Λ Λ y0 −δ ( x0 ), y0 + δ ( x0 )
所以拒绝原假设,认为所建立的线性回归模型是显著的。
(4) SE=0.0734 预测区间 (
1 x −x 0.898 + 0.0134*75 ± tα / 2 (n − 2)S 1+ + 0 n lxx
(
)
2
)
即当体重为75公斤时,其身高的95%的置信区间是(1.728,2.078)
∑( x − x )( y − y ) ∑( x − x )
2
b0 = y −b x 1
• 引入记号:(形式容易记)
l xy = ∑
i =1
n
(
1 n n xi − x yi − y = ∑ xi yi − ∑ xi ∑ yi n i =1 i =1 i =1
显然,预测区间的长度主要由剩余标准误差S的大小所决定,而 预测区间的长度直接关系到预测效果。因此,常用 作为衡量预 常用S作为衡量预 常用 测精度的一个指标。 测精度的一个指标。
例题分析
已知身高与体重的资料如下表:
身高(米) 体重(公斤) 1.55 50 1.60 52 1.65 57 1.67 56 1.7 60 1.75 65 1.80 62 1.82 70
n
)(
)
l xx =
∑ (x
n i =1
i
− x
)
2
=
2
∑
n
i =1
xi
2
1 − ∑ xi n i =1
n
2
l yy =
则有
∑ (y
n i =1
Λ
i
− y
l l
xy xx
) =∑y
n i =1
2 i
1 − ∑ yi n i =1
n
2
b
1
=
b 0 = y − b1 x
• 其中
tα / 2 (n − 2) 是自由度为(n-2)的 t分布的上方 α / 2 分位数
x0 − x 1 δ ( x0 ) = tα / 2 (n − 2)S 1+ + n lxx
(
)
2
由区间预测公式可以看出,当 x0 越接近 x 时 , δ ( x0 ) 越小, 当 越小, 预测区间也就越小,预测就越准确。 预测区间也就越小,预测就越准确。
•
很多社会经济现象之间都存在相关关系,因此, 一元线性回归预测有很广泛的应用。 • 进行一元线性回归预测时,必须选用合适的统计 方法估计模型参数,并对模型及其参数进行统计检 验。
一、建立模型
一元线性回归模型:
yi = b0 + b1xi + µi
其中,b , 1 是未知参数, i 为剩余残差项,或称随机扰动项。 µ 0 b
上述检验法称为相关系数检验法(也称为相关分析)。
四、一元线性回归预测
• 如果经检验,一元线性回归模型的回归效果显著,则可用来 进行预测。 • 依据假设,对自变量的某一给定值,同样有
Λ Λ Λ
将
严格讲, y0 是 E( y0 )的点估计值,但习惯上,就把 y0 作为 y0 的预测值
x0 代入一元线性回归预测模型得 y0 = b0 + b1 x0
二、估计参数
用最小二乘法进行参数的估计时,要求 µi 满足一定的假设条件:
µi 是一个随机变量;
µi 的均值为零,即 E( µi ) = 0
2 在每一个时期中, µi 的方差为常量,即 D( µi ) = σ 各个 µi 相互独立;
µi与自变量无关。
用最小二乘法进行参数估计 ,得到的估计表达式为:
b = 1
可推得
R =
2
S回 ST
R F = (n − 2) 1− R2
2
相关系数的用途:
相关系数有正负,可决系数只有正号。 正相关系数意味着因变量与自变量以相同的方向增减。 如果直线从左至右上升,则相关系数为正; 如果直线从左至右下降,则相关系数为负。
相关系数越接近+1或-1,因变量与自变量的拟合程度就越好。相关 系数r是衡量y与x之间线性相关程度的一个统计量。 对于给定的显著性水平α,按自由度n-2查”相关系数临界值表”,得 相关系数临界值 r (n − 2) 。 α 当 r > r (n − 2) 时.认为y与x之间线性相关关系显著。反之,则 α 认为不显著。一般α可取0.05或0.01两个值。
n
n Λ 2
Λ
2
偏离回归直线的程度。 S = ∑ y − y 称 回归平方和,反映了回归值 • Λ • yi (i = 1,2,..., n) 的离散程度。 • 从而有 ST = S余 + S回 • 要检验y与x之间是否存在线性相关关系,实际 上等价于检验假设
回 i= 1 i
H0 : b1 = 0
xx
(二)相关系数检验法
可决系数:衡量自变量与因变量关系密切程度的指标。
其计算公式为: R2 =
2 ˆ y − y) =1− ∑( 2 2 2 y − y) ∑( x − x ) ∑( y − y) ∑(
∑( x − x )( y − y)
2
可见,可决系数取值于0与1之间,并取决于回归模型所解释的 y 方差的百分比。 0 1 相关系数 ∑( x − x )( y − y ) 其计算公式为: r = 2 2 ( x − x ) ∑( y − y ) ∑ 由公式可见,可决系数是相关系数的平方。
Λ
Λ
三、显著性检验
• 利用一元线性回归模型来描述变量y与x的相关规律,必须有一个前提 前提,就 前提 是y与x之间存在着显著的线性相关关系。 • 如果y与x之间的线性相关关系不显著,则利用最小二乘法所求得的一元线 性回归模型就没有多大意义,由此模型对y作出的预测可能与实际值相差 甚远。 • 所以,很有必要从统计的角度来检验变量 与x之间的线性相关关系是否显 很有必要从统计的角度来检验变量y与 之间的线性相关关系是否显 很有必要从统计的角度来检验变量 亦即检验线性回归模型的回归效果是否显著。 著,亦即检验线性回归模型的回归效果是否显著。 亦即检验线性回归模型的回归效果是否显著
概率论与数理统计复习 概率密度与分布函数 正态分布(上α分位点) 2 χ 分布 t分布 F分布 假设检验(检验统计量、显著性水平、原假设、 备择假设、 拒绝域 、 弃真、取伪)
一元线性回归预测法
• 是指成对的两个变量数据分布大体上呈直线趋势 时,运用合适的参数估计方法,求出一元线性回 归模型,然后根据自变量与因变量之间的关系, 预测因变量的趋势。