回归分析和方差分析
第九章 线性回归分析与方差分析
第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
x 1 20.00 16.67 14.29 10.00 7.14 5.00 4.00 3.23 2.63 2.33 2.13 x
y ln y -2.30 -1.97 -1.47 -0.99 -0.53 -0.24 0.00 0.11 0.17 0.22 0.25
将变换后的数据点( xi, yi)画出散点图(图9-4)
式(2)称为正规方程组.
(2)
由正 规方程组解得
n
( xi x)( yi y)
bˆ i1 n
(xi x) 2
i 1
aˆ y bˆx
其中
x
1 n
n i1
xi ,
y
1 n
n i1
yi
用最小二乘法求出的估计 aˆ 、bˆ 分别称为a、b的最
小二乘估计
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。
又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大,
但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。
可以取经验回归值
yˆ0 aˆ bˆx0
作为y0的预测值.可以证明
T
y0 yˆ0
~ t(n 2)
n ˆ
n2
1 1 n
(x0 x)2
n
(xi x)2
i1
从而可得
P | T | t (n 2) 1
2
所以,给定置信概率 1 ,Y0的置信区间为
yi a bxi i i 1,, n
i ~ N (0, 2 )
1
,
,
相互独立
n
如果由样本得到式(1)中,a, b的估计值 aˆ, bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计
一元线性回归主要解决下列一些问题:
( y0 (x0 ), y0 (x0 ))
其中
(
x0
)
ˆ
t
2
(n
2)
n
n
2
ˆ
1 1 n
(x0 x)2
n
(xi x)2
i1
可以看出在x0处y的置信区间的长度为 2 (x0 )
当 x0 x 时置信区间的长度最短,估计最精确, 置信区间愈长,估计的精度愈差。
b
Q(a,
b)
n i 1
( yi
a bxi )(2xi )
0
经整理后得到
na
n
xi b
n
bi
i1
i 1
n i 1
xi a n i1
xi2 b
n i 1
xi yi
直线附近.但各点不完全在一条直线上,这是由于Y
还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部
分是x的线性函数a+bx,另一部分是随机因素引起的
误差 ,即
y
Y=a+bx+
500
* *L
400 300
*
*
*
*
200
100
o
* **
20
40
60
80
100 120
这就是所谓的 一元线性回归模型
我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
xi 0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47 yi 0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29
解 根据这11个样本数据点 (xi,yi)作出散点图(图9-3). 从散点图上看出,这些数据 点在一条曲线L周围.
(1)利用样本对未知参数a、b、 2进行估计;
(2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的
未知参数a,b.
n
n
记 Q Q(a,b)
2 i
( yi a bxi )2
解 经计算 T=16.9 r=0.98 查表,得 t0.025(9)=2.26 r0.05=0.602 易见,t检验法、相关系数检验法都拒绝H0, 即回归效果显著。 于是,当x0=80时,y0的预测值为 yˆ0 31.21 y0的95%的预测区间为(24.73,35.69)
第二节 可线性化的非线性回归
系来描述; (3)影响Y取值的,除x外,另有其他不可忽略的因素.
因此,在接受H0的同时,需要进一步查明原因分 别处理,此时,专业知识往往起着重要作用.
四、 预测
当经过检验发现回归效果显著时,通过回归模型可 对Y的取值进行预测. 即当x=x0时,对Y作区间估计. 设当x=x0时Y的取值为y0,有
y0 a bx0 0 0 ~ N (0, 2 )
可以推出:在显著性水平 下,当 | r | r时拒绝H0
其中临界值 r在附表8中给出
当假设 H0 : b 0 被拒绝时,就认为Y与x存在线性 关系,从而认为回归效果显著;
若接受H0,则认为Y与x的关系不能用一元线性回 归模型来描述,即回归效果不显著. 此时,可能有如下几种情形:
(1)x对Y没有显著影响; (2)x对Y有显著影响,但这种影响不能用线性相关关
i 1
i 1
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ, bˆ,使得
Q(a, b)为最小(图9-2)
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
a
Q(a,
b)
n i 1
( yi
a bxi )(2)
0
当n很大且x0位于 x 附近时,有
t (n 2) u
2
2
x0 x
n 1 n2
于是y0的置信概率为1 的预测区间近似为
( yˆ0 u ˆ , yˆ0 u ˆ )
2
2
例3 检验例2中的回归效果是否显著,当x0=80时, 求出Y0的预测区间。( 0.05)
从散点图可以看出 x与 y具 有线性相关关系,因此用一 元线性回归分析.
利用一元线性回归的方法可 以计算出 x 与 y的经验回归 方程为 y 0.58 0.15x
图9-4
这里a=0.58,b= -0.15
所以
ea e0.58 1.79
此时,拟合直线为 yˆ aˆ bˆx y bˆ(x x)
下面再用矩法求 2的估计
由于
2
D
E 2 由矩估计法,可用
E
2估计
1
n
n i1
2 i
而i yi a bxi ,a、b分别由 aˆ、bˆ代入
故
2可用
ˆ 2
1 n
n
( yi
i1
aˆ bˆxi )2
图9-3
根据有关的专业知识,结合散点图,可以认为 曲线L大致为:
y e x (, 0)
对上式两边取对数:
ln y ln 1
x
令 y ln y x 1
x
a ln
即有: y a bx
b
于是数据(xi , yi)相应地变换成(xi, yi)
函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
画出散点图如图9-1所示.从图中可以看出,随
着广告投入费x的增加,销售额Y基本上也呈上升
趋势,图中的点大致分布在一条向右上方延伸的
例1 对某广告公司为了研究某一类产品的广告费x用 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的
n
(xi x)2
i 1
n
2
ˆ 2
~
2 (n 2)