线性回归分析
结论:回归关系极显著,可得线性回归方程
y ˆ 1 9 0 .9 5 5 0 .0 9 4 8 6 8 x
用光照强度来预测净光合强度是合理的。
第四节 预测值的置信区间
由x预测y时,y有一定的误差,其标准误差为:
sy se
11xx2
n SSx
因此由x预测y时,y 的95%置信区间为:
yˆt0.05sy
第五节 多元线性回归分析
二、参数估计方法——最小二乘准则
根据最小二乘法原理,i(i0,1 ,2,,m )的估计值
b ( i i0,1, 2,m ,) 应该使
n
n
Q (y i y ˆi)2[y i (b 0 b 1 x 1 i b 2 x 2 i b m x m )2 i ]mi
i 1
i 1
(3)式各项乘 x:a x b ( x ) 2 /n x y /n ( 5 ) (2)-(5)式得:b [ x 2 ( x ) 2 /n ] x y x y /n 即:b ( x x ) 2 ( x x )y (y ) 于是:b ( x x )y ( y ) / ( x x ) 2 S x / S y P x S
第五节 多元线性回归分析
一、多元线性回归分析概述
上面讨论的只是两个变量的回归问题, 其中因变量只与一个自变量相关。但在大 多数的实际问题中,影响因变量的因素不 是一个而是多个,我们称这类多自变量的 回归问题为多元回归分析。
这里着重讨论简单而又最一般的线性 回归问题,这是因为许多非线性的情形可 以化为线性回归来做。多元线性回归分析 的原理与一元线性回归分析完全相同,但 在计算上却要复杂得多。
一个变量来预测另一个变量。
一元线性回归:最简单的回归关系,即一个
变量y在一个变量x上的回归关系,称x为自变 量,y为因变量(或称响应变量、依赖变量)
第一节 一元线性回归
如果两个变量x,y之间存在线性回归关系,
则有回归模型:
总体:yi = + xi + i 样本:yi = a + b xi + i
y ˆ a b ( y b x x ) b y b ( x x x ) 即 (yˆy)b(xx)
y y ˆy [y ( b x) b]x 即 (y y ˆ) (y y ) b (x x )
( y y ˆ ) y ˆ ( y ) b ( x x )y [ y ) ( b ( x x )] b [x ( x )y ( y ) b (x x )2 ]
第五节 多元线性回归分析
四、回归模型的选择
由于自变量较多时,不是每一个自变量的回归 关系都显著,对回归不显著的自变量不能简单的 进行剔除。
尤其时自变量之间存在严重的线性关系时,自 变量之间相互影响,很难对自变量的去留做出抉 择。
为了获得最优回归方程,就需要对自变量进行 筛选。
第五节 多元线性回归分析
n
n
Q yiy ˆi2 (yiabix )2
i1
i1
第二节 线性回归方程
n
n
Q yiy ˆi2 (yiabix )2
i1
i1
分别求Q 对a 和b 的偏导数,令其等于 0:
Q a 2 ( y a b ) x 2 ( y n b a x ) 0
Q b 2 ( y a b ) x x 2 ( x a y x b x 2 ) 0
xn2
x1m
b0
x2m
b
1
x3m
B
b2
xnm
b m
0
1
2
Hale Waihona Puke n 解得: B(X'X)1X'Y
第五节 多元线性回归分析
三、假设检验
1、回归方程的假设检验
原假设 H0 :β1=β2= … =βm=0
F统计量为: F U / m Q/(nm1)
回归平方和:U (y ˆiy)2自由度:m
常用的自变量的筛选方法:
1、向前引入法(Forward) 按显著性程度,逐个将回归模型外自变量引入
回归模型,直到没有显著的自变量引入为止。
2、向后剔除法(Backward) 对全回归模型中不显著的自变量依次剔除,直到
回归模型中剩余自变量都显著为止。
3、逐步筛选法(Stepwise) 逐个引入最显著的自变量,同时对模型中不显
著的自变量进行剔除,直到没有引入和剔除为止。
第五节 多元线性回归分析
五、回归模型的判别准则
1. R2 决定系数
R2
SSr SST
回归平方和 总平方和
Adj R2 矫正的决定系数
Adj_R21ni 1R2 np n为观测数,p为含截距的参数个数,i为截距数
决定系数的值越大,越接近于1模型拟合越好。
第五节 多元线性回归分析
五、回归模型的判别准则
线性回归方程便已求出为: yˆ abx
第三节 回归关系的显著性检验
如果在模型 yi= + xi +i 中, = 0,这就意味
着不管 xi为什么值, yi 都不发生实质性变化;换言 之,x和 y 之间没有显著的回归关系。
检验线性回归关系是否存在,就是检验建立回归
模型的样本是否来自存在回归关系的总体,即
整理得正规方程组:
n ab x y
a xb x2 xy
第二节 线性回归方程
解正规方程组: n b a x y ( 1 ) a x b x 2 x y ( 2 )
(1)式除以 n 得: a b ( x /n ) y /n L L L ( 3 ) 于是: a y / n b ( x / n ) y b x ( 4 )
实例: 由x预测y的预测区间
第一步:计算当x=2500时, y 的点估计值:
y ˆ 1.9 9 5 0 0 .0 59 2 45 8 4 0 6 .1 2 0 8 2 8
第二步:求y的标准误差:
sy3.7 661110 2459 0340022710 3 0.6 8 07 0
实例: 由X预测Y的预测区间
第三步:求y的置信区间:
y ˆ t0 .0 5 s y 4.1 2 2 2 8 .05 3 3 .6 6 8 3 7.9 35 8 y ˆ t 0 . 0 5 s y 4 2 8 . 1 2 5 2 . 0 3 6 3 8 . 6 7 5 1 7 . 3 0
第四步:结论 有95%的把握预测当树冠的光照强度为 2500时,净光合作用的强度在338.95到 517.30之间。
由求极值的必要条件得:
bQ0 2i n1(yi yˆi)0 bQj 2an1(yi yˆi)xji 0
(j 1,2,,m)
第五节 多元线性回归分析
二、参数估计方法——最小二乘准则
采用矩阵形式: Y = XB+E
y1
Y
y
2
y
n
1
1
X 1
1
x11 x21 x31
xn1
x12 x22 x23
第三节 回归关系的显著性检验
对所有点求和得:
(yy ˆ)y ˆ(y)b [SxP y S Sx xP S y SxS ]0
于是:y的总平方和便分解为两个部分:
( y y ) 2 ( y y ˆ ) 2 ( y ˆ y ) 2
y的总平方和 误差平方和 回归平方和
T SSy
Q SSe U SSr
( y y ) 2 ( y y ˆ ) 2 2 ( y y ˆ )y ˆ ( y ) ( y ˆ y ) 2
对数据资料所有点的求和得:
( y y ) 2 ( y y ˆ ) 2 2 ( y y ˆ ) y ˆ y ( ) ( y ˆ y ) 2
证明:上式右边的中间项为0:
第五节 多元线性回归分析
一、多元线性回归分析概述
多元线性回归模型
y 0 1 x 1 2 x 2 L m x m
式中β0 β1 β2 … βm 为(偏)回归系数
多元线性回归方程
y ˆ b 0 b 1 x 1 b 2 x 2 b m x m
式中b0 b1 b2 … bm 为(偏)回归系数的估计值
当自变量为 x,对应的
y
因变量的实测值为 y,
yˆ
yy
y yˆ 因变量的预测值为 yˆ。 yˆ y 于是 y的离均差 y y
y
可分解为两个部分:
y y(y yˆ) (yˆ y)
xx
离均差 随机误差 回归引起的偏差
第三节 回归关系的显著性检验
对于任一个点有:(y y ) (y y ˆ) (y ˆ y ) 两边平方得:
实例:P161
2、t 检验
sb
se SSx
0.005229
Q n2 SSx
10810 102 49421000
b 0.094868
t
18.14
sb 0.005229
实例:t 检验
dfe n2 102 8, t0.05 2.306,t0.01 3.355 | t |18.14 t0.01 3.355
H0 : =0 vs HA: ≠0
只有在此检验结果为显著时,用 a 估计 ,用 b
估计 ,用 yˆ估计 y 才是有意义的。
对此统计假设有两种检验方法:
F 检验法 和 t 检验法
注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方
第三节 回归关系的显著性检验
1.F检验法
利用下图说明F检验法的基本原理。
第五章 线性回归分析
一、一元线性回归 二、一元线性回归方程 三、回归关系的显著性检验 四、置信区间 五、多元线性回归 六、回归诊断
第一节 一元线性回归
生产实践中,常常能找到一个变量与另外一
个变量之间的关系:小麦的施肥量与产量、 水稻的株高和穗长、冬天的温度与来年病虫 害的发生程度等等。