第五章 多元线性回归分析
SS2 1 53.9021 1 F2 26.38 SSe (n m 1) 6.1307 3
• 对b3检验: • H0:β3=0,H1:β3≠0,α=0.05
SS3 1 3.3304 1 F3 1.63 SSe (n m 1) 6.1307 3
表11-4 方差分析表
(二)偏回归系数的假设检验
1、F检验
• 自变量xj对回归平方和的贡献称为偏
回归平方和,它表示xj对y的影响程度,
记为SSj,相应地其偏回归自由度为1。
• 检验步骤
• ①将所有自变量x1,x2,…,xm全部
引入回归方程中,得到回归平方和
SSR和残差平方和SSe。
• ②将拟检验的某个自变量xj从回归方程中取 出后重新建立起一个含m-1个自变量的回 归方程,并得到不含xj的作用的回归平方和 SSR(-j)。差值SSR-SSR(-j)=SSj就是在其他自 变量已在回归方程中的条件下,xj单独引起
26.065
1.055 12.855 2.523
2.514
1.321 2.503 1.975
10.37
0.80 5.14 1.28
0.0019
0.4831 0.0143 0.2914
0
0.089 0.812 0.221
(三)最优多元线性回归方程的统计选择
• 若从线性回归方程
• y=b0+b1x1+b2x2+…+bjxj+…+bmxm
表1 试验结果
试验号 提取时间/h X1 萃取助剂量 X2 提取次数 X3 得率/‰ y
1 2 3 4 5 6 7
1.2 1.6 2.0 2.4 2.8 3.2 3.6
1.5 0.6 2.1 1.2 0.3 1.8 0.9
2 1 3 2 1 3 3
51.5 39.0 63.0 47.0 35.5 61.0 49.0
df2 n m 1
Sb 2 S y 12 l11 2 l11l22 l12
S y 12
SS剩余 n m 1
例5 用t检验法对例1的偏回归系数进行假设检验。 用SAS统计软件进行t检验输出结果 • 程序
• • • • • • • • • • • DATA zp1; INPUT x1 x2 x3 y @@; CARDS; 1.2 1.5 2 51.5 1.6 0.6 1 39.0 2.0 2.1 3 63.0 2.4 1.2 2 47.0 2.8 0.3 1 35.5 3.2 1.8 3 61.0 3.6 0.9 3 49.0 ;
• 式中
l11 l x1x1 ( x1 x1 )
2
l12 l x1x2 ( x1 x1 )( x2 x2 )
l12 l21
l1 y l x1 y ( x1 x1 )( y y )
• ………………………
• 解此方程组,得到bj(j=1,2,…,m)。
• 求b0,b1,b2,…,bm
•令
ˆ Q ( yi yi ) 2 ( yi b0 b1 xi1 b2 xi 2 bm xim ) 2
i 1 i 1 n n
•
• 根据最小二乘法原理,要使Q达到最小,
b0,b1,b2,…,bm必须满足
n Q ˆ 2 ( yi yi ) b0 i 1
x1 x2 x3
离回归
6.13
查F界值表知,自变量x2对依变量的影
响显著,自变量x1和x3的影响不显著。 • 注:由结果可发现,各偏回归平方和 之和∑SSj不等于总回归平方和SSR,这 表明所选择的三个自变量相互不独立。
2、t检验 • 在H0:βj=0为真的条件下,统计量
tj
bj S bj
• 式中,Sbj为偏回归系数的标准误
S bj S y 12m C jj
S y12m SSe (n m 1)
当有两个自变量时
b1 t1 S b1
df1 n m 1
S b1 S y 12 l22 2 l11l22 l12
b2 t2 Sb 2
• 例6 试对例1进行统计选择。
• 解:对于例1,自变量x1,x3的影响均 不显著,所得回归方程不是最优方程, 必须剔除不显著影响因素,重新进行 回归分析。 • 此例中,SS1<SS3,因而先剔除x1,采 用SAS统计软件进行计算
• 程序
• • • • • • • • • • • DATA zp2; INPUT x2 x3 y @@; CARDS; 1.5 2 51.5 0.6 1 39.0 2.1 3 63.0 1.2 2 47.0 0.3 1 35.5 1.8 3 61.0 0.9 3 49.0 ;
PROC REG ; MODEL y=x1 x2 x3/stb; RUN;
结果
Analysis of Variance Sour Mode Erro DF 3 3 Corrected Total 6 Root MSE Dependent Mean Coeff Var Sum of Mean Squares Square 625.0836 208.3612 6.13068 2.04356 631.21429 1.42953 49.42857 2.89212 F Value Pr > F 101.96 0.0016
SSR dfR SSR m F SSe dfe SSe (n m 1)
• 以检验水准α,若F≥Fα(m,n-m-1),P≤α,
则拒绝H0,认为y与x1,x2,…,xm间有线
性关系;若F<Fα(m,n-m-1),P>α,则
接受H0,认为y与x1,x2,…,xm间没有线
性关系。
• 例2 用F检验法对例1所得的多元线性回归
方程进行假设检验。
• 解:H0:β1=β2=β3=0
• H1:β1,β2,β3至少有一个不等于0
• α=0.05
• 采用SAS统计软件进行回归分析,结果见 表2。
表2
变异 来源 回归 离回归 总变异
方差分析表 MS
208.36 2.04 -
SS
625.08 6.13 631.21
df
3 3 6
F
101.96 - -
Pr>F
0.0016 - -
P=0.0016,按α=0.05水准,拒绝H0,可认为xj变 量组与依变量y之间有线性关系,即所得回归方程 的回归效果高度显著。
2、复相关系数检验法
(1)复相关系数
• 复相关系数用“R”表示
R
SS回 SS总
= 1-
SS 残 SS总
• R的取值区间为〔0,1〕。在一定的自由度下,R 的值越接近于1,总相关越密切;越接近于0,总 相关越不密切。
• 中剔除某个不显著因子xk后,可设新建立的回归 方程为
• y*=b0*+b1*x1+…+bk-1*xk-1+bk+1*xk+1 +…+bm*xm
• 当各自变量相互独立、完全无关时,bj*=bj,否 则bj*≠bj。
• 统计学上把回归关系显著的前提下逐 步剔除不显著自变量的过程,称为自 变量的统计选择,所得到的仅包含显 著自变量的多元线性回归方程,称为 最优多元线性回归方程。
R-Square Adj R-Sq
0.9903 0.9806
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
Intercept 1
x1 x2 x3 1 1 1
623.78 571.18
621.75
1.30 53.90
3.33
― ―
―
• 对b1检验: • H0:β1=0,H1:β1≠0,α=0.05
SS1 1 1.3018 1 F1 0.64 SSe (n m 1) 6.1307 3
• 对b2检验: • H0:β2=0,H1:β2≠0,α=0.05
第十一章 多重线性回归分析
第一节 多重线性回归
一、多重线性回归方程的建立
多重线性回归的数学模型为 yi=β0+β1xi1+…+βmxim+εi
(i=1,2,…,n)
• 多重线性回归方程的估计式
ˆ y b0 b1 x1 b2 x2 bm xm
ˆ • 式中,y 是μy的估计值, b0,b1, b2,…,bm分别是β0,β1,…,βm的 估计值, bj称为偏回归系数。
• 例4 试用F检验法对上例1的偏回归系 数进行检验。 • 列出各自变量的偏回归平方和如表3。
表3 各自变量的偏回归平方和
方程内自变量
方程外自 变量 回归平方 和SSR 偏回归平 误差平方 方和SSj 和SSe
x1,x2,x3
―
625.08
―
6.13
x2,x3 x1,x3
x1,x2
x1 x2
x3
•
n Q ˆ 2 ( yi yi ) xij 0 b j i 1
(j=1,2,…,m)
• 由此可以得到如下正规方程组为
b1l11 b2l12 bml1m l1 y
b1l21 b2l22 bml2 m l2 y
• …………………………
b1lm1 b2lm 2 bmlmm lmy
用计算机程序可直接求得bj。 • 常数项b0的计算公式为
b0 y (b1 x1 b2 x2 bm xm )
• 例1 为寻找利用某农产品废料提取果 胶的最优工艺条件,设计考察了每次 提取时间、萃取助剂量和提取次数三 个因素对果胶得率的影响,试验结果 如表1所示,试利用线性回归模型求其 回归方程。