多元线性回归分析-研(精)
MODEL y=x1-x5;
RUN;
10
例15.1:P210 SPSS的分析结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
23
三、选择最优回归方程的方法
1.最优回归方程 : 1)对y的作用有统计学意义的自变量,全部
选入回归方程
2)对y的作用没有统计学意义的自变量,一 个也不引入回归方程
24
2.方法: 1)最优子集回归法:又称全局择优法,求出所 有可能的回归模型(共有2m-1个)选取最优 者 2)向后剔除法(backward selection)
l11b1 l12b2 l1mbm l1Y
l21b1 l22 b2 l2 m bm l2Y lm1b1 lm2b2 lmm bm lmY
b0 Y (b1 X1 b2 X 2 bm X m)
9
方程的求解过程复杂,可借助于SPSS、SAS 等统计软件来完成 SPSS:Analyze→Regression→Linear regression→dependent:y independent:x1-x5 SAS程序:PROC REG DATA=mr15-1;
1.根据样本数据求得模型参数的估计值,得到 应变量与自变量数量关系的表达式:
ˆ b0 b1 x1 b2 x2 ...... bm xm y
此公式称为多元线性回归方程
2.对回归方程及各自变量作假设检验,并对方 程的拟和效果及各自变量的作用大小作出评价
8
多元线性回归方程的建立:
利用最小二乘法原理估计模型的参数: (使残差平方和最小)
12
1.多元线性回归方程的假设检验: 方差分析法:SS总 = SS回 + SS残
H 0 : 1 2 H1 : i (i 1, 2,
m 0 , m)不全为0 bmlmY
SS回 b1l1Y b2l2Y SS残 SS总 SS回
SS回 / m MS回 F SS残 ( / n m 1 ) MS残
13
ANOVAb Model 1 Sum of Squares 48.750 7.888 56.637 df 5 34 39 Mean Square 9.750 .232 F 42.028 Sig . .000a
Reg ression Residual Total
a. Predictors: (Constant), x5, x3, x1, x2, x4 b. Dependent Variable: y
a. Dependent Variable: y
30
d Model Summary
Model 1 2 3
R .676a .846b .919c
R Sq uare .456 .716 .845
Adjusted R Sq uare .442 .700 .832
Std. Error of the Estimate .90018 .65967 .49326
R
2 adj
n 1 1 (1 R ) n m 1
2
22
b Model Summary
Model 1
R .928a
R Sq uare .861
Adjusted R Sq uare .840
Std. Error of the Estimate .48165
a. Predictors: (Constant), x 5, x3, x1, x2, x4 b. Dependent Variable: y
多元线性回归模型的应用条件:
1.线性趋势:Y与Xi间具有线性关系
2.独立性:应变量Y的取值相互独立
3.正态性:对任意一组自变量取值,因变量Y 服从正态分布 4.方差齐性:对任意一组自变量取值,因变 量y的方差相同 后两个条件等价于:残差ε服从均数为0、 方差为σ2的正态分布
7
多元线性回归的分析步骤:
lii si b bi bi l yy sy
' i
在有统计学意义的前提下,标准化偏回归系数绝对值 的大小可直接进行比较,以衡量自变量对应变量的作 用大小
例:见P213
20
4.复相关系数
复相关系数:multiple correlation coefficient
衡量因变量y与回归方程内所有自变量线性组合 间相关关系的密切程度,也即Y与Y之间的相关 系数。R
Model 1
(Constant) x1 x2 x3 x4 x5
t 13.893 1.305 5.693 6.491 5.048 -1.318
Sig . .000 .201 .000 .000 .000 .196
a. Dependent Variable: y
19
3.标准化偏回归系数 对各数据进行标准化后求得的回归方程即标准 化回归方程,其相应的偏回归系数即标准化偏 回归系数。 标准化偏回归系数和偏回归系数的关系:
5
一、多元线性回归模型
一般形式为: Y=β0+β1X1 +β2X2 +…+βmXm +ε β0 :常数项,又称为截距
β1,β2,…,βm: 偏 回 归 系 数 (Partial regression coefficient) 简称回归系数,在 其它自变量保持不变时 Xi(i=1,2,…,m) 每改变 一个单位时,应变量Y的平均变化量 ε:去除m个自变量对Y的影响后的随机误差, 又称残差 6
x2
.
2
x3
.
3
x4
.
a. Dependent Variable: y
29
Coefficientsa Unstandardized Coefficients B Std. Error 12.546 .252 .063 .011 8.000 .804 .064 .008 .067 .011 8.202 .602 .048 .007 .060 .009 .029 .005 Standardized Coefficients Beta .676 .685 .509 .521 .457 .399
表1 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 序号 (mmol/L) i X1 1 2 3 27 5.68 3.79 6.02 3.84 甘油三酯 胰岛素 糖化血红蛋白 (%) X4 8.2 6.9 10.8 9.6 血糖 (mmol/L) Y 11.2 8.8 12.3 10.4
X1 X3 X4 X5 X1 X2 X4 X5
X1 X2 X3 X5
SS-2ቤተ መጻሕፍቲ ባይዱSS-3
SS-4
SS总- SS-2 SS总- SS3
SS总- SS4
X1 X2 X3 X4
SS-5
SS总- SS5
17
2.偏回归系数的假设检验 t检验法:
bi ti sbi
n-m-1
18
SPSS的结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
,则剔除Xi,同时再对Xj进行检验。若Xj依然
有意义则继续选择下一个偏回归平方和最大者
并进行检验。重复此过程。
26
逐步回归法
每引入或剔除一个自变量后都要重新对已进 入方程中的自变量进行检验,直到方程外没
有有意义的自变量可引入、方程内也没有无
意义的自变量可剔除为止 。
27
逐步回归法
双向筛选 ;引入一个有意义变量(前进法)
Model 1 2
3
(Constant) x2 (Constant) x2 x3 (Constant) x2 x3 x4
t 49.858 5.648 9.953 7.818 5.810 13.621 7.230 6.904 5.493
Sig . .000 .000 .000 .000 .000 .000 .000 .000 .000
3)向前引入法(forward selection)
4)逐步回归法(stepwise regression)
25
逐步回归法
自变量回归平方和最大的Xi首先进入方程,在 Xi进入方程的基础上计算其余m-1个自变量分
别进入回归方程时的偏回归平方和,其中最大
者记为SSj,对Xj进行检验,若有意义则进入方
程,并重新对Xi进行检验。若Xi退化为无意义
和的减少量,或者在m-1个自变量的基础上增
加一个自变量后回归平方和的增加量。
注意:m-1个自变量对y的回归平方和由m-1个
自变量对y重新建立回归方程后计算得到,而 不能简单的在整个方程的基础上把biliy去掉后 得到。
16
各偏回归平方和SS(Xi)及残差的计算 回归方程中包含的自 变量 X1 X2 X3 X4 X5 X2 X3 X4 X5 SS回 SS总 SS-1 SS(Xi) - SS总- SS-1
的同时,剔除无意义的变量(后退法)
“先剔除后选入”原则 α入和α出可等可不等 注意,引入变量的检验水准要小于或等于 剔除变量的检验水准。
28
Variables Entered/Removeda Model 1 Variables Entered Variables Removed Method Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100). Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100). Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100).