当前位置:文档之家› 卫生统计学:12多重线性回归分析

卫生统计学:12多重线性回归分析

校正决定系数、Cp准则、AIC准则
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
a. Predictors: (Constant), X 3 b. Predictors: (Constant), X 3, X2 c. Predictors: (Constant), X 3, X2, X1 d. Predictors: (Constant), X 2, X1 e. Dependent Variable: Y
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 53 .0 44 .0 11 .1 79
为什么要筛选自变量?
变量多增加了模型的复杂度 计算量增大 估计和预测的精度下降 模型应用费用增加
筛选自变量的常用方法:
全局择优法
7468 90.50 6
16 4668 0.657
To t al
3411 375.0 00
19
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
C oe ffi ci e n tas
F 19.026
U nstand ardi zed Co effi ci ents
第 十 五 章
流行病与卫生统计学教研室 胡利人
引言
多因素分析是研究多种因素互相联系、互相制约 的规律性的一个重要而活跃的统计学分支。70年 代后在医学领域应用广泛,常用的方法有:
多重线性回归(多元线性回归) logistic 回归 Cox 回归 判别分析、聚类分析 主成分分析、因子分析
216.0570680
Std.Error of the Estimate (剩余标准差)
SY ,12...m
(Y Yˆ)2 /(n m 1)
SS残(n m 1) MS残
46680.657 216.057
反映了回归方程的精度,其值越小说明回归 效果越好
决定系数(determination coefficient)
R2 SS回 1 SS残
SS总
SS总
2664484.494=0.781 3411375.000
说明所有自变量能解释Y变化的百分比。取 值(0,1),越接近1模型拟合越好

复相关系数(multiple correlation coefficient)
R R2 0.781 0.884
情况下,自变量Xj每改变一个单位时,单独引 起应变量 y 的平均改变量
参数估计
求参数估计值的常用方法是最小二乘法,即使残差平 方和达到最小的方法
假设检验
• 对整个回归方程进行假设检验
F
SS回归 /回归
MS回归
SS误差 /(n 回归 1) MS误差
• 对偏回归系数进行假设检验
t(bj)=bj/s(bj)
SS回( j) (n p 1)
;1
1; 2

n

p
1
向后剔除法:先建立一个包含全部自变量的回归 方程,然后每次剔除一个无统计学意义的自变量, 直到不能剔除时为止。此法计算量大,有时不能 实现
向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
.3 42 .4 44 .2 60
216.0570680
Yˆ 2262.081 48.135X1 38.550X2 104.585X3
ANO VAb
Model
Sum of Squ ares
1
Regression 2664 484.4 94
df Mean Sq uare 3 8881 61.49 8
Res i d u al
df 3
16 19
Mean Sq uare 8881 61.49 8
4668 0.657
F 19.026
Si g. .0 00a
(二)偏回归系数的假设检验及其评价
各偏回归系数的t检验
C oe fficien tas
Unstand ardized Co efficients
St an d ard ized Co efficients
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
它们的共同特点是每一步只引入或剔除一 个自变量。决定其取舍则基于对偏回归平
方和的F 检验
Fj

SS回 SS残
逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
说明所有自变量与Y间的线性相关程度。
如果只有一个自变量,此时 R | r |

校正决定系数(Adjusted
determination coefficient)
Rc2
1 (1
R2)
n 1 (n 1)
p
1
SS残 /(n 1 p) SS总 /(n 1)
=1- MS残 =1 746890.506 /16 0.740
多重线性回归分析
用途
探讨多个自变量与应变量之间的依存关系以及各 个自变量对应变量的相对贡献大小,从而探讨应 变量的主要影响因素
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、
吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清 总胆固醇、甘油三脂
应用条件
• 应变量为定量变量,自变量可以是定量变量,也
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 00a
Si g. .0 53 .0 44 .0 11 .1 79
回归方程的假设检验与评价
(一)回归方程的假设检验 (二)偏回归系数的假设检验 (三)有关评价指标
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
Model
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
【例15-1】 为探讨女大学生的体重、胸围 与胸围呼吸差对肺活量的影响,某研究者调 查了20名女大学生的相关资料,见表15-1, 并分别用体重、胸围与胸围呼吸差对肺活量 进行线性回归分析
多重线性回归分析的步骤
(一)估计各项参数,建立多重线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提 下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
df 1
18 19
2 17 19
3 16 19
2 17 19
Mean Sq uare 2042 821.830
7603 0.73 2
1221 095.274 5701 0.85 0
相关主题