当前位置：文档之家› 2020年多元线性回归logistic回归

2020年多元线性回归logistic回归

8
（二）多元回归分析步骤（1）用各变量的数据建立回归方程（2）对总的方程进行假设检验（3）当总的方程有显著性意义时，应对每个自变量的
偏回归系数再进行假设检验，若某个自变量的偏回归系数无显著性，则应把该变量剔除，重新建立不包含该变量的多元回归方程。
对新建立的多元回归方程及偏回归系数按上述程序进行检验，直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。
(multiple linear regressoin)
Y，X——直线回归 Y，X1，X2，…Xm——多元回归（多重回归）例：欲研究血压受年龄、性别、体重、性格、职业（体力劳动或脑力劳动）、饮食、吸烟、血脂水平等因素的影响。
5
（一）多元回归模型
多元回归方程的一般形式
Y 0 1 X1 2 X 2 m X m e
•检验结果均有意义，因此回归方程保留甘油三酯(X2)、胰岛
素(X3)和糖化血红蛋白(X4)三个因素。
•最后获得回归方程为：
Yˆ 6.500 0.402X2 0.287X3 0.663X4
17
（三）回归方程的评价 1、确定系数（R2）：
R2 SS回归 SS总
意义：在y的总变异中，由x变量组建立的线性回归方程所能
解释的比例。 0~1，越大越优。
特点：R2是随自变量的增加而增大。
因此，在相近的情况下，以包含的自变量少者为优。
２、R——复相关系数（multiple correlation coefficient）
表示m个自变量共同对应变量线性相关的密切程
度。0≤R≤1。即Y与 Yˆ 的相关系数。
18
３、校正确定系数（adjusted R-square，R2a ）
Model
1
(Constant)
总胆固醇 x1
甘油三脂 x2
胰岛素 x3
糖化血红蛋白 x4
a. Dependent Variable: 血糖 y
Unstandardized Coef ficients
B
Std. Error
5.943
2.829
.142
.366
.351
.204
Xn1
Xn2
…
Xnp
Yn
Y为定量变量——Linear Regression Y为二项分类变量——Binary Logistic Regression Y为多项分类变量——Multinomial Logistic Regression Y为有序分类变量——Ordinal Logistic Regression Y为生存时间与生存结局——Cox Regression
然后根据各因素偏回归平方和从大到小，依次逐个引入回归方程至无显著性自变量可以入选为止，因素一旦入选便始终保留在方程中而不被剔除。
局限性：后续变量的引入可能会使先进入方程的变量变得不重要。
23
3、向后剔除法（Backward elimination）首先建立全部自变量的全回归方程，给定剔除
减一个单位对Y 的效应（Y 增减 b 个单位）。
7
适用条件：
线性（linear）、独立性（independent）、正态性（normal）、方差齐性（equal variance）——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。常利用专业知识判断。正态性——就自变量的任何一个线性组合，应变量y均服从正态分布。即要求残差服从正态分布。常用残差图分析。方差齐性——就自变量的任何一个线性组合，应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。
R Square .601
Adjusted R Square .528
Std. Error of the Estimate
2.0095
2
.773b
.598
.546
1.9721
a. Predictors: (Const ant), 糖化血红蛋白 x4, 甘油三脂 x2, 胰岛素 x3, 总胆固醇 x1 b. Predictors: (Const ant), 糖化血红蛋白 x4, 甘油三脂 x2, 胰岛素 x3
X1
X2
X3
X4
5.68
1.90
4.53
8.2
3.79
1.64
7.32
6.9
6.02
3.56
6.95
10.8
…
…
…
…
5.84
0.92
8.61
6.4
3.84
1.20
6.45
9.6
血糖
(mmol/L) Y
11.2 8.8 12.3 … 13.3 10.4
10
1、建立回归方程
Coef ficientsa
20
（四）自变量的筛选
基本思路：尽可能将回归效果显著的自变量选入方程中，作用不显著的自变量排除在外。（1）全局择优法（all possible subsets selection）：（2）逐步选择法
前进法（Forward selection）后退法（Backward elimination）逐步法（Stepwise）
6
由样本估计而得的多元回归方程：
Yˆ b0 b1 X1 b2 X2 bm Xm
Yˆ 为y的估计值或预测值（predicted value)； b0为回归方程的常数项（constant)，表示各自变量均为0时y 的估计值；
b1、b2、bm为偏回归系数（Partial regression coefficient）意义：如 b1 表示在X2、X3 …… Xm固定条件下，X1 每增
S ig. .000 a
检验结果有显著性意义。
16
对新方程的偏回归系数进行检验
C oe ffi ci en tas
Uns tandardized Standardized
Coe fficients
Coe fficients
Mo del
1
(C on stan t)
B Std. Error
6. 50 0
多因素分析
1
概念多因素分析是同时对观察对象的两个或两个以上
的变量进行分析。常用的统计分析方法有：
多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析等。
2
多变量资料数据格式
例号 X1
X2
…
Xp
Y
1
X11
X12
…
X1p
Y1
2
X21
X22
…
X2p
Y2
┆
┆
┆
…
┆
┆
n
Sig. .047 .701 .099 .036 .016
将总胆固醇(X1) 剔除。注意：通常每次只剔除关系最弱的一个因素。
对于同一资料，不同自变量的t值可以相互比较，t的绝对
值越大，或P越小，说明该自变量对Y所起的作用越大。
14
重新建立不包含提出因素的回归方程
Model 1
(Constant) 甘油三脂 x2
Mo del
Sum of Square s
1
Re g re ssi o n
13 3.71 1
df Me an Square
4
33 .4 28
F
S i g.
8.278 .000a
Re si dua l
88 .8 41
22
4.03 8
To tal
22 2.55 2
26
a. P redict ors: (Const ant ), 总胆固醇 x1, 胰岛素x3, 糖化血红蛋白 x4, 甘油三脂 x2
越大越优。 R2a不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。校正确定系数的计算：
Ra2

1
(1
R2
)
n
n
1
p1

1
MS残 MS总
p 为方程中包含的自变量个数，p≤ m。
R2一定时， p ↑→ R2 a↓ 19
Model Summary
Model 1
R .775a
S um o f S qu are s
1
Re g re s s i o n
13 3.09 8
df Me an S qu are
F
3
44 .3 66 11 .4 07
Residual
89 .4 54
23
3.88 9
To tal
22 2.55 2
26
a. P redict ors: (Constant ), 胰岛素x3, 甘油三脂 x2, 糖化血红蛋白 x4 b. Dependent Variable: 血糖 y
b. Dependent Vari abl e: 血糖 y
13
3、各个偏回归系数的假设检验——t检验
Coef ficientsa
Model
1
(Constant)
总胆固醇 x1
甘油三脂 x2
胰岛素 x3
糖化血红蛋白 x4
a. Dependent Variable: 血糖 y
Unstandardized Coef ficients
B
Std. Error
5.943
2.829
.142
.366
.351
.204
-.271
.121
.638

e商务文档

2020年多元线性回归logistic回归

相关文档推荐：