logistic回归分析
0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059
-1.281
S.E. 1.095 .315 .680 1.144
.461
Wald 6.657 2.751 7.227 7.143
X7
<24=1, 24<26=2, 26=3
A型性格
X8
否=0,是=1
冠心病
Y
对照=0,病例=1
30
表16-3 冠心病危险因素的病例对照调查资料
序 号
X1
X2
X3
X4
X5
X6
X7
X8
Y
1 31 0 1 0 0 1 1 0
2 20 1 1 0 0 1 0 0
3 21 0 1 0 0 1 0 0
… …… … … … … … … …
OR95%CI
1.039 1.989 1.333 1.039
19.181 265.945 36.834 19.181
36
SPSS中筛选自变量的方法: 1.Forward:即表示逐步回归
三种方法:选入时用记分检验,剔除时 标准不同
54 3 1 1 0 1 0 3 1 1
31
SPSS的应用:
Analyze→ Regression→ binary logistic →dependent:y covariates:x1-x8 method: forward: LR options: enter: 0.10 remove: 0.15 →OK
exp0.8856 1.96 0.1500 1.81, 3.25 24
b1 0.8856 Sb1 0.1500 b2 0.5261 Sb2 0.1572 饮酒与不饮酒优势比:
OR2 expb2 exp0.5261 1.69 OR2 95%可 信 区 间 :
exp b2 u S 0.05/ 2 b2
.044
4.464
1
.012
23.000
1
.021
7.008
1
.002
.009
如何解释?(X6: 动物脂肪摄入)
35
标准化回归系数:
bj' bj sj / / 3
进入变量 Intercept x1 x5 x6 x8
b -4.7050 0.9239 1.4959 3.1355 1.9471
7.715
df 1 1 1 1
1
Sig. .010 .097 .007 .008
.005
Exp(B) 16.875 .593 6.219 21.303
.278
S3tc ep
x5 x6
x8
Constant
S4td ep
x1 x5
x6
x8
Constant
1.722 3.028 1.663 -2.359 .924 1.496 3.135 1.947 -4.705
exp(bj u/ 2Sbj )
22
表 16-1 吸烟、饮酒与食管癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
k
X1
X2
nk
dk
nk-dk
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
1 吸烟
1 饮酒
1 病例
X1
X2
Y
0 不吸烟
0 不饮酒
<24=1, 24<26=2, 26=3
A型性格
X8
否=0,是=1
冠心病
Y
对照=0,病例=1
4
表16-3 冠心病危险因素的病例对照调查资料
序 号
X1
X2
X3
X4
X5
X6
X7
X8
Y
1 31 0 1 0 0 1 1 0
2 20 1 1 0 0 1 0 0
3 21 0 1 0 0 1 0 0
… …… … … … … … … …
Sb 1.5433 0.4766 0.7439 1.2489 0.8466
Waldχ2 9.2950 3.7583 4.0440 6.3031 5.2893
P 0.0023 0.0525 0.0443 0.0121 0.0215
b’
0.4009 0.4058 0.7028 0.5233
OR
4.464 23.000 7.008 4.464
0 对照 23
logistic回归分析结果:
b0 0.9099 Sb0 0.1358 b1 0.8856 Sb1 0.1500 b2 0.5261 Sb2 0.1572 吸烟与不吸烟优势比:
OR1 expb1 exp0.8856 2.42 OR1 95%可 信 区 间 :
exp b1 u S 0.05/ 2 b1
13
食管癌病例对照研究结果
暴露(E)
病例
E+(如吸烟)
aE-(如不吸烟) Nhomakorabeac
对照 b d
暴露(exposure)因素:研究者所关心的任 何因素 E+ :暴露 E- :非暴露
有害的-危险因素 有益的-保护因素
比值(odds) :又称为优势,某事物发生 的可能性与不发生的可能性之比
14
比数比(odds ratio,OR):又称比值比、优 势比,指病例组的暴露比值与对照组的 暴露比值之比,表示疾病与暴露之间的 联系强度。
注: exp x ex
9
1.logistic回归模型
1 阳性结果 (发病、有效、死亡等)
Y
0
阴性结果
(未发病、无效、存活等)
P=P(Y=1 | X1, X2,…, Xm)表示在m个自 变量影响下阳性结果发生的概率
P
1
1 exp - 0 1X1 2 X 2 L m X m
或
ln P 1 P
βj >0:exp(βj)即OR>1 表示Xj是危险因素 βj <0:exp(βj)即OR<1 表示Xj是保护因素 βj =0:exp(βj)即OR=1 表示Xj不起作用
19
二、logistic回归模型的参数估计 logistic回归的分析步骤: 1.根据样本资料估计参数; 2.对参数进行假设检验; 3.筛选变量、并对各自变量的作用大小 作出评价。
不发病概率之比的自然对数。
回归系数βj表示在其它自变量保持不变的情况
下自变量Xj改变一个单位时logitP的平均改变量, 它与衡量危险因素作用大小的OR值有一个对应
的关系。
12
流行病学中的几个概念:
病例对照研究(case-control study):选 择患有特定疾病的人群作为病例组,以不患 有该病但具有可比性的人群作为对照组,调 查两组人群过去暴露于某种可能危险因素的 比例,判断暴露危险因素是否与疾病有关联 及其关联程度大小的一种观察性研究方法。
相对危险度(relative risk,RR):暴露组
与非暴露组发病率之比
发病率小于5%时,OR近似等于RR OR、RR:>1:危险因素
0~1:保护因素
15
ln P 1 P
0
1X1
2X2
mXm
假定其它自变量保持不变时,把X1的某
两个不同暴露水平分别赋值为c1和c0
X1=c1
:
ln P1 1 P1
.714 1.176 .785 .770 .477 .744 1.249 .847 1.543
a. Variable(s) entered on step 1: x6.
b. Variable(s) entered on step 2: x5.
c. Variable(s) entered on step 3: x8.
Exp(B) 2.424 1.692 .403