当前位置：文档之家› Logistic回归分析2019

Logistic回归分析2019

目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。
资料：1. 应变量为反映某现象发生与不发生的二值变量或多分类变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变量。分类变量要数量化。
医学研究中常碰到应变量的可能取值仅有两个（即二分类变量），如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，也有多分类的应变量，如疗效分级，血压等级等。
• 哑变量
• 自变量为多分类变量，与应变量之间通常不存在线性关系，须用哑变量方式分析。若K为该变量的水平数，则系统将自动产生 K-1个哑变量。Categorical子对话框用于此设置。
• 多分类无序自变量
• 多分类有序自变量，要求其等级分组与 LogitP呈线性关系，如不满足条件，则将等级变量当作无序变量，用哑变量进行分析。
病例对照
55(a) 19(c)
128(b) 164(d)
O R P 1(1P 1)ad 5 5163 4.7089 P 0(1P 0) bc1 9128
9% C 5:3 I .7 e0 x 1 8 p.9 5 1 9 5 1 6 1 2 1 18 9 1 16 2 4 .09 ~ 6 .6 54 6
• 要求： • （1）各观察对象的独立性 • （2）所需样本量大小与自变量的个数
一、Logistic回归方程 Logistic回归的logit模型
P = 1 x1 2 x2 n xn
Logit变换 P转换为 ln[P/(1-P)]
logit (P )= 1 x1 2 x2 n xn ln[P /(1-P )]= 1x1 2 x2 n xn
0,
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
当 P1 , 则有 O RP 1/(1P 1) R R P 0/(1P 0)
由于 OR j 值与模型中的常数项 0 无关， 0 在危险因素分析中通常视其为无效参数。
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义：常数项是当各种暴露因素为0时，个体发
两个比值之比称为比值比（Odds Ratio),简称OR。
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时的发病概率， OR j 称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。
即 O R jexp[ j(c1c0)]
若 Xj 1 0
暴露非暴露 , c1c01,
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数，表示在其它自变量固定的 • 条件下，第i个自变量每改变一个单位时logit的
改变量。它与比数比（优势比）（odds ratio）有对应关系。是对自变量Xi 作用大小的一种度量。
• Logistic回归中的常数项（b0）表示，在不接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。
• 分析因素xi为等级变量时，如果每个等级的作用相同，可按计量资料处理：如以最小或
最大等级作参考组，并按等级顺序依次取为
0，1，2，…。此时， e(bi) 表示xi增加一个等级时的优势比， e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同，则
应按多分类资料处理。
• 分析因素xi为连续性变量时， e(bi)表示xi增加一个计量单位时的优势比。
P0 1-P0
=
-0.2478
OR P1 (1 P1) P0 (1 P0)
ln O )( R l n P 1/1 ( P 1 ) l nP 1 l nP 0 1 .310 P 0/1 ( P 0) 1 P 1 1 P 0
O Re1.31073.7089
• 单因素病例对照研究的OR，与logistic 回归等价；
e( 1x12x2 nxn ) P 1 e( 1x12x2 nxn ) 1 P 1 e 1 (1x12x2 nxn )
其中，为常数项，为偏回归系数。
参数解释
比数（优势） Odds=P/(1-P)
优势比（比值比）OR(odds
r P0 /(1P0)
设P表示暴露因素X时个体发病的概率，则发病的概率P与未发病的概率1-P 之比为优势（odds）， logit P就是 odds的对数值。
ln(O R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
ln
1
P0 P0
( 1) ( 0)
=
• 一个暴露因素时，当暴露为c1，非暴露为c0时，
ln (O
R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
• Logistic回归中的回归系数（ bi ）表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR的对数值。
Logistic回归系数的意义
• 分析因素xi为二分类变量时，存在（暴露）xi ＝１，不存在（未暴露）xi ＝０，则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值。即 OR=exp(bi)=e (bi)
Logistic回归分析
汕大医学院预防医学教研室
第一节 Logistic 回归
Logistic regression：
是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析（线性回归分析：应变量为连续计量资料）。
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。
注意：有实际意义；参照水平有一定频数保证。
为了便于解释，对二项分类变量一般按0、1编码，一般以0表示阴性或较轻情况，而1表示阳性或较严重情况。
西、中西、中三种疗法哑变量化
X1= 1 西 0 其它
X2= 1 中西 0 其它
• 分析因素xi为多分类变量时，为方便起见，常用1，2，…，k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量（design/dummy variable），这样指示变量都是一个二分变量，每一个指示变量均有一个估计系数，即回归系数，其解释同前。
多因素Logistic回归分析时，对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时， Logistic回归系数的解释变得更为复杂，应特别小心。
回归系数与OR的关系
• logistic回归中的系数，与OR有关！
• 一个暴露因素时，当暴露为1，非暴露为0时，
＝ln(OR)
53例接受手术的前列腺癌患者情况
26例冠心病病人和28例对照者进行病例对照研究
26例冠心病病人和28例对照者进行病例对照研究
根据研究设计不同
• Logistic回归的分类
Logistic回归二分类多分类
非条件：成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
• （1）取值问题
• （2）曲线关联
• 反应变量与自变量的关系通常不是直线关系，而是S型曲线。曲线回归时，往往采用变量变换，使得曲线直线化，再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年，COX引入了用于人口学领域的Logit变换。
概率P是以0.5为对称点，分布在0~1的范围内的，而相应的Logit（P)的大小为
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
logPi=t-0.24+17.831x07 ln1-PP=-0.24+718.31x07
四格表资料与logistic回归
• X=1时 • X=0 时
ln1P -P 11 =-0.24781.3107
ln
回归系数的区间估计
bi u Sbi
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例－对照资料，试作logistic回归分析。
确定
X
1
1
0
吸烟不吸烟
各变量
X
2
1
0
饮酒不饮酒
编
码
Y
1
病例
0 对照
表16-1 吸烟与食道癌关系的病例－对照调查资料
分层吸烟饮酒观察例数阳性数阴性数
g X1 X2
ng
dg ngdg
1 0 0 199 63 136
2 0 1 170 63 107
3 1 0 101 44 57
4 1 1 416 265 151
经logistic回归计算后得:
经 lo g is t ic 回归计算后得
b0 = - 0 . 9 0 9 9 ， S b0 S b1 = 0 . 1 5 0 0 ；b 2
实例
试验者术前检查了53例前列腺癌患者，拟用年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量，X射线(X-RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量与手术探查结果变量NODES（1、0分别表示癌症的淋巴结转移与未转移）建立淋巴结转移的预报模型。
• Logit变换
也称对数单位转换
logit P= l n
P 1 P
j(j1,2, ,m )
ln 1 P P = 01X 12X 2m X mlo g itP

e商务文档

Logistic回归分析2019

相关文档推荐：