当前位置:
文档之家› Logistic回归分析2019
Logistic回归分析2019
目的:作出以多个自变量(危险因素)估计应 变量(结果因素)的logistic回归方程。属于 概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的 二值变量或多分类变量;2. 自变量宜全部或大 部分为分类变量,可有少数数值变量。分类变 量要数量化。
医学研究中常碰到应变量的可能取值仅有 两个(即二分类变量),如发病与未发病、 阳性与阴性、死亡与生存、治愈与未治愈、 暴露与未暴露等,也有多分类的应变量, 如疗效分级,血压等级等。
• 哑变量
• 自变量为多分类变量,与应变量之间通常 不存在线性关系,须用哑变量方式分析。 若K为该变量的水平数,则系统将自动产生 K-1个哑变量。Categorical子对话框用于此 设置。
• 多分类无序自变量
• 多分类有序自变量,要求其等级分组与 LogitP呈线性关系,如不满足条件,则将等 级变量当作无序变量,用哑变量进行分析。
病例 对照
55(a) 19(c)
128(b) 164(d)
O R P 1(1P 1)ad 5 5163 4.7089 P 0(1P 0) bc1 9128
9% C 5:3 I .7 e0 x 1 8 p.9 5 1 9 5 1 6 1 2 1 18 9 1 16 2 4 .09 ~ 6 .6 54 6
• 要求: • (1)各观察对象的独立性 • (2)所需样本量大小与自变量的个数
一、Logistic回归方程 Logistic回归的logit模型
P = 1 x1 2 x2 n xn
Logit变 换 P转 换 为 ln[P/(1-P)]
logit (P )= 1 x1 2 x2 n xn ln[P /(1-P )]= 1x1 2 x2 n xn
0,
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
当 P1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由于 OR j 值与模型中的常数项 0 无关, 0 在危险因素分析中通常视其为无效参数。
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
两个比值之比称为比值比(Odds Ratio),简称OR。
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
即 O R jexp[ j(c1c0)]
若 Xj 1 0
暴 露 非 暴 露 , c1c01,
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的
改变量。它与比数比(优势比)(odds ratio) 有对应关系。是对自变量Xi 作用大小的一种度量。
• Logistic回归中的常数项(b0)表示,在不接触任 何潜在危险/保护因素条件下,效应指标发生与 不发生事件的概率之比的对数值。
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
P0 1-P0
=
-0.2478
OR P1 (1 P1) P0 (1 P0)
ln O )( R l n P 1/1 ( P 1 ) l nP 1 l nP 0 1 .310 P 0/1 ( P 0) 1 P 1 1 P 0
O Re1.31073.7089
• 单因素病例对照研究的OR,与logistic 回归等价;
e( 1x12x2 nxn ) P 1 e( 1x12x2 nxn ) 1 P 1 e 1 (1x12x2 nxn )
其中,为常数项,为偏回归系数。
参数解释
比数(优势) Odds=P/(1-P)
优势比(比值比)OR(odds
r P0 /(1P0)
设P表示暴露因素X时个体发病的概率,则发病的概率P与 未发病的概率1-P 之比为优势(odds), logit P就是 odds的对数值。
ln(O R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
ln
1
P0 P0
( 1) ( 0)
=
• 一个暴露因素时,当暴露为c1,非暴露为c0时,
ln (O
R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
• Logistic回归中的回归系数( bi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
Logistic回归系数的意义
• 分析因素xi为二分类变量时,存在(暴 露)xi =1,不存在(未暴露)xi =0, 则Logistic回归中xi的系数bi就是暴露与 非暴露优势比的对数值。即 OR=exp(bi)=e (bi)
Logistic回归分析
汕大医学院预防医学教研室
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。
Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
注意:有实际意义;参照水平有一定频数保证。
为了便于解释,对二项分类变量一般按0、1编码, 一般以0表示阴性或较轻情况,而1表示阳性或较 严重情况。
西、中西、中三种疗法哑变量化
X1= 1 西 0 其它
X2= 1 中西 0 其它
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
多因素Logistic回归分析时,对回 归系数的解释都是指在其它所有自变量 固定的情况下的优势比。存在因素间交 互作用时, Logistic回归系数的解释变 得更为复杂,应特别小心。
回归系数与OR的关系
• logistic回归中的系数,与OR有关!
• 一个暴露因素时,当暴露为1,非暴露为0时,
=ln(OR)
53例接受手术的前列腺癌患者情况
26例冠心病病人和28例对照者进行 病例对照研究
26例冠心病病人和28例对照者进行 病例对照研究
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
• (1)取值问题
• (2)曲线关联
• 反应变量与自变量的关系通常不是直线关 系,而是S型曲线。曲线回归时,往往采用 变量变换,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
概率P是以0.5为对称点,分布在0~1的范围内 的,而相应的Logit(P)的大小为
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
logPi=t-0.24+17.831x07 ln1-PP=-0.24+718.31x07
四格表资料与logistic回归
• X=1时 • X=0 时
ln1P -P 11 =-0.24781.3107
ln
回归系数的区间估计
bi u Sbi
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作logistic回归分析。
确 定
X
1
1
0
吸烟 不吸烟
各 变 量
X
2
1
0
饮酒 不饮酒
编
码
Y
1
病例
0 对 照
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g X1 X2
ng
dg ngdg
1 0 0 199 63 136
2 0 1 170 63 107
3 1 0 101 44 57
4 1 1 416 265 151
经logistic回归计算后得:
经 lo g is t ic 回 归 计 算 后 得
b0 = - 0 . 9 0 9 9 , S b0 S b1 = 0 . 1 5 0 0 ;b 2
实例
试验者术前检查了53例前列腺癌患者,拟 用年龄(AGE)、酸性磷酸酯酶(ACID)两个连 续型的变量,X射线(X-RAY)、术前探针活 检病理分级(GRADE)、直肠指检肿瘤的大小 与位置(STAGE)三个分类变量与手术探查结 果变量NODES(1、0分别表示癌症的淋巴结 转移与未转移 )建立淋巴结转移的预报模 型。
• Logit变换
也称对数单位转换
logit P= l n
P 1 P
j(j1,2, ,m )
ln 1 P P = 01X 12X 2m X mlo g itP