当前位置：文档之家› logistic回归分析

logistic回归分析

i 反映了在其他变量固定后，X=1与x=0相
比发生Y事件的对数优势比。
回归系数β与OiR
X与Y的关联
β=0，OR=1，
无关
β＞1，OR＞1 ，有关，危险因素
β＜1，OR＜1，有关，保护因子
事件发生率很小，OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数（βi）估计
， l n 1 P P =01 X 12 X 2 m X m
四、变量筛选
目的；将回归系数有显著意义的自变量选入模型中，作用不显著的自变量则排除在外。
变量筛选算法有：前进法、后退法和
逐步法（stepwise）。例：讲义例16-2，用逐步法选入变量的显著水准为0.10，变量保留在方
程的水准为0.15 例：16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
X8 1.ቤተ መጻሕፍቲ ባይዱ47 0.847 5.29 0.0215 0.523 7.01
bj'bjsj/(/ 3)
标准回归系数（b’）比较各自变量对Y 的相对贡献
第二节条件Logistic回归
概念：用配对设计获得病例对照研究资料，计算的
Logistic回归模型为条件Logistic回归。
成组（未配对）设计的病例对照研究资料，计算的 Logistic回归模型为非条件Logistic回归。
三类研究计算的logistic 回归模型的β意义是一致。仅常数项不同。（证明略）
Logistic回归的应用
2.校正混杂因素，对疗效做评价在临床研究和疗效的评价，组间某些因素构
成不一致干扰疗效分析，通过该法可控制非处理因素，正确评价疗效。
3.预测与判别预测个体在某因素存在条件下，发生某事件
（发病）的概率，为进一步治疗提供依据。
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30（a） 10（ b）
70（c） 90（d）
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
p1
a
a
c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
lo g it(p ) ln 1 P P =01 X 1 m X m
2.检验二：
检验模型中某β是否对Y有作用。
检验假设： H0:j 0 H1:j 0
检验统计量：主要为Wald检验（SAS软件）
2 ( bj )2
例；
Sbj
ν=1的χ2
公式16-13
在大样本时，2 三方(法0.0 结8.8 1 果5 5一6)致2。33.86
例表16-1资料，对各x的β做检验（wald检验）参数 β估计值标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
第一节 logistic回归一、基本概念
1.变量的取值 logistic回归要求应变量（Y）取值为分类变量
（两分类或多个分类）
1 Y0
出现阳性(发结病果、有效、死亡出现阴性(未结发果病、无效）、存
自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm
第十六章 logistic回归分析
logistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x) 之间关系的一种多变量分析方法
问题提出：
医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？
因素（X）
疾病结果（Y）
x1，x2，x3…XK
发生
Y=1
不发生 Y=0
或
1 p (y 1 /x 1 ,x 2 x k ) 1 e ( 0 1 x k .... k x k )
2.模型中参数的意义
ln1 PP=01X1
Β0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值。
ln 1 P P (y (y 1/0x/x 0)0)=0
i 的含义：某危险因素，暴露水平变化时，即
Xi=1与Xi=0相比，发生某结果（如发病）优势比的对数值。
lnORlnPP01 //((11PP10)) logitP1 logitP0
P1（y=1/x=1）的概率 P0（y=1/x=0）的概率
(0 1x1)(0 x0) 1x1
ORe
OR P1/1 (P1)od1d P0/1 (P0) od0d
ln L 0 (X 1 ) 5 8 5 .3 2 6 lo g it(p )01 x 1
G 2 [lnL (X 1,X 2)lnL (X 1) 2 ( 5 7 9 .7 1 1( 5 8 5 .3 2 6 )] 1 1 .2 3
G ＞3.84，p＜0.05，说明调整吸烟因素后，饮酒与食管癌有关系。
方程如下：
线形关系
y lo i(t p g )01 x 1 Y～（-∞至+∞）
截距（常数）
回归系数
在有多个危险因素（Xi）时
多个变量的logistic回归模型方程的线性表
达：
公式16-2
lo g l 1 n P iP t = (0 p 1 X 1 ) 2 X 2 m X m
通常用最大似然函数 (maximum likelihood estimate， MLE)估计β，由统计软件包完成。(讲义259页）
ORe
如X=1，0两分类，则OR的1-α可信区间
估计公式
e(bj u/2Sbj )
S 为回归系数 b j 的标准误
（公式16-10）
例：讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例－对照资料（886例），试作logistic回归分析。
乙疗法
治疗原治预期
原治预期
人数愈率治愈数愈率治愈数
普通型 400 60.0 240
65.0 260
重型 400 35.0 140
41.7 167
合计 800
380
427
调整率（标准化率）：
P 甲 ' N N iP ii 8 30 84 0 0.5 7% P乙'8402075.34%
X1疗法（甲=0，乙=1）X2病情（轻=1，重 =0） Y疗效（Y=1有效，Y=0无效）
e 0 x P (y 0 /x 1 ) 1 1 e 0 x 1 p 1
e0 p0P (y1/x0)e 0 1e0 P (y 0 /x 0 ) 1 1 e 0 1 p 0
logistic回归模型方程的线性表达
对logistic回归模型的概率（p）做logit变
换， logit(p)ln( p ) 1p
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
该法研究是当 y 取某值（如y=1）发生的概率（p）与
某暴露因素（x）的关系。
p ( y 1 /x ) f( x ) ,即 p f( x )
P（概率）的取值波动0～1范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系。
变量 β
Sb Waldχ2 P 标准β’ OR
常数 -4.705 1.54 9.30 0.0023
年龄 0.924 0.477 3.76 0.0525 0.401 2.52
X5 1.496 0.744 4.04 4.46
0.0443 0.406
X6 3.136 1.249 6.30 0.0121 0.703 23.06
例1
例：
表5-4甲乙两疗法某病治愈率%比较
病型
愈
率普通型
65.0 重型
41.7 合计
47.5
病人数
300 100 400
甲疗法治愈治愈
数
率
180 60.0
35 35.0
215 53.8
乙疗法病人治愈治
数
数
100
65
300
125
400
190
表5-5直接法计算标准化治愈率
病型标准
甲疗法
变量的赋值
1 Y
0
食管癌患者对照：非食管癌
1 X1 0
吸烟
1
不吸烟 X2 0
饮酒不饮酒
经logistic回归计算后得 b0 =-0.9099， b1 =0.8856， b2
方程=表0.5达2：61，
ln (p) 0 .9 0 9 9 0 .8 8 5 6 x 1 0 .5 2 6 1 x 2 1 p
Odds Ratio Estimates Point 95% Wald
Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
似然比检验（讲义）
对某个β做检验，检验统计量（G）
G 2 (lnL 1lnL 0)
1.对建立的整个模型做检验。 ln (p) 0 .9 0 9 9 0 .8 8 5 6 x 1 0 .5 2 6 1 x 2 1 p
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001

e商务文档

logistic回归分析

相关文档推荐：