当前位置：文档之家› LOGISTIC回归

LOGISTIC回归

ln[ p /(1 p)]
1 1
x x x
2 2 i
i
(8) 或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e

i xi i xi i xi)

1
(
即单因素线性LOGISTIC 回归模型公式；
“p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程，得：
e 1 e x
x
(2)
即单因素曲线LOGISTIC 回归模型公式。
单因素非条件LOGISTIC模型参数的解释
ln [p/(1-p)] = + x

二、概念的引入

按线性回归思想可建立模型： P=α +β X 期望P的意义是发生出生低体重的概率

在线性回归模型中,X的取值是任意的,
P值可能大于1或小于0,无法从医学意义进行解释, 显然不适宜用线性回归分析建立预测模型。

为避免P值大于1或小于0, 我们对P进行logit（即 logistic）变换, 把logit（P）作为因变量，即： Logit（P）= + x

logit（P）可以从–∞到+ ∞之间取任何值
准确地说， logistic回归不是分析y与x的关系，而是建立一个概率函数P=P(x)，分析y取某个数值时的概率p与x的关系。
三、非条件Logistic回归分析与列联表分析之间的关系

队列研究：
D+ D-
E+
a
b
a+b
用ln [p/(1-p)]代替 p进行模型拟合称为p的logit变换，对应的模型称为logit 模型。
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e

i xi i xi i xi)

1
(
P e 1 e P 1 e
CHD危险因素定群研究(12年追踪观察结果) 变量截距参数i
i估计值 i标准误
-13.2573
标化i
年龄(岁)
胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3)
ECG(0,1)
0 1 2 3 4 5 6 7
0.1216
40-
病例组对照组
45-
病例组对照组
Data aa; Do age =1 to 5; Do r =1 to 2; Do c =1 to 2; Input freq @@; Output; End; End; End; Cards; 4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301 ; Run;
冠心病血中儿茶酚胺水平高低合计发病 27(a) 44(c) 71(a+c) 未发病 95(b) 443(d) 538(b+d) 合计 122(a+b) 487(c+d) 609(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do r=1 to 2; Do c=1 to 2; Input freq @@; Output; End; End; Cards; 27 95 44 443 ; Run; Proc freq; Tables r*c/nopercent nocol chisq cmh; Weight freq; Run;
：变量 X 之外其他因素的影响：自变量 X 的回归系数，大小由因素 X 决定。 = 0 表明 P与 X 无关，发病不由因素 X 决定； > 0 表明 P与 X 有关，变量 X 是疾病发生的危险因素； < 0 表明 P与 X 有关，变量 X 是疾病发生的保护因素。
2. 多因素LOGISTIC 回归模型与混杂因素的控制线性LOGISTIC 回归模型公式:
子宫内膜癌与口服雌激素的关系
暴组别露合计 183(a+b)
使用过雌激素未用过雌激素 55(a) 128(b)
病例组（子宫内膜癌患者）对照组（非子宫内膜癌患者）合计
19(c)
164(d)
183(c+d)
74(a+c)
292(b+d)
366(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do group=1 to 2; Do exposure=1 to 2; Input freq @@; Output; End; End; Cards; 55 128 19 164 ; Run; Proc freq; Tables group*exposure/nopercent nocol chisq cmh;
OR < 1 表明疾病D与因素 x 有关，变量 x 是疾病发生的保护因素。

对于队列研究，假设研究一个二值暴露变量X与某一疾病之间的关联:

设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比
为: Odds= P1 /(1- P1) (3)

设非暴露组(E-)发病的概率为P0,其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)

1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1

(
1 x1 2 x 2 i x i )
建立的CHD影响因素的Logistic回归模型，公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]} 该多因素LOGISTIC回归分析模型的用途:
SMOKE 吸烟史: 1 吸烟 0 否

PTL
HT UI
早产史: 1 有
0无
妊娠高血压: 1 有 0 无频繁宫缩: 1 有 0 无

FTV
BWT
产前访视次数
出生体重(克)
问题的提出（续）

在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等；分析“母亲怀孕期间体重”对“新生儿出生低体重”的影响
Weight freq;
Run;
分层分析Mantel-Haenszel检验
按年龄分层的心肌梗塞与口服避孕药的关系
年龄分层 25组别病例组对照组 30病例组对照组服过避孕药 4 62 9 33 未服过 2 224 12 390
35-
病例组
对照组
4
26 6 9 6 5
33
330 65 362 93 301
危险度分析和 logistic 回归分析
How to lie with statistics
需要掌握的内容

危险度分析

Logistics回归的概念
Logistics回归参数解释（OR、RR的计算） Logistics回归分析的用途 Logistics回归的适用条件
危险度分析
研究血液中儿茶酚胺水平与冠心病发病之间的关系，对609名男子按血液中儿茶酚胺水平分为高、低两组，经过10年追踪观察，结果见下表，试作危险度分析。
Proc freq; Tables r*c/nopercent nocol chisq cmh; Tables age*r*c/nopercent nocol chisq cmh; Weight freq; Run;
出生体重危险因素研究
一、问题的提出
分析 “新生儿出生体重”的影响

新生儿出生时的体重为因变量
：与变量 xi 无关的因素的影响;
1
x x x
1 2 2 i
i
i : 自变量 xi 的回归系数，大小由因素 xi 决定，是控
制了其他因素的混杂效应后的 i值。 i = 0: 表明 P与 xi 无关，
发病不由因素 xi 决定；
i > 0: 表明 P与 xi 有关，变量 xi是疾病发生的危险因素； i < 0: 表明 P 与 xi 有关，变量 xi 是疾病发生的保护因素。
根据OR定义，得： OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] (5) 两边取自然对数，得： ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] (6) 用Logit P的值带入，得： ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的其他因素均相同，则可认为： 1 = 0 ; 在非暴露人群中不暴露研究因素，可知：x0 = 0, 带入，得： lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
E-
c
d
c+d
a+c
b+d
a+b+c+d
ln [p/(1-p)] 可简记为logit P
1．如果以logitP为因变量，暴露因素X为自变量，建立直线回归方程： Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1)

e商务文档

LOGISTIC回归

相关文档推荐：