LOGISTIC回归
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
(8) 或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
即单因素线性LOGISTIC 回归模型公式;
“p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程,得:
e 1 e x
x
(2)
即单因素曲线LOGISTIC 回归模型公式。
单因素非条件LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
二、概念的引入
按线性回归思想可建立模型: P=α +β X 期望P的意义是发生出生低体重的概率
在线性回归模型中,X的取值是任意的,
P值可能大于1或小于0,无法从医学意义 进行解释, 显然不适宜用线性回归分析 建立预测模型。
为避免P值大于1或小于0, 我们对P进行logit(即 logistic)变换, 把logit(P)作为因变量,即 : Logit(P)= + x
logit(P)可以从–∞到+ ∞之间取任何值
准确地说, logistic回归不是分析y与x的关系,而是建立一个概率 函数P=P(x),分析y取某个数值时的概率p与x的关系。
三、非条件Logistic回归分析与列联表分析之间的关系
队列研究:
D+ D-
E+
a
b
a+b
用ln [p/(1-p)]代替 p进行 模型拟合称为p的logit变 换,对应的模型称为logit 模型。
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
P e 1 e P 1 e
CHD危险因素定群研究(12年追踪观察结果) 变量 截距 参数i
i估计值 i标准误
-13.2573
标化i
年龄(岁)
胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3)
ECG(0,1)
0 1 2 3 4 5 6 7
0.1216
40-
病例组 对照组
45-
病例组 对照组
Data aa; Do age =1 to 5; Do r =1 to 2; Do c =1 to 2; Input freq @@; Output; End; End; End; Cards; 4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301 ; Run;
冠心病 血中儿茶酚胺水平 高 低 合计 发病 27(a) 44(c) 71(a+c) 未发病 95(b) 443(d) 538(b+d) 合计 122(a+b) 487(c+d) 609(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do r=1 to 2; Do c=1 to 2; Input freq @@; Output; End; End; Cards; 27 95 44 443 ; Run; Proc freq; Tables r*c/nopercent nocol chisq cmh; Weight freq; Run;
:变量 X 之外其他因素的影响 :自变量 X 的回归系数,大小由因素 X 决定。 = 0 表明 P与 X 无关, 发病不由因素 X 决定; > 0 表明 P与 X 有关, 变量 X 是疾病发生的危险因素; < 0 表明 P与 X 有关, 变量 X 是疾病发生的保护因素。
2. 多因素LOGISTIC 回归模型与混杂因素的控制 线性LOGISTIC 回归模型公式:
子宫内膜癌与口服雌激素的关系
暴 组 别 露 合计 183(a+b)
使用过雌激素 未用过雌激素 55(a) 128(b)
病例组 (子宫内膜癌患者) 对照组 (非子宫内膜癌患者) 合计
19(c)
164(d)
183(c+d)
74(a+c)
292(b+d)
366(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do group=1 to 2; Do exposure=1 to 2; Input freq @@; Output; End; End; Cards; 55 128 19 164 ; Run; Proc freq; Tables group*exposure/nopercent nocol chisq cmh;
OR < 1 表明疾病D与因素 x 有关,变量 x 是疾病发生的保护因素。
对于队列研究,假设研究一个二值暴露变量X与某一疾病之 间的关联:
设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比
为: Odds= P1 /(1- P1) (3)
设非暴露组(E-)发病的概率为P0,其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(
1 x1 2 x 2 i x i )
建立的CHD影响因素的Logistic回归模型,公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]} 该多因素LOGISTIC回归分析模型的用途:
SMOKE 吸烟史: 1 吸烟 0 否
PTL
HT UI
早产史: 1 有
0无
妊娠高血压: 1 有 0 无 频繁宫缩: 1 有 0 无
FTV
BWT
产前访视次数
出生体重(克)
问题的提出(续)
在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等; 分析“母亲怀孕期间体重”对“新生儿出生低 体重”的影响
Weight freq;
Run;
分层分析Mantel-Haenszel检验
按年龄分层的心肌梗塞与口服避孕药的关系
年龄分层 25组别 病例组 对照组 30病例组 对照组 服过避孕药 4 62 9 33 未服过 2 224 12 390
35-
病例组
对照组
4
26 6 9 6 5
33
330 65 362 93 301
危险度分析和 logistic 回归分析
How to lie with statistics
需要掌握的内容
危险度分析
Logistics回归的概念
Logistics回归参数解释(OR、RR的计算) Logistics回归分析的用途 Logistics回归的适用条件
危险度分析
研究血液中儿茶酚胺水平与冠心病发病之间的关系, 对609名男子按血液中儿茶酚胺水平分为高、低两组, 经过10年追踪观察,结果见下表,试作危险度分析。
Proc freq; Tables r*c/nopercent nocol chisq cmh; Tables age*r*c/nopercent nocol chisq cmh; Weight freq; Run;
出生体重危险因素研究
一、问题的提出
分析 “新生儿出生体重”的影响
新生儿出生时的体重为因变量
:与变量 xi 无关的因素的影响;
1
x x x
1 2 2 i
i
i : 自变量 xi 的回归系数,大小由因素 xi 决定,是控
制了其他因素的混杂效应后的 i值。 i = 0: 表明 P与 xi 无关,
发病不由因素 xi 决定;
i > 0: 表明 P与 xi 有关, 变量 xi是疾病发生的危险因素; i < 0: 表明 P 与 xi 有关, 变量 xi 是疾病发生 的保护因素。
根据OR定义,得: OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] (5) 两边取自然对数,得: ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] (6) 用Logit P的值带入,得: ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的 其他因素均相同,则可认为: 1 = 0 ; 在非暴露人群中不暴露研究因素,可知:x0 = 0, 带入,得: lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
E-
c
d
c+d
a+c
b+d
a+b+c+d
ln [p/(1-p)] 可简记为logit P
1.如果以logitP为因变量,暴露因素X为自变量, 建立直线回归方程: Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1)