当前位置:文档之家› logistic回归分析

logistic回归分析


2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) = 0 ln 1 P( y 0 / x 0)
i
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计

P ln = 0 1 X 1 2 X 2 m X m 1 P
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
研究问题可否用多元线性回归方法?
ˆ y a b1 x1 b2 x2 bm xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 3.多元线性回归结果 Y 不能回答“发生 与否” logistic回归方法补充多元线性回归的不足
OR e

如X=1,0两分类,则OR的1-α可信区间 估计公式
e
( b j u / 2 Sb j )
Sb j
为回归系数 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。 变量的赋值
1 Y 0
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
p log it ( p) ln( ) 1 p
方程如下:
线形 关系
y log it ( p) 0 1 x1
Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
Point
Effect 吸烟x1 饮酒x2 Estimate 2.424 1.692
95% Wald
Confidence Limits 1.807 1.244 3.253 2.303
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
ln L1 ln L0
包括p个自变量的对 数似然函数 包括 l 个自变量的 对数似然函数
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 常数-0.9099 吸烟 0.8856 标准误 0.1358 0.1500 Chi-Squa 44.8699 34.8625 Pr .0001 .0001
饮酒 0.5261
0.1572
11.2069
.0008
Odds Ratio Estimates
b j ' b j s j /( / 3)
标准回归系数(b’) 比较各自变量对Y 的相对贡献
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的 Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。 例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主 要用于危险因素的分析。
饮酒与不饮酒OR的95%可信区间:
exp(b2 u / 2 Sb2 ) exp(0.5261 1.96 0.1572) (1.24, 2.30)
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
三、Logistic 回归模型的假设检验
H 0 : 1 2 m 0
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1, 无=0, 记为p(y=1/x)表示某暴露因素状态下, 结果y=1的概率(P)模型。x 0

e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P /(1 P ) 1 ln OR ln 1 P0 /(1 P0 ) log itP log itP0 1
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的
i
概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 β=0,OR=1, 无关 β>1,OR>1 , 有关,危险因素 β<1,OR<1, 有关,保护因子
模型描述了应变量p与x的关系
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
Z值 -3 -2 -1 0 1 2 3
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P /(1 P ) odds1 1 OR 1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
项 一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(β i)和OR说明 危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
DF 2 2 2
Pr <.0001 <.0001 <.0001
2.检验二:
检验模型中某β是否对Y有作用。 检验假设:
H0 : j 0
bj Sb j
2
H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
(
2
)
2
ν=1的χ2
公式16-13
例;
0.8856 2 ( ) 在大样本时,三方法结果一致。 33.86 0.15
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出: 医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无 冠心病结果 有 或 无
1 X1 0
食管癌患者 对照:非食管癌
吸烟 不吸烟
1 X2 0 饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261, 方程表达:
p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p
H1 : 各(j 1, ,m)不全为0 2, j
P ln = 0 1 X 1 2 X 2 m X m 1 P
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p( y 1/ x) f ( x),即p f ( x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
exp( ) OR
exp( 0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp( 0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u / 2 Sb1 ) exp(0.8856 1.96 0.15) (1.81,3.25)
多个变量的logistic回归模型方程的线性表达: 公式16-2
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或ห้องสมุดไป่ตู้
p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
1.对建立的整个模型做检验。 p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p
相关主题