logistic回归分析
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
L PYi (1 P )1Yi i i
i 1
n
( i 1, 2,, n )
(15.1)
设 Z 0 1 X 1 2 X 2 m X m ,则 Z 与 P 之间关系的 logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随 Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
(二)病例与对照匹配---条件logistic回归 1、成组匹配(category matching):匹配的因素所占的比例,在对照组 和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组 也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m 匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。 (三)巢式病例对照研究 也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的 方法。
(15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳 性结果发生的概率。阳性结果时, Yi 1 ;阴性结 果时, Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。 对似然函数取对数形式:
ln L [Yi ln P (1 Yi )ln(1 P )] i i
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露, 则暴露组和非暴露组发病的优势比为: OR j exp j 当 j =0 时, ORj =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, ORj >1,表示 X j 是一个危险因素;
j <0 时, ORj <1,表示 X j 是一个保护因素。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值:
ˆ OR j exp[b j (c1 c0 )]
当样本含量 n 较大时, bj 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平, 则优势比 OR j 的 100(1 )%可信区间为:
exp(bj u 2 Sbj )
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
表 15-1 分层 g 1 2 3 4 吸烟 X 1 0 0 1 1 吸烟、饮酒与食管癌关系的病例-对照研究资料 饮酒 X 2 0 1 0 1 总例数 ng 199 170 101 416 阳性数 d g 63 63 44 265 阴性数 ng d g 136 107 57 151
第一节
logistic 回归模型:
logistic回归
设因变量Y 是一个二分类变量,其取值为 Y =1 和 Y =0。 影响 Y 取值的 m 个自变量分别为 X 1 , X 2 , , X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件 概率为 P P(Y 1 X 1 , X 2 , , X m ) ,则 logistic 回归模 型可表示为: exp( 0 1 X 1 2 X 2 m X m ) P 1 exp( 0 1 X 1 2 X 2 m X m ) 其中, 0 为常数项, 1 , 2 , , m 为偏回归系数。
病例对照研究的类型
(一)病例与对照不匹配---非条件logistic回归
在设计所规定的病例和对照人群中,分别抽取一定量的研究 对象,一般对照应等于或多于病例数,此外无其他任何限制。
(二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征 上与病例保持一致,目的是对两组比较时排除混杂因素的 干扰。匹配分为成组匹配和个体匹配。
i 1
n
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对 于参数 j ( j 1, 2,, m ) ,令 ln L 的一阶导数为 0, 即
ln L 0 ,用 Newton-Raphson 迭代方法解方程组, j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sb j 。
ln[exp(0 1 X1 2 X 2 m X m )]
0 1 X1 2 X 2 m X m
(15.2)
模型参数的流行病学含义
当各种暴露因素为 0 时: P ln( ) 0 1 X 1 2 X 2 m X m 1 P 0 1 0 m 0 0 可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2, , m )表示在其它自变量固定的 条件下,第 j 个自变量每改变一个单位时 logit (P ) 的改变 量。它与比数比(优势比) OR (odds ratio)有对应关系。
路径分析
结构方程模型分析
logistic回归(logistic regression)是研究因变量为二分类 或多分类观察结果与影响因素(自变量)之间关系的一种 多变量分析方法,属概率型非线性回归。 在流行病学研究中,常需要分析疾病与各种危险因素间的 定量关系,同时为了能真实反映暴露因素与观察结果间的 关系,需要控制混杂因素的影响。 (1)Mantel-Haenszel分层分析:适用于样本量大、分析 因素较少的情况。当分层较多时,由于要求各格子中例数 不能太少,所需样本较大,往往难以做到;当混杂因素较 多时,分层数也呈几何倍数增长,这将导致部分层中某个 格子的频数为零,无法利用其信息。
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
病例对照研究(case-control studies):一种由果及因的回顾性
在其它影响因素相同的情况下,某危险因素 X j 两个 不同暴露水平 c1 和 c0 发病优势比的自然对数为:
P1 (1 P1 ) P0 P1 ) ln( ) ln OR j ln = ln( 1 P1 1 P0 P0 (1 P0 )
= j (c1 c0 ) 则该因素的优势比: OR j exp[ j (c1 c0 )] 式中 P1 和 P0 分别表示在 X j 取值为 c 1 和 c 0 时的发病 概率, ORj 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
P logit 变换:logit P = ln 为 P 的 logit 变换, 1 P 通过 logit 变换之后,就可将 0 P 1 的资料转换为
logit( P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
exp( 0 1 X 1 2 X 2 m X m ) 1 exp( 0 1 X 1 2 X 2 m X m ) P ln( ) ln[ ] exp( 0 1 X 1 2 X 2 m X m ) 1 P 1 1 exp( 0 1 X 1 2 X 2 m X m )
由于 ORj 值与模型中的常数项 0 无关,因此 0 在危 险因素分析中常常被视为无效参数。对于发病率很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度(relative risk ,RR)的近似估计。
P (1 P ) P 1 1 RR 即 OR 1 P0 (1 P0 ) P0