当前位置：文档之家› logistic回归分析

logistic回归分析

队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研
究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。
调查方向：追踪收集资料暴露疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）或率比（rate ratio） RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。
调查方向：收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。建立样本似然函数：
L PYi (1 P )1Yi i i
i 1
n
（ i 1, 2,, n ）
（15.1）
设 Z 0 1 X 1 2 X 2 m X m ，则 Z 与 P 之间关系的 logistic 曲线如下图所示。
可看出：当 Z 趋于时， P 值渐进于 1；当 Z 趋于时， P 值渐进于 0； P 值的变化在 0~1 之间，并且随 Z 值的变化以点（0,0.5）为中心成对称 S 形变化。
（二）病例与对照匹配---条件logistic回归 1、成组匹配（category matching）：匹配的因素所占的比例，在对照组和在病例组一致。如病例组中男女各半，65岁以上者占1/3，则对照组也是如此。 2、个体匹配（individual matching）：以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对（pair matching）， 1:2，┅ ，1:m 匹配时称为匹配。匹配的特征必须是已知的混杂因子，或者有充分的理由怀疑其为混杂因子，否则不应匹配。（三）巢式病例对照研究也称为队列内的病例对照研究，是将队列研究和病例对照研究相结合的方法。
(15.6)
其中， Pi 表示第 i 例观察对象处于暴露条件下时阳性结果发生的概率。阳性结果时， Yi 1 ；阴性结果时， Yi 0 。
根据最大似然原理，似然函数 L 应取最大值。对似然函数取对数形式：
ln L [Yi ln P (1 Yi )ln(1 P )] i i
设 X j 为两分类变量： c1 =1 为暴露， c0 =0 为非暴露，则暴露组和非暴露组发病的优势比为： OR j exp j 当 j =0 时， ORj =1，表示因素 X j 对疾病的发生不起作用； j >0 时， ORj >1，表示 X j 是一个危险因素；
j <0 时， ORj <1，表示 X j 是一个保护因素。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值：
ˆ OR j exp[b j (c1 c0 )]
当样本含量 n 较大时， bj 的抽样分布近似服从正态分布，若 X j 只有暴露和非暴露 2 个水平，则优势比 OR j 的 100(1 )%可信区间为：
exp(bj u 2 Sbj )
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查资料，试进行 logistic 回归分析。
表 15-1 分层 g 1 2 3 4 吸烟 X 1 0 0 1 1 吸烟、饮酒与食管癌关系的病例-对照研究资料饮酒 X 2 0 1 0 1 总例数 ng 199 170 101 416 阳性数 d g 63 63 44 265 阴性数 ng d g 136 107 57 151
第一节
logistic 回归模型:
logistic回归
设因变量Y 是一个二分类变量，其取值为 Y =1 和 Y =0。影响 Y 取值的 m 个自变量分别为 X 1 , X 2 , , X m 。在 m 个自变量（即暴露因素）作用下阳性结果发生的条件概率为 P P(Y 1 X 1 , X 2 , , X m ) ，则 logistic 回归模型可表示为： exp( 0 1 X 1 2 X 2 m X m ) P 1 exp( 0 1 X 1 2 X 2 m X m ) 其中， 0 为常数项， 1 , 2 , , m 为偏回归系数。
病例对照研究的类型
（一）病例与对照不匹配---非条件logistic回归
在设计所规定的病例和对照人群中，分别抽取一定量的研究对象，一般对照应等于或多于病例数，此外无其他任何限制。
（二）病例与对照匹配---条件logistic回归匹配或称配比（matching），即要求对照在某些因素或特征上与病例保持一致，目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。
i 1
n
（15.7）
式中为对数似然函数，对其取一阶导数求解参数。对于参数 j （ j 1, 2,, m ），令 ln L 的一阶导数为 0，即
ln L 0 ，用 Newton-Raphson 迭代方法解方程组， j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sb j 。
ln[exp(0 1 X1 2 X 2 m X m )]
0 1 X1 2 X 2 m X m
（15.2）
模型参数的流行病学含义
当各种暴露因素为 0 时： P ln( ) 0 1 X 1 2 X 2 m X m 1 P 0 1 0 m 0 0 可看出：常数项 0 是当各种暴露因素为 0 时，个体发病与不发病概率之比的自然对数值。偏回归系数 j （ j 1,2, , m ）表示在其它自变量固定的条件下，第 j 个自变量每改变一个单位时 logit (P ) 的改变量。它与比数比（优势比） OR （odds ratio）有对应关系。
路径分析
结构方程模型分析
logistic回归（logistic regression）是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。在流行病学研究中，常需要分析疾病与各种危险因素间的定量关系，同时为了能真实反映暴露因素与观察结果间的关系，需要控制混杂因素的影响。（1）Mantel-Haenszel分层分析：适用于样本量大、分析因素较少的情况。当分层较多时，由于要求各格子中例数不能太少，所需样本较大，往往难以做到；当混杂因素较多时，分层数也呈几何倍数增长，这将导致部分层中某个格子的频数为零，无法利用其信息。
I0 c / n0
RR（相对危险度relative risk）：表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比（risk ratio）。反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
病例对照研究(case-control studies)：一种由果及因的回顾性
在其它影响因素相同的情况下，某危险因素 X j 两个不同暴露水平 c1 和 c0 发病优势比的自然对数为：
P1 (1 P1 ) P0 P1 ) ln( ) ln OR j ln = ln( 1 P1 1 P0 P0 (1 P0 )
= j (c1 c0 ) 则该因素的优势比： OR j exp[ j (c1 c0 )] 式中 P1 和 P0 分别表示在 X j 取值为 c 1 和 c 0 时的发病概率， ORj 为调整后优势比（adjusted odds ratio）, 表示扣除了其它自变量影响后危险因素 X j 的作用。
P logit 变换：logit P = ln 为 P 的 logit 变换， 1 P 通过 logit 变换之后，就可将 0 P 1 的资料转换为
logit( P) 的资料。
作 logit 变换后，logistic 回归模型可以表示成如下的线性形式：
exp( 0 1 X 1 2 X 2 m X m ) 1 exp( 0 1 X 1 2 X 2 m X m ) P ln( ) ln[ ] exp( 0 1 X 1 2 X 2 m X m ) 1 P 1 1 exp( 0 1 X 1 2 X 2 m X m )
由于 ORj 值与模型中的常数项 0 无关，因此 0 在危险因素分析中常常被视为无效参数。对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等，优势比可作为相对危险度（relative risk ,RR）的近似估计。
P (1 P ) P 1 1 RR 即 OR 1 P0 (1 P0 ) P0

e商务文档

logistic回归分析

相关文档推荐：