当前位置:
文档之家› 第21章 Logistic 回归分析
第21章 Logistic 回归分析
( 1) 1 1 1 1 1 ,当概率π≠1,π增大时,Odds增大,
特别当π趋于1时,Odds趋于+∞;反之,π减小Odds亦减小, π=0时,Odds=0,Odds与概率π是一一对应和单调递增关系。
当π1= π0时,由Odds1=Odds0,对应的OR=1;
P(Y 1| X 1) 1 P(Y 0 | X 1) 1 1
,对应的样本估计
”比“不发生出血症状”的优势(odds),取值范围是0至+∞。
类似地,在未服用该药品条件下,记π0=P(Y=1|X=1),样本估计 值为P0,发生出血症状比不发生出血症状的优势为
Odds0
P(Y 1| X 0) 0 P(Y 0 | X 0) 1 0
P0 c 0.0022 其样本估计值为 1 P0 d
服用该药品人群“发生出血症状”比“不发生出血症状”的优势
Odds1与未服用该药品人群“发生出血症状”比“不发生出血症状
”的优势Odds0之比,称优势比(Odds Ratio,OR),具有概率风险的 含义。
表21-1 上消化道出血症状与非甾体类抗炎药的关系 出血例数(Y=1) 服用该药(X=1) 未用该药(X=0) 155(a) 96(c) 未出血例数(Y=0) 46981(b) 44538(d) 合计 47136(a+b) 44634(c+d)
服用非甾体类抗炎药(有暴露史)人群中,发生上消化道出血症
logistic回归概率模型,一般简称为二分类logistic回归模型。
当参数β1为正数时,该函数的集合形状呈拉长的“S”行曲线, 时间发生概率π随X的增加二单调增加,称自变量X为事件发生的 危险因素;
当β1为负数时,为拉长的反“S”型曲线,π随X的增加而单调减 小,称自变量X为事件发生的保护因素。
j 0 bj 2 W Sb j
2
H0 成立时,统计量近似服从自由度为1 的2分布。
6. logistic回归模型的拟合程度评价
1ogistic回归模型的拟合优度是通过比较模型预测的与实际观测的事件 发生和不发生的频数有无差别来进行检验。如果预测值与实际观测值
四、 多自变量logistic回归
例21-2 为探讨糖尿病与血压、血脂等因素的关系,某研究者对56 例糖尿病患者和65例对照者进行病例-对照研究,收集了性别、年 龄、职业、体重指数、家族史、吸烟、血压、总胆固醇、甘油三 脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的赋
值见表21-1下表,数据见表21-2。
以未包含某个或几个变量的模型为基础,保留模型中参数的估 计值,并假设新增加的参数为零,计算对数似然函数的一价偏 导数(又称有效计分)及信息距阵,两者乘积即为计分检验的 统计量S 。样本量较大时, S近似服从自由度为待检验变量个
数的2分布。
③
Wald检验 (wald test)
针对单个回归系数的假设检验。 检验假设H0: 检验统计量
t j t j m m
j (a b)
即
ORj exp[ j (a b)]
调整优势比(adjusted odds ratio)
1 如果 Xj 赋值为 X j 0
暴露 非暴露
则暴露组与非暴露组的优势比为
OR j exp( j )
βj=0时, ORj =1,对疾病发生不起作用; βj0时, ORj 1是一个危险因子;
Wald检验 (Wald test)
① 似然比检验(likelihood ratio test)
当一个模型能够从另一个模型中通过令若干自变量的系数为0得到,
称这个模型嵌套于另一模型。自变量较多的模型称为“完全”模型, 相应的另一个模型称为“简化”模型。
似然比统计量计算公式为:
log(odds) = + 1x1 + 2x2 + 3x3 + 4x4 log(odds) = + 1x1 + 2x2 (model 1) (model 2)
e ( 0 1 X 1 2 X 2 m X m ) 1 e ( 0 1 X 1 2 X 2 m X m )
2. logistic回归模型参数的意义 某一自变量的两个不同取值Xj1=a、 Xj2=b
Pa /(1 Pa ) lnOR j ln P /(1 P ) b b ( 0 j a t X t ) ( 0 j b t X t )
OR
1 (1 1 ) 0 (1 0 )
其样本估计值为 OR
P1 (1 P ad 1) = 1.5306 P0 (1 P0 ) bc
其含义是以未服用该药品人群作为参照类,服用该药品人 群“发生出血症状”的优势是参照类“发生出血症状”优 势的1.5306倍。 由于 Odds 1
状的条件概率P(Y=1|X=1)=π1,其样本估计值为 P1 a b ;
a
服用该药品人群中,不发生上消化道出血症状的条件概率
P(Y=1|X=1)=1-π1,相应的样本估计值为 1 P1 a b ;
b
上述两个条件概率之比,Odds 值为
1
P a 1 0.0033 ,这两个条件概率之比,称为“发生出血症状 1 P b 1
exp(bj Z / 2 SE(bj ))
5. 回归系数整体检验
检验模型中的所有自变量整体来看是否与所研究事件的对数优势比存
在线性关系。
检验假设H0: 检验的方法:
0
1 2 m
似然比检验(likelihood ratio test)
计分检验 (score test)
医学统计学
医学统计学
第二十一章
logistic 回归分析
公共卫生学院卫生统计学教研室 裴磊磊
Email:peileilei424@
章节概要
第一节 非条件logistic回归
第二节 条件logistic回归
第三节 logistic回归的应用及其注意事项
logistic回归分析
渐近正态性:随着样本量增大,最大似然参数估计值的分布 趋近于正态分布。因此可对参数进行假设检验和计算参数的 置信区间。
4. 优势比OR的区间估计
当样本量较大时,logistic回归模型参数的最大似然估计具有渐近正 态性。所以可以利用正态近似法计算总体回归系数的100(1- )% 可信区间。 计算公式为 b j Z / 2 SE (b j ) 其中 SE (b j ) 为回归系数,bj 为渐进标准误, Z / 2 为标准正态分布的 界值。 OR的100(1- )%可信区间为
当 P << 1,优势比可以作为相对危险度的近似估计。
P1 /(1 P1 ) P1 OR RR P0 /(1 P0 ) P0
二、Logit变换与单自变量Logistic方程
概率π的Logit变换,记为logit π,并有
log it ln 1
ln Odds
0 1X
公式两边同时做以e为底的指数变换
x Odds x exp( 0 1X) 1 x
初等数学变换
exp( 0 1X) P(Y 1| X) x 1 exp( 0 1X)
上述三式是等价的,两者均可称为以Y(取值为0和1)为因变量的
势为β0+ β1。
ln(OR) ln 1 ln 0 ( 0 1 1) ( 0 1 0) 1 1 1 1 0
常数项β0是未服用该药品人群发生出现症状优势的自然对数, 自变量回归系数β1是优势比的自然对数。
二分类反应变量 多分类有序反应变量 多分类无序反应变量
第一节 非条件logistic回归
一、优势与优势比
例21-1 非甾体类抗炎药上市前的研究中,已知可能引起亚临床上消 化道出血症状。因此,1980年Strom和Carson开展了大样本上市后 安全性评价,以确定该药品是否引起上消化道出血不良反应。回顾 性跟踪调查的47136例服用该药的患者中,由155例上消化道出血; 同期没有服用该药的44634例对照中,由96例上消化道出血。
βj<0时, ORj < 1是一个保护因子。
3. logistic回归的参数估计
采用最大似然估计MLE(maximum likelihood estimate)估计
logistic回归模型的参数,即建立一个样本的似然函数。
最大似然估计就是确定模型中的参数使得在一次抽样中获得现
有样本的概率为最大,即似然函数达到最大值。对似然函数的
三、 回归系数的解释
以例21-1为例,建立logistic回归方程:
x log it x ln 1 x
0 1X
在未服用该药品条件下(X=0),记上消化道出血与不出血的对数 优势为β0,即ln(Odds0)=β0;
在服用该药品条件下(X=1),记上消化道出血与不出血的对数优
由于Odds取值范围时0至+∞, logit π取值范围时-∞到+ ∞,并 且是概率π的单调增函数, π的任何变化都会反映为logit π的改 变,于是可以把logit π假设为自变量X的线性函数。
x log it x ln 1 x
0 1X
x log it x ln 1 x