当前位置：文档之家› logistic回归分析

logistic回归分析

似然比检验(likelihood ratio test)：既适合单个影响因素的假设检验，又适合多个影响因素的同时检验；
Wald检验(Wald test)：适合单个影响因素的检验；
计分检验（score test）：与传统MantelHaenszel检验结果相同，小样本时比似然
比检验跟接近2分布，犯I型错误的可能
区别是没有常数项。
logistic回归的应用
流行病学危险因素分析
病例对照研究中探索疾病的发病原因；队列研究中验证危险因素的作用大小。
临床试验数据分析
当评价指标为分类数据，而且有其他影响评价指标的影响因素（年龄、病情、病种等）存在时。
logistic回归的应用
分析药物和毒物的剂量反应
变量筛选后的模型
影响因素 b
Sb Wald2
P
常数项 -4.705 1.543 9.30 0.0023
X1
0.924 0.477 3.76 0.0525
X5
1.496 0.744 4.04 0.0433
X6
3.136 1.249 6.30 0.0121
X8
1.947 0.847 5.29 0.0215
调查对象序号吸烟
饮酒
食管癌
1
1
0
1
2
0
0
0
……
……
……
……
875
1
1
1
876
0
1
0
分类资料的影响因素分析方法
如果采用线性回归分析，应变量不满足条件，预测值会超出0和1的范围。
如果采用单变量的2检验，则必然忽略其他
自变量对应变量的影响。如果采用Mantel-Haenszel分层分析，需要
20倍以上。
logistic回归应用的注意事项
模型评价
对模型中的每个自变量进行检验(验证)；对所建立的回归方程做拟合优度检验(探索)。
拟合优度检验的统计量
偏差（deviance，D）和Pearson 2 P＞α,认为拟合效果好；P≤α，则效果不好。
logistic回归模型的参数估计
通常采用最大似然估计（maximum likeli-
hood estimate，MLE）估计回归系数，同
时得到回归系数的标准误Sb。
根据最大似然原理，在一次抽样中获得现
有样本的概率应该最大。即似然函数取值最大。
计算可以通过统计软件来完成。
n
n
L
li
表2 冠心病危险因素的病例对照调查资料
序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 31 0 1 0 0 1 1 0 2 20 1 1 0 0 1 0 0 … …… … … … … … … … 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1
表3 冠心病危险因素的赋值
概率P的取值范围在0～1之间，而logit(P) 取值是没有界限的。
log it(P) ln( P ) 1 P
logit变换
1 P( y 0 / x1, x2 K xm ) 1 1 e(0 1x1....mxm )
P( y
0 / x1, x2 K
(0 1x1 ....m xm )
x ) 1e e m
自变量可以是二分类变量、有序变量、多分类变量、连续变量。
logistic回归应用的注意事项
连续变量一般需转换为等级变量，否则实际意义不大。
如年龄每增加1岁的优势比。
等级变量取值
认为变化每个等级的优势比相近，则取秩认为变化每个等级的优势比不同，则应转换为
哑变量分析。
logistic回归应用的注意事项
ln(OR) logit(P1) logit(P0)
OR exp[1(X1 X0 )]
OR exp 1
OR与的关系
= 0，OR = 1，影响因素与事件的发生
无关。
> 0，OR > 1，影响因素的取值越大，
事件的发生的概率越大。
< 0，OR < 1，影响因素的取值越大，
事件的发生的概率越小。
11.20
12 3.84
2 2
3.84
结论：食管癌与吸烟、饮酒有关。
变量筛选
当影响因素较多时，需挑选出与事件发生确实有关或关系更密切的影响因素，建立更加稳定的回归模型。
筛选方法：前进法、后退法、逐步法。检验方法：似然比检验、Wald检验和计分
检验。入选和剔除标准：0.05和0.10。（常规）
较大的样本量，而且自变量不能太多。 logistic回归能较好地解决上述问题。
logistic回归模型
应变量Y是一个二值变量，取值为
1 事件发生（发病、有效、死亡等） Y 0 事件未发生（未发病、无效、存活等）
自变量X1，X2，……，Xm。 P表示在m个自变量作用下事件发生的概率。
logistic回归模型
因素年龄（岁）高血冠心病
变量名
赋值说明
X1 <45=1，45~=2，55~=3，65~=4 X2 无=0，有=1 X3 无=0，有=1 X4 不吸烟=0，吸烟= 1 X5 无=0，有=1 X6 低= 0，高= 1 X7 <24=1，24~=2，26~=3 X8 否= 0，是= 1 Y 对照= 0，病例= 1
logistic回归模型的假设检验
根据样本得到的logistic回归模型还需经过检验才能说明影响因素对事件发生的影响是否具有统计学意义。
假设检验的假设有两种：
H0：1=2=……= m（将多个影响因素作为一
个整体考虑）
H0：j=0（单独检验某个影响因素）
logistic回归模型的假设检验方法
P( y
1/
x1, x2 K
xm )
1 exp[(0
1
1x1
.... m xm )]
P( y
1/ x1, x2 K
x ) 1 e 1 m
(0 1x1 ....m xm )
logistic回归模型
P Z
Z 0 1x1 .... m xm
logit变换
事件发生概率与未发生概率之比的自然对数，称为P的logit变换，记作logit(P)。
P Q Yi 1Yi ii
i 1
i 1
logistic回归模型的参数估计
根据计算所得的bj计算OR值。
ORˆ j exp[bj (c1 c0 )]
OR值的可信区间：可以利用bj的抽样分布来估计，在样本含量较大的情况下，近似服从正态分布。当自变量只有两个水平时，可采用下列公式计算。
exp(bj u S /2 bj )
优势比（odds ratio，OR）
吸烟与食管癌关系的病例对照调查结果
结果
吸烟
不吸烟
合计
食管癌患者 309(a) 126(b)
435
非食管癌患者 208(c) 243(d)
451
合计
517(a+c) 369(b+d) 886
吸烟的优势 309 / 517 1.49 非吸烟的优势 126 / 369 0.52
性更小。
似然比检验的基本思想
比较包含需检验影响因素的模型和不包含该影响因素的模型，如果检验结果为拒绝 H0，则表示该影响因素对回归模型有统计学意义，即对事件发生有影响。反之，则没有统计学意义，对事件发生没有影响。
似然比检验（例16－1）
G=2(lnL1-lnL0)，自由度d=p-l G1=2[lnL(X1,X2)- lnL(X2)]=35.45 G2=2[lnL(X1,X2)- lnL(X1)]=11.23
多分类变量只能转换为哑变量处理。哑变量的设置和结果解释
哑变量的个数为n－1（n为取值个数）；哑变量的优势比表示自变量的某个取值与对照
取值的优势比；等级变量转换为哑变量后，还可以分析多个等
级之间的优势比，公式为exp(bi-bj)。
logistic回归应用的注意事项
样本含量
样本例数与影响因素的个数相关；一般要求样本含量为影响因素个数的10以上；配对资料样本的匹配组数应为影响因素个数的
logistic回归分析
卫生统计学教研室陆健副教授 2020/4/26
表1 吸烟、饮酒与食管癌关系的病例对照调查资料分层吸烟饮酒阳性例数阴性例数观察例数
1 否否
63
136
199
2 否是
63
107
170
3 是否
44
57
101
4 是是
265
151
416
表1 吸烟、饮酒与食管癌关系的病例对照调查资料（收集资料的形式）
平的优势比为：
OR
P1 /(1 P1)
P0 /(1 P0 )
优势比（odds ratio，OR）
OR表示影响因素对事件发生的影响方向和影响能力大小。
OR>1表示该因素取值越大，事件发生的概率越大，又称危险因素。
OR<1表示该因素取值越大，事件发生的概率越小，又称保护因素。
OR=1表示该因素与事件的发生无关。
208 / 517
243/ 369
OR 1.49 2.87 0.52
优势比（odds ratio，OR）
ln(OR) ln[ P1 /(1 P1) ] P0 /(1 P0 )
ln(OR) logit(P1) logit(P0)
ln(OR) (0 1X1 t Xt) ( 0 0 X0 t Xt)
计算半数效量（如ED50）；考察不同药物的交互作用。
预测和判别
根据个体的特征，判断个体发生某事件的概率；判断个体属于的类型。

e商务文档

logistic回归分析

相关文档推荐：