当前位置:文档之家› logistic回归分析

logistic回归分析

似然比检验(likelihood ratio test):既适合 单个影响因素的假设检验,又适合多个 影响因素的同时检验;
Wald检验(Wald test):适合单个影响因素 的检验;
计分检验(score test):与传统MantelHaenszel检验结果相同,小样本时比似然
比检验跟接近2分布,犯I型错误的可能
区别是没有常数项。
logistic回归的应用
流行病学危险因素分析
病例对照研究中探索疾病的发病原因; 队列研究中验证危险因素的作用大小。
临床试验数据分析
当评价指标为分类数据,而且有其他影响评价指 标的影响因素(年龄、病情、病种等)存在时。
logistic回归的应用
分析药物和毒物的剂量反应
变量筛选后的模型
影响因素 b
Sb Wald2
P
常数项 -4.705 1.543 9.30 0.0023
X1
0.924 0.477 3.76 0.0525
X5
1.496 0.744 4.04 0.0433
X6
3.136 1.249 6.30 0.0121
X8
1.947 0.847 5.29 0.0215
调查对象序号 吸烟
饮酒
食管癌
1
1
0
1
2
0
0
0
……
……
……
……
875
1
1
1
876
0
1
0
分类资料的影响因素分析方法
如果采用线性回归分析,应变量不满足条 件,预测值会超出0和1的范围。
如果采用单变量的2检验,则必然忽略其他
自变量对应变量的影响。 如果采用Mantel-Haenszel分层分析,需要
20倍以上。
logistic回归应用的注意事项
模型评价
对模型中的每个自变量进行检验(验证); 对所建立的回归方程做拟合优度检验(探索)。
拟合优度检验的统计量
偏差(deviance,D)和Pearson 2 P>α,认为拟合效果好;P≤α,则效果不好。
logistic回归模型的参数估计
通常采用最大似然估计(maximum likeli-
hood estimate,MLE)估计回归系数,同
时得到回归系数的标准误Sb。
根据最大似然原理,在一次抽样中获得现
有样本的概率应该最大。即似然函数取值 最大。
计算可以通过统计软件来完成。
n
n
L
li
表2 冠心病危险因素的病例对照调查资料
序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 31 0 1 0 0 1 1 0 2 20 1 1 0 0 1 0 0 … …… … … … … … … … 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1
表3 冠心病危险因素的赋值
概率P的取值范围在0~1之间,而logit(P) 取值是没有界限的。
log it(P) ln( P ) 1 P
logit变换
1 P( y 0 / x1, x2 K xm ) 1 1 e(0 1x1....mxm )
P( y
0 / x1, x2 K
(0 1x1 ....m xm )
x ) 1e e m
自变量可以是二分类变量、有序变量、多分 类变量、连续变量。
logistic回归应用的注意事项
连续变量一般需转换为等级变量,否则实 际意义不大。
如年龄每增加1岁的优势比。
等级变量取值
认为变化每个等级的优势比相近,则取秩 认为变化每个等级的优势比不同,则应转换为
哑变量分析。
logistic回归应用的注意事项
ln(OR) logit(P1) logit(P0)
OR exp[1(X1 X0 )]
OR exp 1
OR与 的关系
= 0,OR = 1,影响因素与事件的发生
无关。
> 0,OR > 1,影响因素的取值越大,
事件的发生的概率越大。
< 0,OR < 1,影响因素的取值越大,
事件的发生的概率越小。
11.20
12 3.84
2 2
3.84
结论:食管癌与吸烟、饮酒有关。
变量筛选
当影响因素较多时,需挑选出与事件发生 确实有关或关系更密切的影响因素,建立 更加稳定的回归模型。
筛选方法:前进法、后退法、逐步法。 检验方法:似然比检验、Wald检验和计分
检验。 入选和剔除标准:0.05和0.10。(常规)
较大的样本量,而且自变量不能太多。 logistic回归能较好地解决上述问题。
logistic回归模型
应变量Y是一个二值变量,取值为
1 事件发生(发病、有效、死亡等) Y 0 事件未发生(未发病、无效、存活等)
自变量X1,X2,……,Xm。 P表示在m个自变量作用下事件发生的概率。
logistic回归模型
因素 年龄(岁) 高血 冠心病
变量名
赋值说明
X1 <45=1,45~=2,55~=3,65~=4 X2 无=0,有=1 X3 无=0,有=1 X4 不吸烟=0,吸烟= 1 X5 无=0,有=1 X6 低= 0,高= 1 X7 <24=1,24~=2,26~=3 X8 否= 0,是= 1 Y 对照= 0,病例= 1
logistic回归模型的假设检验
根据样本得到的logistic回归模型还需经过检 验才能说明影响因素对事件发生的影响是否 具有统计学意义。
假设检验的假设有两种:
H0:1=2=……= m(将多个影响因素作为一
个整体考虑)
H0:j=0(单独检验某个影响因素)
logistic回归模型的假设检验方法
P( y
1/
x1, x2 K
xm )
1 exp[(0
1
1x1
.... m xm )]
P( y
1/ x1, x2 K
x ) 1 e 1 m
(0 1x1 ....m xm )
logistic回归模型
P Z
Z 0 1x1 .... m xm
logit变换
事件发生概率与未发生概率之比的自然 对数,称为P的logit变换,记作logit(P)。
P Q Yi 1Yi ii
i 1
i 1
logistic回归模型的参数估计
根据计算所得的bj计算OR值。
ORˆ j exp[bj (c1 c0 )]
OR值的可信区间:可以利用bj的抽样 分布来估计,在样本含量较大的情况 下,近似服从正态分布。当自变量只 有两个水平时,可采用下列公式计算。
exp(bj u S /2 bj )
优势比(odds ratio,OR)
吸烟与食管癌关系的病例对照调查结果
结果
吸烟
不吸烟
合计
食管癌患者 309(a) 126(b)
435
非食管癌患者 208(c) 243(d)
451
合计
517(a+c) 369(b+d) 886
吸烟的优势 309 / 517 1.49 非吸烟的优势 126 / 369 0.52
性更小。
似然比检验的基本思想
比较包含需检验影响因素的模型和不包含 该影响因素的模型,如果检验结果为拒绝 H0,则表示该影响因素对回归模型有统计 学意义,即对事件发生有影响。反之,则 没有统计学意义,对事件发生没有影响。
似然比检验(例16-1)
G=2(lnL1-lnL0),自由度d=p-l G1=2[lnL(X1,X2)- lnL(X2)]=35.45 G2=2[lnL(X1,X2)- lnL(X1)]=11.23
多分类变量只能转换为哑变量处理。 哑变量的设置和结果解释
哑变量的个数为n-1(n为取值个数); 哑变量的优势比表示自变量的某个取值与对照
取值的优势比; 等级变量转换为哑变量后,还可以分析多个等
级之间的优势比,公式为exp(bi-bj)。
logistic回归应用的注意事项
样本含量
样本例数与影响因素的个数相关; 一般要求样本含量为影响因素个数的10以上; 配对资料样本的匹配组数应为影响因素个数的
logistic回归分析
卫生统计学教研室 陆健 副教授 2020/4/26
表1 吸烟、饮酒与食管癌关系的病例对照调查资料 分层 吸烟 饮酒 阳性例数 阴性例数 观察例数
1 否否
63
136
199
2 否是
63
107
170
3 是否
44
57
101
4 是是
265
151
416
表1 吸烟、饮酒与食管癌关系的病例对照调查资料 (收集资料的形式)
平的优势比为:
OR
P1 /(1 P1)
P0 /(1 P0 )
优势比(odds ratio,OR)
OR表示影响因素对事件发生的影响方 向和影响能力大小。
OR>1表示该因素取值越大,事件发生 的概率越大,又称危险因素。
OR<1表示该因素取值越大,事件发生 的概率越小,又称保护因素。
OR=1表示该因素与事件的发生无关。
208 / 517
243/ 369
OR 1.49 2.87 0.52
优势比(odds ratio,OR)
ln(OR) ln[ P1 /(1 P1) ] P0 /(1 P0 )
ln(OR) logit(P1) logit(P0)
ln(OR) (0 1X1 t Xt) ( 0 0 X0 t Xt)
计算半数效量(如ED50); 考察不同药物的交互作用。
预测和判别
根据个体的特征,判断个体发生某事件的概率; 判断个体属于的类型。
相关主题