当前位置：文档之家› 第八课 SPSS logistic回归分析

第八课 SPSS logistic回归分析

ln P 1 P
=
0
1 X1
2
X
2
m
X
m
检验方法（讲义260-261页） 1）似然比检验 (likelihood ratio test) 2）Wald检验
例表16-1吸烟、饮酒与食管癌资料（SAS软件计算）
1.对建立的整个模型做检验。
Testing Global Null Hypothesis: BETA=0
包括 l 个自变量的对数似然函数
G服从自由度（d）=p-l的χ2分布
似然比检验对β做检验
例：X1为吸烟，X2为饮酒，检验饮酒与食管癌关系，H0：β2=0，H1：β2≠0
log it( p) 0 1x1 2x2
log it( p) 0 1x1
G ＞3.84，p＜0.05，说明调整吸烟因素后，饮酒与食管癌有关系。
比发生Y事件的对数优势比。
回归系数β与ORi
X与Y的关联
β=0，OR=1，
无关
β＞1，OR＞1 ，有关，危险因素
β＜1，OR＜1，有关，保护因子
事件发生率很小，OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数（βi）估计
，
ln P 1 P
=
0
1 X1
2
X
2
m
X
m
通常用最大似然函数 (maximum likelihood estimate， MLE)估计β，由统计软件包完成。
成不一致干扰疗效分析，通过该法可控制非处理因素，正确评价疗效。
3.预测与判别预测个体在某因素存在条件下，发生某事件
（发病）的概率，为进一步治疗提供依据。
例1
例：
表5-4甲乙两疗法某病治愈率%比较
病型
甲疗法
病人治愈治愈
数
数
率
普通型重型合计
300 100 400
180 35 215
60.0 35.0 53.8
Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二：
检验模型中某β是否对Y有作用。
检验假设： H 0 : j 0 H1 : j 0
检验统计量：主要为Wald检验（SAS软件）
2 ( bj )2 ν=1的χ2
例；
S2 bj (0.8856)2 33.86
0.15
在大样本时，三方法结果一致。
例表16-1资料，对各x的β做检验（wald检验）参数 β估计值标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
方程如下：
线形关系
y log it( p) 0 1x1 Y～（-∞至+∞）
截距（常数）
回归系数
在有多个危险因素（Xi）时
多个变量的logistic回归模型方程的线性表达：
logit(p)
ln
1
P P
=
0
1
X1
2
X
2
m
X
m
或
p( y 1/ x1, x2
x ) 1 e 1 k
( 0 1xk ....k xk )
乙疗法
病人治愈
数
数
治愈率
100 300 400
65 65.0 125 41.7 190 47.5
表5-5直接法计算标准化治愈率
病型标准
甲疗法
乙疗法
治疗原治预期
原治预期
人数愈率治愈数愈率治愈数
普通型 400 60.0 240
65.0 260
重型 400 35.0 140
41.7 167
例：暴露因素高血压史(x1)：有或无高血脂史(x2)：有或无吸烟(x3)：有或无
冠心病结果有或无
研究问题可否用多元线性回归方法？
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线性关系。
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间：
饮酒与不饮酒OR的95%可信区间：
三、Logistic 回归模型的假设检验
1.检验一：对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各（j j 1，2，，m)不全为0
Intercept -0.6453 0.1653 15.24 <.0001
疗法
0.2482 0.1699 2.13 0.1442
病情
0.9900 0.1699 33.93 <.0001
Odds Ratio Estimate
Point 95% Wald
Effect Estimate Confidence Limits
变量 β
Sb Waldχ2 P
标准β’ OR
常数 -4.705 1.54 9.30 年龄 0.924 0.477 3.76 X5 1.496 0.744 4.04 X6 3.136 1.249 6.30 X8 1.947 0.847 5.29
0.0023 0.0525 0.0443 0.0121 0.0215
饮酒不饮酒
经logistic回归计算后得 b0 =-0.9099， b1 =0.8856， b2
=l0n.(52p61) ：
exp( ) OR
exp(0.8856) OR 2.4244
控制饮酒因素后，吸烟与不吸烟相比患食管癌的优势比为2.4倍
Odds Ratio Estimates Point 95% Wald
Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
似然比检验（讲义）
对某个β做检验，检验统计量（G）
包括p个自变量的对数似然函数
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值，x越大，结果y=1发生的可能性（p）越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率（p）做logit变
换， log it( p) ln( p ) 1 p
疗法 1.282
0.919 1.788
病情 2.691
1.929 3.755
例2 性别、两种药物对某病疗效的研究
性别
治疗方法
疗效
有效
无效合计
（y=1）（y=0）
女
新药（x2=1） 21
6
27
X1=1 对照（x2=0） 13
19
32
男
新药（x2=1） 7
7
14
X1=0 对照（x2=0） 1
10
11
logistic回归分析
logistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x) 之间关系的一种多变量分析方法
问题提出：
医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？
因素（X）
疾病结果（Y）
x1，x2，x3…XK
发生
Y=1
不发生 Y=0
成组（未配对）设计的病例对照研究资料，计算的 Logistic回归模型为非条件Logistic回归。
例：见265页区别：条件Logistic回归的参数估计无常数项（β0），主
要用于危险因素的分析。
第三节 logistic回归的应用及注意事项
一、logistic回归的应用
1.疾病（某结果）的危险因素分析和筛选用回归模型中的回归系数（βi）和OR说明
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30（a） 10（ b）
70（c） 90（d）
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)
ln
1
P P
=
0
1
X1
mXm
i 反映了在其他变量固定后，X=1与x=0相
第一节 logistic回归
1.基本概念 logistic回归要求应变量（Y）取值为分类变量
（两分类或多个分类）
1 Y 0
出现阳性结果 (发病、有效、死亡等）出现阴性结果 (未发病、无效、存活等）
自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm
OR e
如X=1，0两分类，则OR的1-α可信区间估计公式

e商务文档

第八课 SPSS logistic回归分析

相关文档推荐：