当前位置:文档之家› 第八课 SPSS logistic回归分析

第八课 SPSS logistic回归分析


ln P 1 P
=
0
1 X1
2
X
2
m
X
m
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。
Testing Global Null Hypothesis: BETA=0
包括 l 个自变量的 对数似然函数
G服从自由度(d)=p-l的χ2分布
似然比检验对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食 管癌关系,H0:β2=0,H1:β2≠0
log it( p) 0 1x1 2x2
log it( p) 0 1x1
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
比发生Y事件的对数优势比。
回归系数β与ORi
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计

ln P 1 P
=
0
1 X1
2
X
2
m
X
m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。
成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。
3.预测与判别 预测个体在某因素存在条件下,发生某事件
(发病)的概率,为进一步治疗提供依据。
例1
例:
表5-4甲乙两疗法某病治愈率%比较
病型
甲疗法
病人 治愈 治愈



普通型 重型 合计
300 100 400
180 35 215
60.0 35.0 53.8
Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H 0 : j 0 H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2 ν=1的χ2
例;
S2 bj (0.8856)2 33.86
0.15
在大样本时,三方法结果一致。
例表16-1资料,对各x的β做检验(wald检验) 参数 β估计值 标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
方程如下:
线形 关系
y log it( p) 0 1x1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
logit(p)
ln
1
P P
=
0
1
X1
2
X
2
m
X
m

p( y 1/ x1, x2
x ) 1 e 1 k
( 0 1xk ....k xk )
乙疗法
病人 治愈


治愈 率
100 300 400
65 65.0 125 41.7 190 47.5
表5-5直接法计算标准化治愈率
病型 标准
甲疗法
乙疗法
治疗 原治 预期
原治 预期
人数 愈率 治愈数 愈率 治愈数
普通型 400 60.0 240
65.0 260
重型 400 35.0 140
41.7 167
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法?
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
饮酒与不饮酒OR的95%可信区间:
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
Intercept -0.6453 0.1653 15.24 <.0001
疗法
0.2482 0.1699 2.13 0.1442
病情
0.9900 0.1699 33.93 <.0001
Odds Ratio Estimate
Point 95% Wald
Effect Estimate Confidence Limits
变量 β
Sb Waldχ2 P
标准β’ OR
常数 -4.705 1.54 9.30 年龄 0.924 0.477 3.76 X5 1.496 0.744 4.04 X6 3.136 1.249 6.30 X8 1.947 0.847 5.29
0.0023 0.0525 0.0443 0.0121 0.0215
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
=l0n.(52p61) :
exp( ) OR
exp(0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
Odds Ratio Estimates Point 95% Wald
Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303
似然比检验(讲义)
对某个β做检验,检验统计量(G)
包括p个自变量的对 数似然函数
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, log it( p) ln( p ) 1 p
疗法 1.282
0.919 1.788
病情 2.691
1.929 3.755
例2 性别、两种药物对某病疗效的研究
性别
治疗方法
疗效
有效
无效 合计
(y=1) (y=0)

新药(x2=1) 21
6
27
X1=1 对照(x2=0) 13
19
32

新药(x2=1) 7
7
14
X1=0 对照(x2=0) 1
10
11
logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。
例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主
要用于危险因素的分析。
第三节 logistic回归的应用及注意事 项
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)
ln
1
P P
=
0
1
X1
mXm
i 反映了在其他变量固定后,X=1与x=0相
第一节 logistic回归
1.基本概念 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y 0
出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
相关主题