当前位置：文档之家› logistic回归分析82972

logistic回归分析82972

Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 <.0001 计分检验 67.0712 2 <.0001 Wald检验 64.2784 2 <.0001
2.检验二：
检验模型中某β是否对Y有作用。
检验假设： H 0 : j 0 H1 : j 0
1 Y
0
食管癌患者对照：非食管癌
1 X1 0
吸烟不吸烟
1 X 2 0
饮酒不饮酒
❖ 经logistic回归计算后得 ❖ b0 =-0.9099， b1 =0.8856， b2 =0.5261，
方程表达：
ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
exp( ) OR
ln L1
包括p个自变量的对数似然函数
ln L0
包括 l 个自变量的对数似然函数
G服从自由度（d）=p-l的χ2分布
似然比检验对β做检验
例：X1为吸烟，X2为饮酒，检验饮酒与食管癌关系，H0：β2=0，H1：β2≠0
ln L1( X1, X 2 ) 579.711
ln L0 ( X1) 585.326
exp(0.8856) OR 2.4244
控制饮酒因素后，吸烟与不吸烟相比患食管癌的优势比为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间：
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
饮酒与不饮酒OR的95%可信区间：
exp(b2 u /2Sb2 ) exp(0.52611.96 0.1572) (1.24, 2.30)
三、Logistic 回归模型的假设检验
1.检验一：对建立的整个模型做检验。说明自变量对Y的作用是否有统计意义。
H0 : 1 2 m 0
H1 : 各（j j 1，2，，m)不全为0
第十六章 logistic回归分析
logistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法
问题提出：
医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？
因素（X）
疾病结果（Y）
x1，x2，x3…XK
发生
Y=1
不发生 Y=0
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
与Xii=0的相含比义，：发某生危某险结因果素（，如暴发露病水）平优变势化比时的，对即数X值i=。1
标准回归系数（b’）比较各自变量对Y 的相对贡献
bj ' bj sj /( / 3)
第二节条件Logistic回归
概念：用配对设计获得病例对照研究资料，计算的
Logistic回归模型为条件Logistic回归。
成组（未配对）设计的病例对照研究资料，计算的 Logistic回归模型为非条件Logistic回归。
第一节 logistic回归
1.变量的取值
一、基本概念
logistic回归要求应变量（Y）取值为分类变量（两分类或多个分类）
1 Y 0
出现阳性结果 (发病、有效、死亡等）出现阴性结果 (未发病、无效、存活等）
自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm
❖变量筛选算法有：前进法、后退法和逐步法（stepwise）。
例：讲义例16-2，用逐步法选入变量的显著水准为0.10，变量保留在方程的水
准为0.15 例：16-2讲义261-263页
表16-4 进入方程的自变量及参数估计
变量常数年龄 X5 X6 X8
β
Sb Waldχ2
-4.705 1.54 9.30
P( y
0/ x
1)
1
1
e0 x e0
x
1
p1
e0 p0 P( y 1/ x 0) 1 e0
e0 P( y 0 / x 0) 1 1 e0 1 p0
logistic回归模型方程的线性表达
对logistic回归模型的概率（p）做logit变换，
log it( p) ln( p ) 1 p
log it( p) 0 1x1 2x2
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G ＞3.84，p＜0.05，说明调整吸烟因素后，饮酒与食管癌有关系。
四、变量筛选
目的；将回归系数有显著意义的自变量选入模型中，作用不显著的自变量则排除在外。
ln
OR
ln
P1 P0
/(1 /(1
P1 ) P0 )
log itP1 log itP0
P1（y=1/x=1）的概率 P0（y=1/x=0）的概率
(0 1x1) (0 x0 ) 1x1
OR e
OR P1 /(1 P1) odds1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
检验统计量：主要为Wald检验（SAS软件）
2 ( bj )2
❖例；
Sbj
ν=1的χ2
公式16-13
❖在大样本时，2三方(法0.0结8.81果55一6)致2 。 33.86
例表16-1资料，对各x的β做检验（wald检验）
参数 β估计值标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008
2. 优势比(OR)及可信区间的估计
OR e
❖ 如X=1，0两分类，则OR的1-α可信区间估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
（公式16-10）
例：讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例－对照资料（886例），试作logistic回归分析。
❖ 变量的赋值
p( y 1)
1
P概率
1
1 exp[(0 x)]
z 0 1x
0.5
Β为正值，x越大，结果y=1发生的可能性（p）越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0 x p1 P( y 1/ x 1) 1 e0 x
Y 发病=1 不发病=0
危险因素
x= 1 x= 0 30（a） 10（ b）
70（c） 90（d）
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
a p1 a c
有暴露因素人群中发病的比例
多元回归模型的的
概念
i
logit(p)
ln
1
P P
=
0
Байду номын сангаас
1
X1
L
mXm
i 反映了在其他变量固定后，X=1与x=0相比发生Y事
3lo.多gis元ti线c回性归回方归法结补果充多元不Yˆ 线能性回回答归“的发不生足与否”
Logistic回归方法
该法研究是当 y 取某值（如y=1）发生的概率（p）与某暴露因
素（x）的关系。
p(y 1/ x) f (x),即p f (x)
P（概率）的取值波动0～1范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系。
例：见265页区别：条件Logistic回归的参数估计无常数项（β0），主
要用于危险因素的分析。
第三节 logistic回归的应用及注意事项
一、logistic回归的应用
1.疾病（某结果）的危险因素分析和筛选用回归模型中的回归系数（βi）和OR说明危险因
素与疾病的关系。例：讲义例16-1，16-2，16-3 适用的资料：
P甲'
Ni Pi Ni
380 800
47.5%
P乙'
427 800
53.4%
X1疗法（甲=0，乙=1）X2病情（轻=1，重=0 ）
Y疗效（Y=1有效，Y=0无效）
❖ LOGISTIC回归计算
Standard Wald Estimate Error Chi-Squa Pr
Parameter
Intercept -0.6453 0.1653 15.24 <.0001
件的对数优势比。
回归系数β与OR i X与Y的关联
❖
β=0，OR=1，
无关
β＞1，OR＞1 ，有关，危险因素
β＜1，OR＜1，有关，保护因子
事件发生率很小，OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数（βi）估计
，
ln P 1 P
=
0
1X1
2X2
mXm
通常用最大似然函数 (maximum likelihood estimate， MLE)估计β，由统计软件包完成。(讲义259页）
0.924 0.477 3.76

e商务文档

logistic回归分析82972

相关文档推荐：