当前位置:文档之家› 《logistic回归分析》PPT课件

《logistic回归分析》PPT课件

logistic回归分析 王淑康
1
Logistic回归(Logistic Regression)是研究因变量为二分类或多分 类观察结果与影响因素(自变量)之间关系的一种多变量分析方法, 属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。非条 件Logistic回归多用于非配比病例-对照研究或队列研究资料, 条件Logistic回归多用于配对或配比资料。

)
;1
p2

p( y

0|
x

0)

1
1 exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线形方程组,
解方程组得: b0 ln(b / d ) ad
b1 ln(a / c) ln(b / d ) ln( bc )
x)

exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1

p( y
1|
x
1)

exp( ) 1 exp( )

p2

p( y
1|
x

0)

exp( ) 1 exp( )
1
p1

p( y

0|
x
1)

1
1 exp(
型可表示为:
P exp(0 1 X1 2 X 2 m X m ) 1 exp(0 1 X1 2 X 2 m X m )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
5
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
1
0
1
aLeabharlann b0cd
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln(L) a ( ) a ln[1 exp( )] b b ln[1 exp( )] c ln[1 exp( )] d ln[1 exp( )]
通过 logit 变换之后,就可将 0 P 1的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P


0

1x1

2
x2



m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
8
二、 logistic回归模型的参数估计
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患 病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
量。它与比数比(优势比) OR(odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j

ln

P1 P0
(1 (1

P1 ) P0 )

=
ln( P1 ) ln( P0 )
ln( P ) 1 P

0

1 X1

2
X
2

mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
相关主题