当前位置：文档之家› 《logistic回归分析》PPT课件

《logistic回归分析》PPT课件

logistic回归分析王淑康
1
Logistic回归（Logistic Regression）是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。
Logistic回归的分类：
（1）二分类资料Logistic回归：因变量为两分类变量的资料，可用非条件Logistic回归和条件Logistic回归进行分析。非条件Logistic回归多用于非配比病例-对照研究或队列研究资料，条件Logistic回归多用于配对或配比资料。

)
；1
p2

p( y

0|
x

0)

1
1 exp( )
则似然函数为：
L [ exp( ) ]a[ exp( ) ]b[
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
对 Q 分别求关于和的一阶偏导数，得到关于和的线形方程组，
解方程组得： b0 ln(b / d ) ad
b1 ln(a / c) ln(b / d ) ln( bc )
x)

exp( x) 1 exp( x)
则四个格子所对应的概率分别是：
p1

p( y
1|
x
1)

exp( ) 1 exp( )
；
p2

p( y
1|
x

0)

exp( ) 1 exp( )
1
p1

p( y

0|
x
1)

1
1 exp(
型可表示为：
P exp(0 1 X1 2 X 2 m X m ) 1 exp(0 1 X1 2 X 2 m X m )
其中， 0 为常数项， 1, 2 ,, m 为偏回归系数。
（15.1）
4
设 Z 0 1 X1 2 X 2 m X m ，则 Z 与 P 之间关系的
logistic 曲线如下图所示。
可看出：当 Z 趋于时， P 值渐进于 1；当 Z 趋于时， P 值渐进于 0； P 值的变化在 0~1 之间，并且随Z 值的变化以点（0,0.5）为中心成对称 S 形变化。
5
logit 变换：logit P = ln P 为 P 的 logit 变换， 1 P
（2）多分类资料Logistic回归：因变量为多项分类的资料，可用多项分类Logistic回归模型或有序分类Logistic回归模型进行分析。
2
非条件Logistic回归分析条件Logistic回归分析无序分类反应变量Logistic回归分析有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量，其取值为 Y =1 和Y =0。影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量（即暴露因素）作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ，则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为：
p1

p( y
1|
1
0
1
aLeabharlann b0cd
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大，首先对函数两边取对数：
Q ln(L) a ( ) a ln[1 exp( )] b b ln[1 exp( )] c ln[1 exp( )] d ln[1 exp( )]
通过 logit 变换之后，就可将 0 P 1的资料转换为
log it(P) 的资料。作 logit 变换后，logistic 回归模型可以表示成如下的线性形式：
ln
1
P P

0

1x1

2
x2

m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时：
8
二、 logistic回归模型的参数估计
logistic回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。
在病例-对照研究中，假设变量 y 取值 1 和 0 分别表示对象患病和不患病；变量 x 取值 1 和 0 表示具有和不具有某种危险因素；具体调查数据见下表：
量。它与比数比（优势比） OR（odds ratio）有对应关系。
7
在其它影响因素相同的情况下，某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为：
ln OR j

ln

P1 P0
(1 (1

P1 ) P0 )

=
ln( P1 ) ln( P0 )
ln( P ) 1 P

0

1 X1

2
X
2

mXm
0 1 0 m 0 0
可看出：常数项 0 是当各种暴露因素为 0 时，个体发病与不发病概率之比的自然对数值。偏回归系数 j （ j 1,2,, m ）表示在其它自变量固定的
条件下，第 j 个自变量每改变一个单位时 logit (P) 的改变
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比： OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病概率， OR j 为调整后优势比（adjusted odds ratio）, 表示扣除了其它自变量影响后危险因素 X j 的作用。

e商务文档

《logistic回归分析》PPT课件

相关文档推荐：