当前位置：文档之家› logistic回归及其分析攻略

logistic回归及其分析攻略

Score检验（也称拉格朗日乘数检验、求导检验）：检验无效假设成立时对数似然函数的效率
logistic回归分析思路
5、建立初步模型：根据参数估计值，建立初步模型
log it( p)
ln( p ) 1 p

0

1x1

2 x2

m xm
logistic回归分析思路
11
0 1
1
1
0 1
0
1
ee e 1- p2 1- 1
0
1
0
logistic回归参数估计
最大似然估计（maximum likelihood estimation，MLE）
最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值。
AIC =（- 2 ln L）+2（q＋s） AIC指标通常不用于单个模型的评价，而是用于两个或多个
模型拟合优度的比较。较小的AIC值表示拟合模型较好。
SC（Schwartz Criterion）标准是对AIC指标的一种修正： SC =（- 2 ln L）+2（q＋s）* ln（n） SC与AIC一样，都是值越小表示模型拟合越好，均可用于嵌
Logit变换：logit P ln( P ) 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病发生强度的统计指标，称为优势（odds）。
当疾病发生的概率p与不发生的概率q相等皆为0.5时， odds=1，否则odds大于或小于1。
什么是Logistic回归
通常赋值为：暴露时x=1，非暴露时x=0 此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。此时eβ表示1(暴露)与0(非暴露)相比，事件发生的危险，即 OR值
logistic回归分析思路
（2）暴露因素(自变量) x是多分类变量时：常用1，2，3，…，k分别表示k个不同的类别。进行logistic回归分析时，将变量转换为k-1个虚拟变量或
为(m+1)/n。当hi>2(m+1)/n时，第个观测可看作高杠杆点。
logistic回归分析思路
（2）异常点诊断
强影响点(influential points)：对模型估计影响较大。常用诊断指标为Cook距离（Cook’s Distance）。如果第i个观测的Cook距离远大于其他观测的Cook距离，意
哑变量（dummy variable），每个虚拟变量都是一个二分类变量，通常用0和1表示。每个虚拟变量各有一个回归系数，其意义表示1与0相比的优势比的对数值
logistic回归分析思路
例如，血型x为A、B、AB、O四个值，以1、2、3、4来表示，该数字只是一个代码，并非是一个等级变量。
1 p
e 1 (0 1x2x2 ...m xm )
什么是Logistic回归
Logistic回归的主要用途：（1）寻找某现象发生的影响因素。（2）校正混杂因素。（3）确定不同因素对疾病发生影响的相对重要性。（4）预测。
logistic回归参数估计
Hypertension age1
age
0
1
40
0
1
40
0
1
40
0
1
41
0
1
41
0
1
41
0
1
42
0
1
42
0
1
42
1
1
43
logistic回归分析思路
直接用连续变量age分析，结果如下：
提示年龄无统计学意义
logistic回归分析思路
用分类变量age1分析，结果如下：
年龄50-59与<50相比，有统计学意义。
logistic回归分析思路
为什么多分类自变量要用虚拟变量的形式？
logit P
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
0
1
2
3
4
妊娠次数
logistic回归分析思路
（3）暴露因素(自变量) x是连续变量时，最好将其转化为分类变量
为什么？
logistic回归分析思路
分析年龄与高血压发生与否的关系：age2是原始的年龄数据，age1是年龄分组数据（分为<50、50-59、>=60三个年龄组）
套或非嵌套的模型比较。
logistic回归分析思路
（5）广义确定系数R2——自变量对因变量的解释能力，值越大，表示自变量对因变量的解释能力越强。当自变量与因变量完全无关时，其值近于0；当拟合模型能够完美预报时，其值趋近于1。
2

R2
=1－

L(0)
L(ˆ)

n
校正
Rˆ 2
暴露人群的优势为p1/(1－p1) 非暴露人群的优势为p2/（1－p2）二者之比，称为优势比（odds ratio，OR）
OR＝ p1 /(1 p1) ad p2 /(1 p2) bc
对OR求对数，得
ln（OR）=ln(
ad bc
)=
ˆ1
或
OR= e1
logistic回归分析思路
Logistic回归模型：
log it( p)
ln( p ) 1 p
0
1x1
2 x2

m xm
βi表示自变量xi改变一个单位时，logit（p）的改变量。其它形式：
0 1x1 2 x2 ... m xm
p 1 ee0 1x1 2 x2 ...m xm
1、分析前准备——是否可以用logistic回归：研究目的：寻找某现象的危险因素吗？预测？多因素分析？因变量类型：是分类变量吗？二分类或多分类均可
logistic回归分析思路
2、分析前准备——自变量形式审查：
（1）暴露因素(自变量) x是二分类变量时：直接纳入模型
（2）Deviance——比较饱和模型和现有模型的差别 D 2(ln Ls ln Lf )
饱和模型包含了所有的变量，其模型估计值与观测值完全相等，反映一种理想状态。
Deviance值越小，现有模型与饱和模型的偏差越小，拟合效果越好。
logistic回归分析思路
（3）HL指标——用于模型中含有连续自变量的情形
故上述问题的最大似然函数是：
0 1
0
e e L （ e e e e 1
）（a
0 1
1
0
）b ( 1

1
0

1
)c
( 1
1
)d
0
两边取对数，变为
e e e e Q ln(L) a (0 1) a ln(1 ) 01 b 0 b ln(1 0) c ln(1 ) 01 d ln(1 0)
、Wald χ2检验
logistic回归分析思路
Wald χ2检验：参数估计值与标准误之比的平方
Wald
2

ˆ j se(ˆ
j
)
2

似然比检验：比较两个嵌套模型的对数似然值，如模型A 中含a、b两个变量，模型B中含a一个变量，如果两个模型有差异，提示b可能有统计学意义。
Logistic回归分析攻略
冯国双
什么是logistic回归
常见的几种回归模型：
因变量为连续资料——线性回归因变量为分类资料——Logistic回归因变量为计数资料——Poisson回归因变量为生存资料—— Cox回归 …………
什么是Logistic回归
线性回归模型： yˆ a b1x1 b2 x2 bm xm
Logit变换： logit P ln( P ) 1 P
p表示事件发生的概率，1-p为事件不发生的概率当p=1时，logit（p）=+∞, 当p=0.5时，logit（p）=0, 当p=0时，logit（p）=-∞ 故logit（p）的取值范围是（-∞，+∞）
什么是Logistic回归
味着该点可能既是离群点，又是高杠杆点，因此很可能是一个强影响点。
logistic回归分析思路
（3）其它问题
空单元(zero cell count)：自变量各水平的交叉列联表中有些单元（格子）的观测频数为0
完全分离(complete separation)：若自变量存在一临界值c，当xi≥c时，事件发生，而xi<c时，则事件不发生。
在logistic回归分析时，需将变量x转换为3个虚拟变量。若以A型血为参照组，3个虚拟变量分别为x1、x2、x3。
在分析时，将3个虚拟变量x1、x2、x3同时纳入logistic回归模型，可得3个回归系数β1、β2、β3，其中，
β1为B型血与A型血相比患白血病的优势比的对数值； β2为AB型血与A型血相比患白血病的优势比的对数值； β3为O型血与A型血相比患白血病的优势比的对数值。
结局y
1 0 合计
暴露因素x
1
0
a
b
c
d
a+c b+d
0 1
ee p1 p( y 1 | x 1) 1 01
0
ee p2 p( y 1 | x 0) 1 0
结局y
1 0 合计
暴露因素x
1
0

e商务文档

logistic回归及其分析攻略

相关文档推荐：