当前位置:文档之家› logistic回归及其分析攻略

logistic回归及其分析攻略


Score检验(也称拉格朗日乘数检验、求导检验):检验 无效假设成立时对数似然函数的效率
logistic回归分析思路
5、建立初步模型: 根据参数估计值,建立初步模型
log it( p)
ln( p ) 1 p

0

1x1

2 x2

m xm
logistic回归分析思路
11
0 1
1
1
0 1
0
1
ee e 1- p2 1- 1
0
1
0
logistic回归参数估计
最大似然估计(maximum likelihood estimation,MLE)
最大似然法就是选取使总体参数落在样本观察值领域里的 概率达到最大时的值作为参数的估计值。
AIC =(- 2 ln L)+2(q+s) AIC指标通常不用于单个模型的评价,而是用于两个或多个
模型拟合优度的比较。较小的AIC值表示拟合模型较好。
SC(Schwartz Criterion)标准是对AIC指标的一种修正: SC =(- 2 ln L)+2(q+s)* ln(n) SC与AIC一样,都是值越小表示模型拟合越好,均可用于嵌
Logit变换:logit P ln( P ) 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病 发生强度的统计指标,称为优势(odds)。
当疾病发生的概率p与不发生的概率q相等皆为0.5时, odds=1,否则odds大于或小于1。
什么是Logistic回归
通常赋值为:暴露时x=1,非暴露时x=0 此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比 的优势比的对数值。 此时eβ表示1(暴露)与0(非暴露)相比,事件发生的危险,即 OR值
logistic回归分析思路
(2)暴露因素(自变量) x是多分类变量时: 常用1,2,3,…,k分别表示k个不同的类别。 进行logistic回归分析时,将变量转换为k-1个虚拟变量或
为(m+1)/n。当hi>2(m+1)/n时,第 个观测可看作高杠杆点。
logistic回归分析思路
(2)异常点诊断
强影响点(influential points):对模型估计影响较大。 常用诊断指标为Cook距离(Cook’s Distance)。 如果第i个观测的Cook距离远大于其他观测的Cook距离,意
哑变量(dummy variable),每个虚拟变量都是一个二分 类变量,通常用0和1表示。 每个虚拟变量各有一个回归系数,其意义表示1与0相比的 优势比的对数值
logistic回归分析思路
例如,血型x为A、B、AB、O四个值,以1、2、3、4来表 示,该数字只是一个代码,并非是一个等级变量。
1 p
e 1 (0 1x2x2 ...m xm )
什么是Logistic回归
Logistic回归的主要用途: (1)寻找某现象发生的影响因素。 (2)校正混杂因素。 (3)确定不同因素对疾病发生影响的相对重要性。 (4)预测。
logistic回归参数估计
Hypertension age1
age
0
1
40
0
1
40
0
1
40
0
1
41
0
1
41
0
1
41
0
1
42
0
1
42
0
1
42
1
1
43
logistic回归分析思路
直接用连续变量age分析,结果如下:
提示年龄无统计学意义
logistic回归分析思路
用分类变量age1分析,结果如下:
年龄50-59与<50相比,有统计学意义。
logistic回归分析思路
为什么多分类自变量要用虚拟变量的形式?
logit P
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
0
1
2
3
4
妊娠次数
logistic回归分析思路
(3)暴露因素(自变量) x是连续变量时,最好将其转化为 分类变量
为什么?
logistic回归分析思路
分析年龄与高血压发生与否的关系:age2是原始的年龄数 据,age1是年龄分组数据(分为<50、50-59、>=60三个年 龄组)
套或非嵌套的模型比较。
logistic回归分析思路
(5)广义确定系数R2——自变量对因变量的解释能力, 值越大,表示自变量对因变量的解释能力越强。当自变 量与因变量完全无关时,其值近于0;当拟合模型能够完 美预报时,其值趋近于1。
2

R2
=1-

L(0)
L(ˆ)

n
校正
Rˆ 2
暴露人群的优势为p1/(1-p1) 非暴露人群的优势为p2/(1-p2) 二者之比,称为优势比(odds ratio,OR)
OR= p1 /(1 p1) ad p2 /(1 p2) bc
对OR求对数,得
ln(OR)=ln(
ad bc
)=
ˆ1

OR= e1
logistic回归分析思路
Logistic回归模型:
log it( p)
ln( p ) 1 p
0
1x1
2 x2

m xm
βi表示自变量xi改变一个单位时,logit(p)的改变量。 其它形式:
0 1x1 2 x2 ... m xm
p 1 ee0 1x1 2 x2 ...m xm
1、分析前准备——是否可以用logistic回归: 研究目的: 寻找某现象的危险因素吗? 预测? 多因素分析? 因变量类型: 是分类变量吗?二分类或多分类均可
logistic回归分析思路
2、分析前准备——自变量形式审查:
(1)暴露因素(自变量) x是二分类变量时: 直接纳入模型
(2)Deviance——比较饱和模型和现有模型的差别 D 2(ln Ls ln Lf )
饱和模型包含了所有的变量,其模型估计值与观测值完 全相等,反映一种理想状态。
Deviance值越小,现有模型与饱和模型的偏差越小,拟 合效果越好。
logistic回归分析思路
(3)HL指标——用于模型中含有连续自变量的情形
故上述问题的最大似然函数是:
0 1
0
e e L ( e e e e 1
)(a
0 1
1
0
)b ( 1

1
0

1
)c
( 1
1
)d
0
两边取对数,变为
e e e e Q ln(L) a (0 1) a ln(1 ) 01 b 0 b ln(1 0) c ln(1 ) 01 d ln(1 0)
、Wald χ2检验
logistic回归分析思路
Wald χ2检验:参数估计值与标准误之比的平方
Wald
2



ˆ j se(ˆ
j
)
2


似然比检验:比较两个嵌套模型的对数似然值,如模型A 中含a、b两个变量,模型B中含a一个变量,如果两个模 型有差异,提示b可能有统计学意义。
Logistic回归分析攻略
冯国双
什么是logistic回归
常见的几种回归模型:
因变量为连续资料——线性回归 因变量为分类资料——Logistic回归 因变量为计数资料——Poisson回归 因变量为生存资料—— Cox回归 …………
什么是Logistic回归
线性回归模型: yˆ a b1x1 b2 x2 bm xm
Logit变换: logit P ln( P ) 1 P
p表示事件发生的概率,1-p为事件不发生的概率 当p=1时,logit(p)=+∞, 当p=0.5时,logit(p)=0, 当p=0时,logit(p)=-∞ 故logit(p)的取值范围是(-∞,+∞)
什么是Logistic回归
味着该点可能既是离群点,又是高杠杆点,因此很可能是一 个强影响点。
logistic回归分析思路
(3)其它问题
空单元(zero cell count):自变量各水平的交叉列联表中有些 单元(格子)的观测频数为0
完全分离(complete separation):若自变量 存在一临界值c, 当xi≥c时,事件发生,而xi<c时,则事件不发生。
在logistic回归分析时,需将变量x转换为3个虚拟变量。若 以A型血为参照组,3个虚拟变量分别为x1、x2、x3。
在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归 模型,可得3个回归系数β1、β2、β3,其中,
β1为B型血与A型血相比患白血病的优势比的对数值; β2为AB型血与A型血相比患白血病的优势比的对数值; β3为O型血与A型血相比患白血病的优势比的对数值。
结局y
1 0 合计
暴露因素x
1
0
a
b
c
d
a+c b+d
0 1
ee p1 p( y 1 | x 1) 1 01
0
ee p2 p( y 1 | x 0) 1 0
结局y
1 0 合计
暴露因素x
1
0
相关主题