当前位置：文档之家› Logistic 回归模型

Logistic 回归模型

Log (Oddsx10 ) 0 2 x2
28
多自变量Logistic模型的OR解释
• 则饮酒的对数Odds Ratio为
ln(OR) Log (Oddsx11 ) Log (Oddsx10 ) 1
• 即：饮酒的 OR e • 意义：对于同为吸烟的对象或者同为不吸烟的对象，其饮酒的 OR e 1 • 故称校正吸烟后OR，而前者未考虑吸烟的单因素OR称为crude OR
12
实例1
• 饮酒的患病率和Odds分别为
55 P 55 1 P Odds1 1 1 P 104663 104718 1
不饮酒的患病率和Odds分别为
55 211555 OR 1.5094166 74 104663
P2 74 74 Odds2 P2 1 P2 211555 212629
• 应用Stata软件进行最大似然估计，得到回归系数估计的主要结果如下
y x1 x2 _cons Coef. -0.000021 1.710272 -8.227466 P>|z| 1.000 0.000 0.000 [95% Conf. Interval] -0.3680823 0.3680403 1.341277 2.079267 -8.478243 -7.976688
32
应用Logistic模型分析实例3
• 用Stata软件对实例3的资料拟合上述模型，得到下列结果：
0
74
0 1
55
104663
212555
• 选择0和1使似然函数L达到最大，即最大似然估计。
16
实例1:用Logistic模型进行统计分析
• 以上述实例资料用Stata统计软件对回归系数进行最大似然估计，得到回归系数估计为 y b se(b) z P>|z| x .4117232 .1780719 2.31 0.021 _cons -7.962891 .1162679 -68.49 0.000 • 即：
20
实例2：应用Logistic模型校正混杂作用
• 从分层的资料表述可知：由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联。 • 用x1=1和0分别表示饮酒和不饮酒，用 x2=1和0分别表示吸烟和不吸烟， Logistic模型表示如下
e P(Y 1) 0 1x1 2 x2 1 e
18
实例1:用Logistic模型进行统计分析
• 实例1-7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0，差异有统计学意义，可认为0。 • 饮酒与患AMI的关联性为
Logistic 回归模型
赵耐青复旦大学公共卫生学院
1
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较，一般采用t检验或秩和检验。 – 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析 • 考虑多因素的影响，对于应变量(反应变量)为计量资料，一般可以考虑应用多重线性回归模型进行多因素分析。
0 1x1 2 x2
21
Logistic模型的似然比检验
• 在多个自变量回归模型中，回归系数检验分为单个回归系数检验和多个回归系数检验。
• 单个回归系数检验表示其它变量均在模型中的情况下，检验某个回归系数i=0，一般用 Wald检验(如实例1）。
• 多个回归系数检验要用似然比方法（likelihood ratio test)
30
Logistic模型中的交互作用
• 实例3：采用病例对照设计研究吸烟和家属史与患肺癌的关联性。
吸烟不吸烟合计有家属史患肺癌未患肺癌 200 50 300 450 500 500 无家属史患肺癌未患肺癌 80 6 270 310 350 316
• 用x1=1,0分别表示吸烟和不吸烟；x2=1,0 分别表示有无家属史；用y=1,0分别表示患肺癌和未患肺癌。
• 饮酒：OR e -0.000021
0.999979
27
多自变量Logistic模型的OR解释
• 在本例中，对于同为吸烟或不吸烟的对象而言(x2相对固定不变)， • 饮酒(x1=1)的对数Odds为
Log (Oddsx11 ) 0 1 2 x2
• 不饮酒(x1=0)的对数Odds为
22
Logistic模型的似然比检验
• • • • • 多个回归系数的检验（以实例2为例） H0：1=2=0 H1：1，2不全为0 =0.05 H0为真时，模型为 Logit ( P) 0 用最大似然法进行估计，其对数最大似然函数值(似然函数的最大值取对数）记为ln(L0)
23

1
0.4117232 0 -7.962891
17

b z 2.31 se(b)
Logistic模型的单个回归系数检验
• 关键是如果＝0，意味自变量X与Y无关联性。由于的估计存在抽样误差，即使=0，其估计值b一般不为0，故需检验＝0？ • H0：＝0 H1： 0 • ＝0.05 b • 检验统计量 z se(b) • 可以证明： H0:＝0 为真时，z近似服从标准正态分布，即：|z|>1.96，P<0.05,拒绝H0
31
实例3：Logistic模型的交互作用
• 一般而言，吸烟和家属史均是肺癌的重要相关因素，很有可能这两个因素对患肺癌有交互作用，因此采用下列含有交互作用项的Logistic模型。
Logit ( P) 0 1x1 2 x2 3 x1x2
• 其中x1和x2的乘积项x1x2称为交互作用项
P ln(Odds) ln( ) 0 1 x1 m xm 1 P
9
Logistic回归模型 P • 记： log it ( P ) ln( ) 1 P
• 故可以写为 • 也可以写为
log it (P) 0 1x1 m xm
exp(0 1x1 m xm ) P 1 exp(0 1x1 m xm )
7
基础知识
P P2 Odds1 Odds2 OR 1 1 P P2 Odds1 Odds2 OR 1 1
• 故比较两个率<==> • 比较OR =1? OR>1 ? OR<1?
8
(二分类)Logistic回归模型
• 因为0<Odds<+ • 所以 -< ln(Odds) <+ • 对ln(Odds)引入类似多重线性回归的表达式
Logistic模型的似然比检验
• H1为真时，实例2的模型为
Logit ( P) 0 1x1 2 x2
• 用最大似然法进行估计，其对数最大似然函数值记为ln(L1) • 记似然比检验统计量为2ln(L)=2(ln(L1)-ln(L0))
24
Logistic模型的似然比检验
• 可以证明：H0为真时， 2ln(L)近似服从 2分布，自由度为需检验的自变量个数，如在实例2中，自由度为2。 2 • 如果似然比检验统计量2ln(L)> 0.05,df 则拒绝H0。 • 如果对模型中所有的自变量进行检验，则称为模型检验。如实例2，对两个自变量进行检验，故这是模型检验。
2
数据分析的背景
• 单因素的分类资料统计分析，一般采用 Pearson 2进行统计检验，用Odds Ratio 及其95%可信区间评价关联程度。 • 考虑多因素的影响，对于反应变量为分类变量时，用线性回归模型P=a+bx就不合适了，应选用Logistic回归模型进行统计分析。
3
Logistic回归模型
饮酒不饮酒合计 (X=1) (X=0) a b n1 患病(y=1) c d n2 未患病(y=0) m1 m2 N 合计
• 患病率 P1=a/m1 P2=b/m2
5
基础知识
P • Odds（优势） Odds 1 P P ( P 1) 1 1 Odds 1 1 P 1 P 1 P
OR e
0.4117232
1.509417
19
• OR的95%可信区间为（1.06，2.14）
应用Logistic模型校正混杂作用
• 实例2：上例没有考虑吸烟情况，故将吸烟作为分层加入，资料如下：
吸烟不吸烟饮酒％不饮酒％饮酒％不饮酒％患病 33（0.03） 21(0.03) 22(0.015) 53(0.015) 未患病 22331 14210 82332 198345 合计 22364 14231 82354 198398
10
回归系数的意义
• 以x1的回归系数1为例 • 固定其它自变量，比较x1与x1 +1的ln(Odds) 变化。 • 对于x1， ln(Oddsx ) 0 1x1 m xm 1 • 对于x1 +1，
ln(OR) ln(Oddsx1 1) ln(Oddsx1 ) 1 1 • 反对数变换得到
• 按研究设计分类 – 非配对设计：非条件Logistic回归模型 – 配对的病例对照：条件Logistic回归模型
• 按反应变量分类 – 二分类Logistic回归模型(常用) – 多分类无序Logistic回归模型 – 多分类有序Logistic回归模型
4
基础知识
• 通过下例引入和复习相关概念 • 例如：研究患某疾病与饮酒的关联性
13
实例1的Logistic回归模型
• 患病(Y=1)的概率为
0 1x
e P(Y 1| x) 0 1x 1 e
• x=1 表示饮酒，x=0表示不饮酒 • 回归系数0，1是未知参数，通常用最大似然估计的方法。

e商务文档

Logistic 回归模型

相关文档推荐：