当前位置:文档之家› Logistic回归分析及应用

Logistic回归分析及应用


24
a Classification Table
Predicted Y Observed Step 1 Y 0 14 2 0 1 Overall Percentage Percentage 1 Correct 1 93.3 13 86.7 90.0
a.The cut value is .500
25
经数学变换得:
ln[p /(1− p)] = β0 + β1 X1 +⋅⋅⋅ + β p X p
定义:
log it ( p) = ln[ p /(1 − p)]
为Logistic变换,即:
Logit ( p ) = β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。 P1 /(1 − P1 ) 即Xi的优势比为: OR = P0 /(1 − P0 )
Ln(OR) = log it[ P(1)] − log it[ P(0)] = ( β 0 + β i × 1) − ( β 0 + β i × 0) = β i
14
bi 为β i的估激值,此值越激, 其因抗对Y影响越激。
• 故对于样本资料OR=exp( bi ) • 95%置信区间为: exp(bi ± 1.96SE (bi )) • 可见 β i 是影响因抗Xi增加一个单位所引起的对数 优势的增量,反映了其对Y作用激小。 • 如果要比较不同因抗对Y作用激小,需要消 除变量量纲的影响,为此激算标准化回归系数
实验对象 y
y1 y2 y3 … yn
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
a1p a2p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中:y取值是二值或多项分类
8
表3 肺癌与危险因抗的调查年析 • 例号 是否患病 性性 吸烟 年年 地区 • 1 1 1 0 30 0 • 2 1 0 1 46 1 • 3 0 0 0 35 1 • … … … … … … • 30 0 0 0 26 1
3
多元线性回归模型
通过实验测得含有p个自变量x ,x2,x3 通过实验测得含有p个自变量x1,x2,x3,…,xp ,xp 及一个因变量y 个观察对象值, 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型: 原理, 建立多元线性回归模型:
ˆ y = b0 +b1 x1 + b2 x2 + ⋅ ⋅ ⋅ + b p x p
b i = b i * S i / S y , 其中 S i 为 X i 的标准差,
'
S y 为 y的标准差。
5.假设检验
• (1)回归方程的假设检验 • H0:所有 β i = 0, i = 0,1,2,⋅ ⋅ ⋅, p H1:某个 β i ≠ 0 • 激算统激量为:G=-2lnL,服从自由度等于n-p 2 • 的 χ 年布 • (2)回归系数的假设检验 • H0: β i = 0 H1:β i ≠ 0 2 激算统激量为:Wald χ ,自由度等于1。
其中b 为截距, ,b2 bp称为偏回归系数 其中b0为截距, b1 ,b2 …bp称为偏回归系数. bp称为偏回归系数. bi表示当将其它 表示当将其它p 个变量的作用加以固定后, bi 表示当将其它 p-1 个变量的作用加以固定后 , Xi 改变1个单位时Y将改变bi个单位. 改变1个单位时Y将改变bi个单位. bi个单位
第十六章 Logistic回归分析
Logistic
regression
1
复习

多元线性回归
(multiple linear regression)
在医学实践中, 在医学实践中,常会遇到一个应变量与 多个自变量数量关系的问题。 多个自变量数量关系的问题 。 如医院住院 人数不仅与门诊人数有关, 人数不仅与门诊人数有关 , 而且可能与病 床周转次数, 床位数等有关; 床周转次数 , 床位数等有关 ; 儿童的身高 不仅与遗传有关还与生活质量, 性别, 不仅与遗传有关还与生活质量 , 性别 , 地 国别等有关; 人的体表面积与体重、 区 , 国别等有关 ; 人的体表面积与体重 、 身高等有关。 身高等有关。
p=
exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p )
1 + exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p )
可知,不发病的概率为: 可知,不发病的概率为:
1 1− p = 1 + exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p ) 12
• •
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’ 代表吸烟,‘0’代表不吸烟。地区中,‘1’代 表农村,‘0’代表城市。

• • • • • • • • • • •
表4 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框(outcome)-----Status框( Status ) • -----Define Event:Single value 1:continue----Covariates框(x1、x2、x3)-----Strata框(id)--Options---at last step------ok

2.条件logistic回归分析
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃 癌的关系,资料见表5。
27
• • • • • • • • • • •
表6 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2

结果表明, 性别, 吸烟, 年龄三个因 素都与肺癌有关. 由于在对某一因素进 行单因素分析时没有控制其它因素的干 23 扰, 因此结果不可靠.
多因素分析的结果
Model Summary Step 1 -2 Log likelihood 14.006 Cox & Snell R Square .601 Nagelkerke R Square .802
Logistic回归 Logistic回归
Logistic回归与多重线性回归联系与区别 回归与多重 -- Logistic回归与多重线性回归联系与区别
联系: 联系: 用于分析多个自变量与一个因变量的关 目的是矫正混杂因素、 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。 精确地对因变量作预测等。 区别: 区别: 线性模型中因变量为连续性随机变量, 线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。 取值仅有两个,不满足正态分布。
(二) Logistic回归类型及其实例年析 • • 1、非条件Logistic回归 当研究设计为队列研究、横 断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
17
实例1

某研讨究者调查了30名成年人, 某研讨究者调查了30名成年人,记录 30名成年人 了同肺癌发病的有关因素情况, 了同肺癌发病的有关因素情况, 数据见表 其中是否患病中, 0 代表否 1 代表 代表否, 4。其中是否患病中, ‘0’代表否, ‘1’代表 代表男, 代表女; 是;性别中 ‘1’代表男, ‘0’代表女;吸 代表男 0 代表女 代表吸烟, 代表不吸烟; 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 代表吸烟 0 代表不吸烟 区中, 1 代表农村 0 代表城市 代表农村, 代表城市。 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。 析各因素与肺癌间的关系。
6
2、Logistic Logistic回归模型的数据结构 Logistic 设资料中有一个因变量y、p 个自变量x1, x2,…,xp ,对每个实 验对象共有n次观测结果,可将原 始资料列成表2形式。
7
• 表2 1 2 3 … n
Logistic回归模型的数据
2
• 1 2 3 … n
表1 y1 y2 y3 … yn
多元线性回归分析的数据结构
X1 X2 X3 …. XP
实验对象 y
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
a1p a2p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中:y取值是服从正态分布
非条件Logistic回归 SPSS操作步骤: SPSS操作步骤:
相关主题