当前位置：文档之家› Logistic回归分析及应用

Logistic回归分析及应用

24
a Classification Table
Predicted Y Observed Step 1 Y 0 14 2 0 1 Overall Percentage Percentage 1 Correct 1 93.3 13 86.7 90.0
a.The cut value is .500
25
经数学变换得：
ln[p /(1− p)] = β0 + β1 X1 +⋅⋅⋅ + β p X p
定义：
log it ( p) = ln[ p /(1 − p)]
为Logistic变换，即：
Logit ( p ) = β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p
4、回归系数βi的意义
流行病学的常用指标优势比（odds ratio,OR)或称比数比，定义为：暴露人群发病优势与非暴露人群发病优势之比。 P1 /(1 − P1 ) 即Xi的优势比为： OR = P0 /(1 − P0 )
Ln(OR) = log it[ P(1)] − log it[ P(0)] = ( β 0 + β i × 1) − ( β 0 + β i × 0) = β i
14
bi 为β i的估激值，此值越激，其因抗对Y影响越激。
• 故对于样本资料OR=exp( bi ) • 95%置信区间为： exp(bi ± 1.96SE (bi )) • 可见 β i 是影响因抗Xi增加一个单位所引起的对数优势的增量，反映了其对Y作用激小。 • 如果要比较不同因抗对Y作用激小，需要消除变量量纲的影响，为此激算标准化回归系数
实验对象 y
y1 y2 y3 … yn
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
a1p a2p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中：y取值是二值或多项分类
8
表3 肺癌与危险因抗的调查年析 • 例号是否患病性性吸烟年年地区 • 1 1 1 0 30 0 • 2 1 0 1 46 1 • 3 0 0 0 35 1 • … … … … … … • 30 0 0 0 26 1
3
多元线性回归模型
通过实验测得含有p个自变量x ,x2,x3 通过实验测得含有p个自变量x1,x2,x3,…,xp ,xp 及一个因变量y 个观察对象值, 及一个因变量y的n个观察对象值, 利用最小二乘法原理, 建立多元线性回归模型: 原理, 建立多元线性回归模型:
ˆ y = b0 +b1 x1 + b2 x2 + ⋅ ⋅ ⋅ + b p x p
b i = b i * S i / S y , 其中 S i 为 X i 的标准差，
'
S y 为 y的标准差。
5.假设检验
• （1）回归方程的假设检验 • H0：所有 β i = 0, i = 0,1,2,⋅ ⋅ ⋅, p H1：某个 β i ≠ 0 • 激算统激量为：G=-2lnL，服从自由度等于n-p 2 • 的 χ 年布 • （2）回归系数的假设检验 • H0： β i = 0 H1：β i ≠ 0 2 激算统激量为：Wald χ ，自由度等于1。
其中b 为截距, ,b2 bp称为偏回归系数其中b0为截距, b1 ,b2 …bp称为偏回归系数. bp称为偏回归系数. bi表示当将其它表示当将其它p 个变量的作用加以固定后, bi 表示当将其它 p-1 个变量的作用加以固定后 , Xi 改变1个单位时Y将改变bi个单位. 改变1个单位时Y将改变bi个单位. bi个单位
第十六章 Logistic回归分析
Logistic
regression
1
复习
•
多元线性回归
(multiple linear regression)
在医学实践中，在医学实践中，常会遇到一个应变量与多个自变量数量关系的问题。多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 人数不仅与门诊人数有关 , 而且可能与病床周转次数, 床位数等有关；床周转次数 , 床位数等有关；儿童的身高不仅与遗传有关还与生活质量，性别，不仅与遗传有关还与生活质量，性别，地国别等有关；人的体表面积与体重、区，国别等有关；人的体表面积与体重、身高等有关。身高等有关。
p=
exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p )
1 + exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p )
可知，不发病的概率为：可知，不发病的概率为：
1 1− p = 1 + exp( β 0 + β 1 X 1 + ⋅ ⋅ ⋅ + β p X p ) 12
• •
注：是否患病中，‘0’代表否，‘1’代表是。性别中‘1’代表男，‘0’代表女，吸烟中‘1’ 代表吸烟，‘0’代表不吸烟。地区中，‘1’代表农村，‘0’代表城市。
•
• • • • • • • • • • •
表4 配对资料(1:1) 对子号病例对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注：X1蛋白质摄入量，取值：0，1，2，3 X2不良饮食习惯，取值：0，1，2，3 X3精神状况，取值：0，1，2
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框（outcome)-----Status框（ Status ） • -----Define Event:Single value 1:continue----Covariates框（x1、x2、x3)-----Strata框（id）--Options---at last step------ok
•
2.条件logistic回归分析
• 配对设计的类型：1:1、1:m、n:m • （可采用分层COX模型来拟合）。 • 例如：某市调查三种生活因素与胃癌的关系，资料见表5。
27
• • • • • • • • • • •
表6 配对资料(1:1) 对子号病例对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注：X1蛋白质摄入量，取值：0，1，2，3 X2不良饮食习惯，取值：0，1，2，3 X3精神状况，取值：0，1，2
•
结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干 23 扰, 因此结果不可靠.
多因素分析的结果
Model Summary Step 1 -2 Log likelihood 14.006 Cox & Snell R Square .601 Nagelkerke R Square .802
Logistic回归 Logistic回归
Logistic回归与多重线性回归联系与区别回归与多重 -- Logistic回归与多重线性回归联系与区别
联系: 联系: 用于分析多个自变量与一个因变量的关目的是矫正混杂因素、系，目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。精确地对因变量作预测等。区别: 区别: 线性模型中因变量为连续性随机变量，线性模型中因变量为连续性随机变量，且要求呈正态分布. Logistic回归因变量的且要求呈正态分布. Logistic回归因变量的取值仅有两个，不满足正态分布。取值仅有两个，不满足正态分布。
（二） Logistic回归类型及其实例年析 • • 1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例对照研究时，可以用非条件Logistic回归。
17
实例1
•
某研讨究者调查了30名成年人，某研讨究者调查了30名成年人，记录 30名成年人了同肺癌发病的有关因素情况, 了同肺癌发病的有关因素情况, 数据见表其中是否患病中, 0 代表否 1 代表代表否, 4。其中是否患病中, ‘0’代表否, ‘1’代表代表男, 代表女；是；性别中 ‘1’代表男, ‘0’代表女；吸代表男 0 代表女代表吸烟, 代表不吸烟；烟中 ‘1’代表吸烟, ‘0’代表不吸烟；地代表吸烟 0 代表不吸烟区中, 1 代表农村 0 代表城市代表农村, 代表城市。区中, ‘1’代表农村, ‘0’代表城市。试分析各因素与肺癌间的关系。析各因素与肺癌间的关系。
6
2、Logistic Logistic回归模型的数据结构 Logistic 设资料中有一个因变量y、p 个自变量x1, x2,…,xp ，对每个实验对象共有n次观测结果，可将原始资料列成表2形式。
7
• 表2 1 2 3 … n
Logistic回归模型的数据
2
• 1 2 3 … n
表１ y1 y2 y3 … yn
多元线性回归分析的数据结构
X1 X2 X3 …. XP
实验对象 y
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
a1p a2p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中：y取值是服从正态分布
非条件Logistic回归 SPSS操作步骤: SPSS操作步骤:

e商务文档

Logistic回归分析及应用

相关文档推荐：