当前位置:文档之家› Logistic回归分析及应用

Logistic回归分析及应用


Cases av ailable in analy sis
Cases dropped
Eventa C en so red Total Cases with missing values Cases with non-positiv e time Censored cases before the earliest ev ent in a stratum Total
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系: 用于分析多个自变量与一个因变量的关
系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。 区别:
素都与肺癌有关. 由于在对某一因素进
行单因素分析时没有控制其它因素的干
扰, 因此结果不可靠.
23
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
bi ' bi * Si / S y , 其中Si为X i的标准差, S y为y的标准差。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
17
实例1
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。
a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是二值或多项分类
8

表3 肺癌与危险因素的调查分析
• 例号 是否患病 性别 吸烟 年龄
•1
1
1
0 30
•2
1
0
1 46
•3
0
0
0 35
ቤተ መጻሕፍቲ ባይዱ
•…

… ……
• 30
0
0
0 26
地区 0 1 1 … 1
Variables not in the Equation
Step Variables
X1
0
X2
X3
X4
Overall Statistics
Score 4.821 8.889 14.526 .136 19.603
df
Sig.
1
.028
1
.003
1
.000
1
.713
4
.001
• 结果表明, 性别, 吸烟, 年龄三个因
df
Sig. Exp(B)
1 .166 12.431
1 .043 54.568
1 .017 1.208
1 .409 .271
1 .017 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
Step 2 X1
Score .037
df 1
Sig. .847
a. Residual Chi Square = .037 with 1 df Sig. = .847
36
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量 由少到多一个一个引入回归方程。 按自变量对因变量的贡献(P值的大 小)由小到大依次挑选,变量入选 的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
2
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
26
2.条件logistic回归分析
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃
癌的关系,资料见表5。
27

表6 配对资料(1:1)
• 对子号
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
33
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
11
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)
y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• (2)回归系数的假设检验 • H0: i 0 H1:i 0
计算统计量为:Wald 2 ,自由度等于1。
(二) Logistic回归类型及其实例分析 • 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
• 注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’ 代表吸烟,‘0’代表不吸烟。地区中,‘1’代 表农村,‘0’代表城市。

表4 配对资料(1:1)
• 对子号
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
24
Classification Tablea
Predicted
Observed
Step 1 Y
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
25
Variables in the Equation
• -----Define Event:Single value 1:continue----Covariates框(x1、x2、x3)-----Strata框(id)--Options---at last step------ok
29
30
31
32
Case Processing Summary
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
可知,不发病的概率为:
1
1 p
1
exp( 0
1 X 1
p
X
p
)
12
经数学变换得:
ln[p /(1 p)] 0 1 X1 p X p
定义:
log it( p) ln[ p /(1 p)]
3
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
• X2不良饮食习惯,取值:0,1,2,3
• X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框(outcome)-----Status框( Status )
34
Step X2 2 X3
相关主题