当前位置:文档之家› Logistic回归分析(1)

Logistic回归分析(1)



• 对子号
表4 配对资料(1:1)
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
Variables in the Equation
Satep X1 1 X2
B
S.E.
Wald
df
2.520 1.821 1.916
Exp(B) 12.431 54.568 1.208 .271 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
2.条件logistic回归分析
Change From Previous Block
Step Likelihood Chi-square df
Sig. Chi-square df
Sig.
2
1.920
7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
非S条SPP件SSSSL操操og作作is步步ti骤骤c回::归
• Analyze-----Regression-----Binary Logistic • -----Dependent框(y)-----Covariates框
(x1,x2,…)------ok
单因素分析的结果
Variables not in the Equation
开始方程中没有变量,自变量 由少到多一个一个引入回归方程。 按自变量对因变量的贡献(P值的大 小)由小到大依次挑选,变量入选 的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
(2)后退法(backward selection)
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值小于规定的剔除 标准Remove, 缺省值 p(0.10)。
bi为i的估计值,此值越大, 其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为:exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
bi ' bi * Si / S y , 其中Si为X i的标准差, S y为y的标准差。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
Classification Tablea
Predicted
Observed
Step 1 Y
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
(0 i 1) (0 i 0) i
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是二值或多项分类
例号 1 2 3 …
30
表3 肺癌与危险因素的调查分析 是否患病 性别 吸烟 年龄 地区
1
1
0 30 0
1
0
1 46 1
0
0
0 35 1

… ………
0
0
0 26 1
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’代 表吸烟,‘0’代表不吸烟。地区中,‘1’代表农 村,‘0’代表城市。
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃
癌的关系,资料见表5。
表6 配对x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
020

… … … ………
10
22 2
000
注:X1蛋白质摄入量,取值:0,1,2,3
logistic regression analysis
(一)基本概念和原理
1.应用背景 Logistic回归模型是一种概率模 型,适合于病例—对照研究、随访研究 和横断面研究,且结果发生的变量取值 必须是二分的或多项分类。可用影响结 果变量发生的因素为自变量与因变量, 建立回归方程。
2、Logistic回归模型的数据结构
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)

y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。

表5 肺癌与危险因素的调查分析
• (2)回归系数的假设检验 • H0: i 0 H1:i 0
计算统计量为:Wald 2 ,自由度等于1。
(二) Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
实例1
1
3.999 1.975 4.101
1
X3
.189
.079 5.708
1
X4
-1.306 1.583
.681
1
Constant -9.781 4.099 5.694
1
a. Variable(s) entered on step 1: X1, X2, X3, X4.
Sig. .166 .043 .017 .409 .017
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
X2不良饮食习惯,取值:0,1,2,3
X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
相关主题