当前位置：文档之家› Logistic回归分析(1)

Logistic回归分析(1)

•
• 对子号
表4 配对资料(1:1)
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注：X1蛋白质摄入量，取值：0，1，2，3
•
X2不良饮食习惯，取值：0，1，2，3
•
X3精神状况，取值：0，1，2
•
Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关系，目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量，且要求呈正态分布. Logistic回归因变量的取值仅有两个，不满足正态分布。
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
Variables in the Equation
Satep X1 1 X2
B
S.E.
Wald
df
2.520 1.821 1.916
Exp(B) 12.431 54.568 1.208 .271 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
2.条件logistic回归分析
Change From Previous Block
Step Likelihood Chi-square df
Sig. Chi-square df
Sig.
2
1.920
7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
非S条SPP件SSSSL操操og作作is步步ti骤骤c回::归
• Analyze-----Regression-----Binary Logistic • -----Dependent框(y)-----Covariates框
（x1,x2,…)------ok
单因素分析的结果
Variables not in the Equation
开始方程中没有变量，自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献（P值的大小）由小到大依次挑选，变量入选的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
（2）后退法(backward selection)
开始变量都在方程中，然后按自变量因变量的贡献（P值的大小）由大到小依次剔除，变量剔除的条件是其P值小于规定的剔除标准Remove, 缺省值 p(0.10)。
bi为i的估计值，此值越大，其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为：exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量，反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小，需要消
除变量量纲的影响，为此计算标准化回归系数
bi ' bi * Si / S y , 其中Si为X i的标准差， S y为y的标准差。
5.假设检验
• （1）回归方程的假设检验
• H0：所有 i 0, i 0,1,2,, p H1：某个 i 0
• 计算统计量为：G=-2lnL，服从自由度等于n-p
• 的 2 分布
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
Classification Tablea
Predicted
Observed
Step 1 Y
4、回归系数βi的意义
流行病学的常用指标优势比（odds ratio,OR)或称比数比，定义为：暴露人群发病优势与非暴露人群发病优势之比。
即Xi的优势比为：OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
(0 i 1) (0 i 0) i
• 表１多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中：y取值是服从正态分布
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中：y取值是二值或多项分类
例号 1 2 3 …
30
表3 肺癌与危险因素的调查分析是否患病性别吸烟年龄地区
1
1
0 30 0
1
0
1 46 1
0
0
0 35 1
…
… ………
0
0
0 26 1
注：是否患病中，‘0’代表否，‘1’代表是。性别中‘1’代表男，‘0’代表女，吸烟中‘1’代表吸烟，‘0’代表不吸烟。地区中，‘1’代表农村，‘0’代表城市。
• 配对设计的类型：1:1、1:m、n:m • （可采用分层COX模型来拟合）。 • 例如：某市调查三种生活因素与胃
癌的关系，资料见表5。
表6 配对x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
020
…
… … … ………
10
22 2
000
注：X1蛋白质摄入量，取值：0，1，2，3
logistic regression analysis
（一）基本概念和原理
1.应用背景 Logistic回归模型是一种概率模型，适合于病例—对照研究、随访研究和横断面研究，且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量，建立回归方程。
2、Logistic回归模型的数据结构
3、 Logistic回归模型
令： y=1 发病（阳性、死亡、治愈等）

y=0 未发病（阴性、生存、未治愈等）
将发病的概率记为P，它与自变量x1, x2,…,xp之间的Logistic回归模型为：
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
• 某研讨究者调查了30名成年人，记录了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表是；性别中 ‘1’代表男, ‘0’代表女；吸烟中 ‘1’代表吸烟, ‘0’代表不吸烟；地区中, ‘1’代表农村, ‘0’代表城市。试分析各因素与肺癌间的关系。
•
表5 肺癌与危险因素的调查分析
• （2）回归系数的假设检验 • H0： i 0 H1：i 0
计算统计量为：Wald 2 ，自由度等于1。
（二） Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时，可以用非条件Logistic回归。
实例1
1
3.999 1.975 4.101
1
X3
.189
.079 5.708
1
X4
-1.306 1.583
.681
1
Constant -9.781 4.099 5.694
1
a. Variable(s) entered on step 1: X1, X2, X3, X4.
Sig. .166 .043 .017 .409 .017
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
X2不良饮食习惯，取值：0，1，2，3
X3精神状况，取值：0，1，2
配对Logistic回归SPSS操作步骤:

e商务文档

Logistic回归分析(1)

相关文档推荐：