当前位置：文档之家› 2016.4.10-logistic回归分析

2016.4.10-logistic回归分析

Pi=
e
0 1xI 1 2 xI 2 ... p xip 0 1xi1 2 xi 2 ... p xip
1 e
Qi=
1 1 e
0 1xi1 2 xi 2 ... p xip
那么，第 i名观察对象的阳性概率与阴性概率的比数为Pi/Qi；同理，第L名观察对象的阳性概率与阴性概率的比数为PL/QL。则有：
四、logistic回归分析步骤及结果分析
（一）非条件logistic回归 1.数据库结构及录入（SPSS 或Excel）
编号 1 2 3 x1 59 36 61 x2 2 1 2 x3 43.4 57.2 190 x4 2 1 2 x5 1 1 1 y 0 0 0
4
5
58
55
3
3
128
80
4
3
3
多分类：Y=0,1,2,3，… （非条件） 2.有序分类（Y为等级资料，且大于二分类）
一、资料类型
1. 二分类logistic回归
1. 二分类logistic回归案例1 探讨肾细胞癌转移有关的因素研究中，收集了26 例行根治性肾切除术患者的肾癌标本资料，请分析癌转移的影响因素。 52例行根治性肾切除术患者的肾癌标本资料
肾细胞癌组织内微血管数 .191 .175
肾细胞癌细胞核组织学分级 .313* .024
N
内皮生长因子 Pearson 相关性显著性（双侧） N
52
.316* .023 52
52
1 52
52
.213 .130 52
52
.597** .000 52
肾细胞癌组织内微血管数
Pearson 相关性
显著性（双侧）
二、模型结构
设 X1 ， X2 ， … ， Xp 为一组自变量， Y 为应变量。当 Y 是阳性反应时，记作 Y=1；当Y是阴性反应时，记作Y=0。用 P表示阳性反应的概率；用Q表示发生阴
性反应的概率。很显然，P+Q=1
则Logistic 1x1 2 x2 ... p x p 0 1x1 2 x2 ... p x p
Y 1 ( xi1 x L1 ) 2 ( xi 2 xL 2 ) ... p ( xip xlp )
这就是线性回归方程。式中的β i意义是指在其他自变量固定不变的情况下，自变量Xi的水平每增加一个单位时所引起的OR值为增加前 e 的倍。当β i为正数，即表示Xi的增加使OR增加，Xi 是危险因素；当β i为负数，即表示Xi的增加使OR减少，Xi是保护因素。
2. 配对logistic回归
2. 配对logistic回归
3. 有序分类logistic回归（Y为同类指标不同取值）
（有序多分类）
3. 有序分类logistic回归
（Y为同类指标不同取值）
3. 有序分类logistic回归
（Y为同类指标不同取值）
4. 无序多分类logistic回归（Y为多个不同类别的指标）
.191
.175
.213
.130
1
.398**
.003
N
肾细胞癌细胞核组织学分级 Pearson 相关性
52
.313*
52
.597**
52
.398**
52
1
显著性（双侧）
N 肾细胞癌分期 Pearson 相关性显著性（双侧） N
.024
52 .125 .379 52
.000
52 .493** .000 52
在比较暴露因素对因变量的相对贡献
大小时，同多元线性回归一样，不能
直接比较偏回归系数的大小，须用标
准化偏回归系数作比较。标准化偏回归系数的计算，需利用有关的统计软件包（如SAS，SPSS）在计算机上解决。
三、Logistic回归方程的求解
由于logistic回归是一个概率模型，通常用最大似然法求参数 (i) 的估计值 bi(i=1,2,3,…,p)。依最大似然法的原理，使似然函数L达到最大时的参数值就是所求的参数估计值。计算时一般将似然函数L取自然对数（称对数似然函数）后，用 NewtonRaphson 迭代法求参数的估计值 bi(i=1,2,3,…,p)。这过程比较复杂，常用计算机完成。
结果分析： ⑴ 哪些因素有关，哪些因素无关？ ⑵ 是保护因素或危险因素？ ⑶ 因素效应大小比较。 (4)相对危险度是多少？
（二）条件logistic回归分析步骤及结果分析
案例：喉癌1:2配对病例-对照调查资料（来源：孙振球 P286）
1.数据结构
2.SPSS分析步骤
使用SPSS的COXREG 命令拟合条件 Logistic 模型（Analyze → Survival → Cox Regression），回答下列5个对话框： ① Time: 给每行记录一个虚拟的生存时间（Time)，一般默认“病例” 生存时间短（例如为“1”），“对照” 生存时间长（例如为“2”）。 ② Status 。定义事件时“病例”全为“1”（Single value）。 ③ Covariates: 选入要进行分析的协变量（即自变量 X1， X2，X3）。 ④ Method: 用 FSTEP（LR），即似然比法。 ⑤ Strata: 录入配对的配对号，“1”指第1 个对子（含 “病例”为“1”一行与“对照” 者为“0”一行）；“2” 指第2 个对子。
15.659 1 .000 .515 1 .473 .462 1 .497 15.709 1 .000 12.199 1 .000
以α=0.20为入选标准，则只有x2,x4,x5能放入多因素模型进行分析。
相关分析结果
年龄（岁） Pearson 相关性显著性（双侧）
年龄（岁） 1
内皮生长因子 .316* .023
id 1 2 3 4 5 6 X1 59 36 61 58 55 61 X2 2 1 2 3 3 1 X3 43.4 57.2 190.0 128.0 80.0 94.4 X4 2 1 2 4 3 2 X5 1 1 1 3 4 1 y 0 0 0 1 1 0 id 14 15 16 17 18 19 X1 31 36 42 14 32 35 X2 1 3 1 3 1 1 X3 47.8 31.6 66.2 138.6 114.0 40.2 X4 2 3 2 3 2 2 X5 1 1 1 3 3 1 y 0 1 0 1 0 0
4
1
1
2.数据初步分析（1）分别对对照组和病例组绘制频数分布，了解各变量的分布类型及变异情况。（2）单因素分析：卡方检验或单因素logistic回归（3）对性质相同的自变量进行部分多因素分析，探讨自变量纳入模型的适宜尺度及变量变换方法 (判断增加或删除因素）
3.进行多因素筛选。把单因素P<α的因素纳入多因素模型进行因素筛选。一般α=0.10。另外，还要考虑指标数与样本含量的比例(n:p=10:1)。（也有人认为只要例数足够多，不管单因素结果如何，都应该把所有变量纳入多因素模型。当变量不多，样本含量较大，且缺失值不多时，这种方法是有效的） 4. 在多因素筛选模型的基础上，考虑有无必要纳入交互作用项。如：年龄与饮酒 5. 结果的选择。不同的分析思路、不同的筛选因素的方法（前进法、后退法），所得到的结果是不一样的。好的模型结果应该是：符合专业知识要求。
多因素分析结果的选择。不同的分析思路、不同的筛选因素的方法（前进法、后退法），所得到的结果是不一样的。好的模型结果应该是：符合专业知识要求。
（LR法）
（摘自张文彤-高级篇）
α=0.20
（父孕前吸烟）（父孕后吸烟）
年龄与低体重儿发生率呈U型关系。分析年龄时，应以二次型引入模型，即GMAGE、(GMAGE)2同时纳入模型进行分析。（模型1、模型2）另外，母亲年龄与父亲年龄高度相关（r=0.7605），当同时纳入模型时，父亲年龄作用被母亲年龄作用代替。故在进一步做多因素分析只考虑母亲年龄。（模型3）
.003
52 .352* .011 52 52 .627** .000 52
2.多因素模型分析
注：默认设置为前进法。如选择向后法，需要调整进入和删除的水准。
3.结果解读（以多因素模型分析结果为准）
在5个影响因素中，只有x2（内皮生长因子）、x4(肾细胞癌细胞核组织学分级)两个因素与转移关系有统计学意义。其回归系数均为正值，说明二者为危险因素。内皮生长因子每增加1个等级转移的概率增加11.2倍；组织细胞学增加一个级别，转移的概率增加8.1倍。根据标准化偏回归系数，XX的作用比YYY大。
p /Q Ln( ) ( x x ) ( x x ) .... ( x x ) P /Q
i i 1 i1 l1 2 i2 l 2) p ip lp l l
式中
Pi / Qi PL / QL
在流行病学中称为比值比，简记OR
在发病率较低的疾病中，OR近似与相对危险
母亲年龄单因素模型
父亲年龄单因素模型
母亲父亲年龄单因素模型
（父孕前吸烟）（父孕后吸烟）
-
=FSA-FSB max(FSB,FSD)
-
最终模型的变量，P<0.05
例一
步骤： 1.单因素模型分析
方程中的变量 B 步骤 1a 步骤 1a 步骤 1a 步骤 1a 步骤 1a x2 x1 x3 x4 x5 2.563 .014 .004 2.052 1.328 S.E, .648 .020 .006 .518 .380 Wals d f Sig.
四、Logistic回归模型的适用条件
1 因变量为二分类的分类变量或某事件的发生率。

e商务文档

2016.4.10-logistic回归分析

相关文档推荐：