当前位置:
文档之家› 2016.4.10-logistic回归分析
2016.4.10-logistic回归分析
Pi=
e
0 1xI 1 2 xI 2 ... p xip 0 1xi1 2 xi 2 ... p xip
1 e
Qi=
1 1 e
0 1xi1 2 xi 2 ... p xip
那么,第 i名观察对象的阳性概率与阴 性概率的比数为Pi/Qi;同理,第L名观 察对象的阳性概率与阴性概率的比数 为PL/QL。则有:
四、logistic回归分析步骤及结果分析
(一)非条件logistic回归 1.数据库结构及录入(SPSS 或Excel)
编号 1 2 3 x1 59 36 61 x2 2 1 2 x3 43.4 57.2 190 x4 2 1 2 x5 1 1 1 y 0 0 0
4
5
58
55
3
3
128
80
4
3
3
多分类:Y=0,1,2,3,… (非条件) 2.有序分类(Y为等级资料,且大于二分类)
一、资料类型
1. 二分类logistic回归
1. 二分类logistic回归 案例1 探讨肾细胞癌转移有关的因素研究中,收集了26 例行根治性肾切除术患者的肾癌标本资料,请分析癌转移 的影响因素。 52例行根治性肾切除术患者的肾癌标本资料
肾细胞癌组织内 微血管数 .191 .175
肾细胞癌细胞核 组织学分级 .313* .024
N
内皮生长因子 Pearson 相关性 显著性(双侧) N
52
.316* .023 52
52
1 52
52
.213 .130 52
52
.597** .000 52
肾细胞癌组织内 微血管数
Pearson 相关性
显著性(双侧)
二、模型结构
设 X1 , X2 , … , Xp 为一组自变量, Y 为应变量。当 Y 是阳性反应时,记作 Y=1;当Y是阴性反应时,记作Y=0。用 P表示阳性反应的概率;用Q表示发生阴
性反应的概率。很显然,P+Q=1
则Logistic 1x1 2 x2 ... p x p 0 1x1 2 x2 ... p x p
Y 1 ( xi1 x L1 ) 2 ( xi 2 xL 2 ) ... p ( xip xlp )
这就是线性回归方程。式中的β i意义 是指在其他自变量固定不变的情况下, 自变量Xi的水平每增加一个单位时所引 起的OR值为增加前 e 的倍。当β i为 正数,即表示Xi的增加使OR增加,Xi 是危险因素;当β i为负数,即表示Xi的 增加使OR减少,Xi是保护因素。
2. 配对logistic回归
2. 配对logistic回归
3. 有序分类logistic回归 (Y为同类指标不同取值)
(有序多分类)
3. 有序分类logistic回归
(Y为同类指标不同取值)
3. 有序分类logistic回归
(Y为同类指标不同取值)
4. 无序多分类logistic回归 (Y为多个不同类别的指标)
.191
.175
.213
.130
1
.398**
.003
N
肾细胞癌细胞核 组织学分级 Pearson 相关性
52
.313*
52
.597**
52
.398**
52
1
显著性(双侧)
N 肾细胞癌分期 Pearson 相关性 显著性(双侧) N
.024
52 .125 .379 52
.000
52 .493** .000 52
在比较暴露因素对因变量的相对贡献
大小时,同多元线性回归一样,不能
直接比较偏回归系数的大小,须用标
准化偏回归系数作比较。标准化偏回 归系数的计算,需利用有关的统计软 件包(如SAS,SPSS)在计算机上解 决。
三、Logistic回归方程的求解
由于logistic回归是一个概率模型,通常用 最 大 似 然 法 求 参 数 (i) 的 估 计 值 bi(i=1,2,3,…,p)。依最大似然法的原理,使似 然函数L达到最大时的参数值就是所求的参数 估计值。计算时一般将似然函数L取自然对数 ( 称 对 数 似 然 函 数 ) 后 , 用 NewtonRaphson 迭 代 法 求 参 数 的 估 计 值 bi(i=1,2,3,…,p)。这过程比较复杂,常用计算 机完成。
结果分析: ⑴ 哪些因素有关,哪些因素无关? ⑵ 是保护因素或危险因素? ⑶ 因素效应大小比较。 (4)相对危险度是多少?
(二)条件logistic回归分析步骤及结果分析
案例:喉癌1:2配对病例-对照调查资料(来源:孙振球 P286)
1.数据结构
2.SPSS分析步骤
使用SPSS的COXREG 命令拟合条件 Logistic 模型 (Analyze → Survival → Cox Regression), 回答下列5个对话框: ① Time: 给每行记录一个虚拟的生存时间(Time),一般 默认“病例” 生存时间短(例如为“1”),“对照” 生 存时间长(例如为“2”)。 ② Status 。定义事件时“病例”全为“1”(Single value)。 ③ Covariates: 选入要进行分析的协变量(即自变量 X1, X2,X3)。 ④ Method: 用 FSTEP(LR),即似然比法。 ⑤ Strata: 录入配对的配对号,“1”指第1 个对子(含 “病例”为“1”一行与“对照” 者为“0”一行);“2” 指第2 个对子。
15.659 1 .000 .515 1 .473 .462 1 .497 15.709 1 .000 12.199 1 .000
以α=0.20为入选标准,则只有x2,x4,x5能放入多因素模型 进行分析。
相关分析结果
年龄(岁) Pearson 相关性 显著性(双侧)
年龄 (岁) 1
内皮生 长因子 .316* .023
id 1 2 3 4 5 6 X1 59 36 61 58 55 61 X2 2 1 2 3 3 1 X3 43.4 57.2 190.0 128.0 80.0 94.4 X4 2 1 2 4 3 2 X5 1 1 1 3 4 1 y 0 0 0 1 1 0 id 14 15 16 17 18 19 X1 31 36 42 14 32 35 X2 1 3 1 3 1 1 X3 47.8 31.6 66.2 138.6 114.0 40.2 X4 2 3 2 3 2 2 X5 1 1 1 3 3 1 y 0 1 0 1 0 0
4
1
1
2.数据初步分析 (1)分别对对照组和病例组绘制频数分布,了解各变 量的分布类型及变异情况。 (2)单因素分析:卡方检验或单因素logistic回归 (3)对性质相同的自变量进行部分多因素分析,探讨 自变量纳入模型的适宜尺度及变量变换方法 (判断增加或 删除因素)
3.进行多因素筛选。 把单因素P<α的因素纳入多因素 模型进行因素筛选。一般α=0.10。另外,还要考虑指标 数与样本含量的比例(n:p=10:1)。 (也有人认为只要例数足够多,不管单因素结果如何, 都应该把所有变量纳入多因素模型。当变量不多,样本 含量较大,且缺失值不多时,这种方法是有效的) 4. 在多因素筛选模型的基础上,考虑有无必要纳入交 互作用项。如:年龄与饮酒 5. 结果的选择。不同的分析思路、不同的筛选因素 的方法(前进法、后退法),所得到的结果是不一样的。 好的模型结果应该是:符合专业知识要求。
多因素分析结果的选择。不同的分析思路、不同的筛选 因素的方法(前进法、后退法),所得到的结果是不一 样的。好的模型结果应该是:符合专业知识要求。
(LR法)
(摘自张文彤-高级篇)
α=0.20
(父孕前吸烟) (父孕后吸烟)
年龄与低体重儿发生率呈U型关系。分析年龄时,应以二 次型引入模型,即GMAGE、(GMAGE)2同时纳入模型进 行分析。(模型1、模型2) 另外,母亲年龄与父亲年龄高度相关(r=0.7605),当同 时纳入模型时,父亲年龄作用被母亲年龄作用代替。故在 进一步做多因素分析只考虑母亲年龄。(模型3)
.003
52 .352* .011 52 52 .627** .000 52
2.多因素模型分析
注:默认设置为前进法。如选择向后法,需要调整进入 和删除的水准。
3.结果解读(以多因素模型分析结果为准)
在5个影响因素中,只有x2(内皮生长因子)、x4(肾细 胞癌细胞核组织学分级)两个因素与转移关系有统计学意 义。其回归系数均为正值,说明二者为危险因素。内皮 生长因子每增加1个等级转移的概率增加11.2倍;组织细 胞学增加一个级别,转移的概率增加8.1倍。根据标准化 偏回归系数,XX的作用比YYY大。
p /Q Ln( ) ( x x ) ( x x ) .... ( x x ) P /Q
i i 1 i1 l1 2 i2 l 2) p ip lp l l
式中
Pi / Qi PL / QL
在流行病学中称为比值比,简记OR
在发病率较低的疾病中,OR近似与相对危险
母亲年 龄单因 素模型
父亲年龄 单因素模型
母亲父亲 年龄单因 素模型
(父孕前吸烟) (父孕后吸烟)
-
=FSA-FSB max(FSB,FSD)
-
最终模型的变量,P<0.05
例一
步骤: 1.单因素模型分析
方程中的变 量 B 步骤 1a 步骤 1a 步骤 1a 步骤 1a 步骤 1a x2 x1 x3 x4 x5 2.563 .014 .004 2.052 1.328 S.E, .648 .020 .006 .518 .380 Wals d f Sig.
四、Logistic回归模型的适用条件
1 因变量为二分类的分类变量或某事件的发生率。