当前位置:文档之家› Logistic回归分析(第16章)

Logistic回归分析(第16章)


P1 ( / 1 P1) OR (odds ratio, 优势比) P0 ( / 1 P0)
暴露的发病优势与非暴露的发病优势之比
模型参数的意义(假定其它因素水平相同)
当P较小时(如恶性肿瘤发生率等)
P1 ( / 1 P1) P1 O R RR(re lative risk) P0 ( / 1 P0) P0
Logistic回归优点: 得到某一因素回归系数估计值后,便可以得
到不同水平下相对危险度的估计值。
模型参数估计(最大似然估计法 maximum likelihood estimate)
因变量不连续,且为二项分布,不能用最小二乘法。 设总体X的密度函数为f(x; 1, 2, · · · , m),其中1, 2, · · · , m为未知参数, x1, x2, · · · , xn为总体X的一个样 本,称
j 0 OR j 1 j 0 OR j 1 j 0 OR j 1
X j对疾病发生不起作用 X j是一危险因素 X j是一保护因素
模型参数的意义
P ln 1 p 0 1 X1 2 X 2 m X m

举例
0.8856 1.96 0.1500 1.81, 3.25 e xp


b 0 0.9099 S b 0 0.1358 b1 0.8856 S b1 0.1500 b 2 0.5261 S b 2 0.1572 饮酒与不饮酒优势比: O R2 e xpb 2 e xp0.5261 1.69 O R2 95%可 信 区 间 : e xpb 2 u 0.05 / 2S b 2
统 计 学 中 概 率 密 度 扮十 演分 重 要 角 色 , 当 参已 数 知 时 , 概 率 密 度 随 着机 随变 量 的 取 值 不 同 而化 变。 设随机变量 X服 从 二 项 分 布 B(n , ), 参 数 0.2 ,
2 0.2 1 0.2 0.2048 当n 5, X 2, 概 率 密 度 : C5 ; 2 3 1 4
log it P 0 1 X1 2 X2 m Xm
O Rj exp[ j (C1 C0 )]
模型参数的意义(假定其它因素水平相同)
Xj
C1 =1 暴 露
C0 =0 非暴露
j
OR j exp[ j (C1 C0 )] exp j e
Y=
0 阴性(未发病、无效、存活等)
P=P(Y=1 | X1, X2, , Xm)
P log it P ln 1 P
odds(优势)
Cox于1970年提出
logistic回归模型(概率型非线性回归)

P ln 0 1 X1 2 X 2 m Xm 1 P
j :在其它自变量保持不 变时, X j增加或减少 一个单位时log it P的平均变化量。与衡量 危险 因素作用大小的优势比 (OR)有一对应关系。
模型参数的意义(假定其它因素水平相同)
某一危险因素两 个不同暴露水平 P1 暴露的发病概率
Xj
C1 C0
1-P1 暴露的未发病概率
P0 非暴露的发病概率 1-P0 非暴露的未发病概率

1 P 1 exp[( 0 1 X1 2 X 2 m Xm )]
模型参数的意义
P ln 1 p 0 1 X1 2 X 2 m X m P ln 1 p 0 基准风险
Y为连续变量
e ~ N 0,

2

logistic回归模型(应变量是一个二值变量)
1 阳性(发病、有效、死亡等) Y= 0 阴性(未发病、无效、存活等)
Y 0 1X1 2 X2 m Xm
logistic回归模型(应变量是一个二值变量)
1 阳性(发病、有效、死亡等)
1 2 m 1 2 m
ˆ , ˆ , , ˆ 为参数 则 称 1 , 2 , , m的 极 大 似 然 估 计 。 1 2 m
模型参数估计(最大似然估计法 maximum likelihood estimate)
1 阳性(发病、有效、死亡等)
Yi =
0 阴性(未发病、无效、存活等)
exp 0 1 X1 2 X 2 m X m
P(1 e() ) e()
P (1 P)e() e() Pe()

exp 0 1 X1 2 X 2 m Xm P 1 exp 0 1 X1 2 X 2 m Xm
当n 5, X 1, 概 率 密 度 : C1 。 5 0.2 1 0.2 0.4096
反 过 来 , 当 样 本 给 定, 后 对 于 不 同 参 数概 ,率 密 度 随 着 参 数 的 取 值 不 同变 而化 。 常 用 此 思 想 估总 计体 。 已 知5次 试 验 中 2次 成 功 , 问 0.3可 能 性 大 还 是 0.8可 能 性 大 ? PX 2 | 0.3 C 0.3 1 0.3 0.3087, PX 2 | 0.8 C 0.8 1 0.8 0.0512 。
L( 1 , 2 , , m ) f(xi ; 1 , 2 , 得下式成立: 为1 , 2 , , m的 似 然 函 数 。 若 有 1 2 m ˆ , ˆ , , ˆ ) m ax{L( L( , , , )}
P ln 1 P 0 P1

log it P 0 1 X1 2 X2 m Xm
logistic回归模型(概率型非线性回归)
P 0 1 X1 2 X 2 m X m e 1 p
2 5 2 3 2 5 2 3
显 然 0.3可 能 性 大 。 而是“ 0.3时 ,X 2的 概 率 ” 。
这里算出的概率 0.3087 不是“ X 2时, 0.3的 概 率 ” ,
同理,如果重复试验 4次 , 每 次 n 5, 成 功 次 数 分 别 为1, 1, 2, 2, 问 0.3可 能 性 大 还 是 0.8可 能 性 大 ? 根 据 独 立 事 件 的 概 率法 乘原 理 : L 0.3 PX 1 | 0.3 PX 2 | 0.3
PYi 1 p
二项分布概率密度:
Yi
PYi 0 1 p
1 Yi
P{Yi 0,1} p (1 p)
模型参数估计(最大似然估计法 maximum likelihood estimate)
1821年由Gauss(德)首先提出,未受到重视;
1922年R.A.Fisher(英)再次提出并讨论它的性质, 使其得到广泛应用。
第十六章
logistic 回归分析
logistic regression analysis
实例
2003年6月17日处理无锡101医院脑外科陈铮 立主任医师一份临床科研资料:1994年1月~ 2001年12月8年间,76例脑出血患者术后再出 血的危险因素分析。
Y 手术后再出血 手术后未再出血 X1 性别 X2 年龄
X5、X7、X11、X12、X13在两组间差别有统计 学意义。 logistic回归分析: ( Y=1 手术后再出血, Y=0 手术后未再出血) 筛选出X10、X14有统计学意义。 还可计算脑血管硬化比未硬化、右手作左脑比 右手作右脑的手术后再出血的相对危险度。
第一节
一、基本概念
logistic回归
实例
X8 出血部位
X9 出血量 X10 脑血管是否硬化 X11 有无活动性出血 X12 拔管时有无高血压 X13 手术后有无高血压 X14 是否右(左)手作右(左)脑
X3 术前昏迷程度积分
X4 瞳孔是否扩大
X5 高血压病龄
X6 临床分级
X7 发病至手术时间
实例
单因素分析:
手术后再出血组与未再出血组比较(χ2或t检验)
模型参数估计(最大似然估计法 maximum likelihood estimate)
根据一个样本建立似然函数:
L
P 1 P
i 1 Yi i i
n
1Yi
lnL
Y
i 1
n
i
l n Pi 1 Yi l n1 Pi
待估总体参数:
P ln 1 p 0 1 X1 2 X 2 m X m
模型参数估计
用Newton-Raphson迭代方法计算使L最大;
此 时b 0,b1,b 2, , b m即 0,1, 2, m的 极大似然估计值。 同时得到 S b 0 , S b1 ,,S bm
优势比估计

OR
j
e xpb j C1 C0


ORj的1 可信区间:
模型参数的意义(假定其它因素水平相同)
P1 / 1 P1 lnO Rj ln logit P1 logit P0 P0 / 1 P0
m m 0 jC0 t Xt j C1 C0 C X 0 j 1 t t t j t j
二、 logistic回归模型的参数估计
三、 logistic回归模型的假设检验
四、变量筛选
多元回归分析数据格式 例号 1 2 n X1 X11 X21 Xn1 X2 X12 X22 Xn2 Xm X1m X2m Xnm Y Y1 Y2 Yn
相关主题