当前位置:
文档之家› 统计学-logistic回归分析
统计学-logistic回归分析
• Logistic回归模型 回归模型 Logistic回归的 回归的logit模型 模型
logit P=b 0 + b1 x1 + b2 x2 + ⋅ ⋅ ⋅ + bk xk
Logistic回归模型 回归模型
( b0 + b1 x1 + b2 x 2 + ⋅⋅⋅+ bk x k )
e P= ( b0 + b1 x1 + b2 x 2 + ⋅⋅⋅+ bk x k ) 1+ e
或
e P(y =1/ x) = β0 +βx 1+e
1 p(y =1/ x) = 1+ex −(β0 +βx)] p[
模型描述了应变量p与 的关系 模型描述了应变量 与x的关系
β0 +βx
P概率 概率 1 p(y =1 = ) 1 1+ex −(β0 +βx)] p[
z = β0 +β1x
0.5
Β为正值,x越 为正值, 越 为正值 结果y=1发 大,结果 发 生的可能性( ) 生的可能性(p) 越大。 越大。
第十六章 logistic回归分析 回归分析
logistic回归为概率型非线性回归 回归为概率型非线性回归 模型,是研究分类观察结果(y)与 模型,是研究分类观察结果 与 一些影响因素(x)之间关系的一种 一些影响因素 之间关系的一种 多变量分析方法
问题提出: 问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 发生?以及之间的关系如何? 因素( ) 疾病结果( ) 因素(X) 疾病结果(Y) x1,x2,x3…XK Y=1 , , 发生 Y=0 不发生 例:暴露因素 冠心病结果 高血压史(x1):有 或无 高血压史 : 有 或 无 高血脂史(x2): 有 或 无 高血脂史 : 吸烟(x3): 吸烟 : 有或无
自变量( 称为危险因素或暴露因素, 自变量(Xi)称为危险因素或暴露因素,可为连续 变量、等级变量、分类变量。 变量、等级变量、分类变量。 可有m个自变量 个自变量X 可有 个自变量 1, X2,… Xm
2.两值因变量的 两值因变量的logistic回归模型方程 两值因变量的 回归模型方程
• 一个自变量与 关系的回归模型 一个自变量与Y关系的回归模型 未发生=0 x 有=1无=0, 如:y:发生 未发生 :发生=1,未发生 无 , 记为p( 记为 (y=1/x)表示某暴露因素状态下,结 )表示某暴露因素状态下, 的概率( )模型。 果y=1的概率(P)模型。 的概率
或
p(y =1/ x , x2K k ) = x 1
1 1+e
−(β0 +β xk +....βk xk ) 1
2.模型中参数的意义 模型中参数的意义
P ln = β0 +β1X1 1−P
Β0(常数项):暴露因素 i=0时,个体发病 常数项):暴露因素X 时 ):暴露因素 概率与不发病概率之比的自然对数比值。 概率与不发病概率之比的自然对数比值。
• Wald检验( wald test) 检验 )
即广义的t检验,统计量为 即广义的 检验,统计量为u 检验
b i u = s bi
u服从正态分布,即为标准正态离差。 服从正态分布,即为标准正态离差。 服从正态分布
Logistic回归系数的区间估计 回归系数的区间估计
b i ± u α ⋅ S bi
研究问题可否用多元线性回归方法? 研究问题可否用多元线性回归方法?
ˆ y = a + b1x1 + b2 x2 Kbm xm 1.多元线性回归方法要求 Y 的取值为计量 多元线性回归方法要求
的连续性随机变量。 的连续性随机变量。 2.多元线性回归方程要求 与X间关系为线 多元线性回归方程要求Y与 间关系为线 多元线性回归方程要求 性关系。 性关系。 3.多元线性回归结果 Y 不能回答“发生与 多元线性回归结果 ˆ 不能回答“ 否” logistic回归方法补充多元线性回归的不足 回归方法补充多元线性回归的不足
三、参数估计
• 最大似然估计法 (Maximum likehood estimate) ) 似然函数: 似然函数:L=∏Pi 对数似然函数: 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法—— 非线性迭代方法 Newton-Raphson法 法
四、参数检验
P(y =1/ x =0) ln 1−P(y =0/ x =0) = β0
Xi=1与Xi=0相比,发生某结果(如发病)优势比 相比, 与 相比 发生某结果(如发病) 的对数值。 的对数值。
βi
的含义:某危险因素,暴露水平变化时, 的含义:某危险因素,暴露水平变化时,即
P /( −P) 1 1 1 lnO =ln R 0 1 0 P /( −P) =logitP −logitP 1 0
• 似然比检验(likehood ratio test) )
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G 数似然函数变化来进行,其统计量为 (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, 近似服从自由 样本量较大时, G近似服从自由 度为待检验因素个数的χ 分布。 度为待检验因素个数的χ2分布。
Logistic回归方法
该法研究是 取某值( 当 y 取某值(如y=1)发生的概率(p)与 )发生的概率( ) 某暴露因素( )的关系。 某暴露因素(x)的关系。
p(y =1/ x) = f (x),即 = f (x) p
P(概率)的取值波动0~1范围。 (概率)的取值波动 ~ 范围 范围。 基本原理:用一组观察数据拟合Logistic模型, 模型, 基本原理:用一组观察数据拟合 模型 揭示若干个x与一个因变量取值的关系 反映y 与一个因变量取值的关系, 揭示若干个 与一个因变量取值的关系,反映 的依存关系。 对x的依存关系。 的依存关系
Y 发病=1 发病 不发病=0 不发病
a p= 1 a+c
有暴露因素人群中发病的比例
多元回归模型的的 βi 概念
P logit(p) =ln + =β0 +β1X1 +L βmXm 1−P
反映了在其他变量固定后, 反映了在其他变量固定后,X=1与x=0相比 与 相比 发生Y事件的对数优势比 事件的对数优势比。 发生 事件的对数优势比。 回归系数β与 X与Y的关联 回归系数 与OR 与 的关联 • β=0,OR=1, , , 无关 β>0,OR>1 , 有关,危险因素 有关, > , > β<0,OR<1, 有关,保护因子 < , < , 有关,
流行病学概念: 流行病学概念:
表示暴露因素X时个体发病的概率 设P表示暴露因素 时个体发病的概率, 表示暴露因素 时个体发病的概率, 则发病的概率P与未发病的概率 与未发病的概率1-P 之 则发病的概率 与未发病的概率 比为优势( 就是odds 比为优势(odds), logit P就是 ) 就是 的对数值。 的对数值。
五、回归系数的意义
单纯从数学上讲, 单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 亦即b 表示x 改变一个单位时, 同,亦即 i表示 i改变一个单位时, logit P的平均变化量。 的平均变化量。
流行病学中的一些基本概念: 流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2 ) 比数 比数比
β0
β0 +βx
logistic回归模型方程的线性表达 回归模型方程的线性表达
回归模型的概率( ) 对logistic回归模型的概率(p)做logit变 回归模型的概率 变 换,
p logit( p) =ln( ) 1− p
方程如下: 方程如下:
线性 关系
y =logit( p) = β0 ogistic回归要求应变量(Y)取值为分类变量 回归要求应变量( ) 回归要求应变量 两分类或多个分类) (两分类或多个分类)
1 Y = 0 出 阳 结 发 、 效 死 等 现 性 果( 病 有 、 亡 ) 出 阴 结 未 病 无 、 活 ) 现 性 果( 发 、 效 存 等
βi
βi
事件发生率很小, 事件发生率很小,OR≈RR。 。
二、 Logistic回归模型
• Logistic回归的分类 回归的分类
二分类 多分类 条件Logistic回归 回归 条件 非条件Logistic回归 非条件 回归
• Logit变换 变换
也称对数单位转换
P logit P= l n 1 − P
Y~( 至+∞) ~(-∞至 ) ~(
截距(常数) 截距(常数)
回归系数
在有多个危险因素( 在有多个危险因素(Xi)时
• 多个变量 多个变量的logistic回归模型方程的线性表达: 回归模型方程的线性表达: 回归模型方程的线性表达
P log it(p) =ln + = β0 +β1X1 +β2X2 +L βmXm 1−P
P1(y=1/x=1)的概率 ) P0(y=1/x=0)的概率 y=1/x=0)
=(β0 +β1x ) −(β0 +βx0) = β1x 1 1
O e R=
β
P /(1−P) odds1 1 O = 1 R = P /(1−P ) odds0 0 0
Y 发病=1 发病 不发病=0 不发病
危险因素 x= 1 x= 0 30(a) 10( b) ( ) ( ) 70(c) 90(d) ( ) ( ) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0