当前位置:文档之家› 十三、logistic回归模型

十三、logistic回归模型


e
x x
(2)
1 e
即单因素曲线LOGISTIC 回归模型公式。
单因素LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
:与变量 x 无关的因素的影响 :自变量 x 的回归系数,大小由因素 x 决定。 = 0 表明 P与 x 无关, 发病不由因素 x 决定; > 0 表明 P与 x 有关, 变量 x 是疾病发生的危险因素; < 0 表明 P与 x 有关, 变量 x 是疾病发生的保护因素。
二分类logistic回归模型
非条件logistic回归
模型简介
内 容 提 要
简单分析实例 哑变量设置 自变量的筛选方法与逐步回归 模型拟合效果与拟合优度检验 模型的诊断与修正 条件logistic回归
模型简介
对分类变量的分析,当考察的影响因素较少,且也为分类 变量时,常用列联表(Contingency Table)进行整理,
则受试者A因改变吸烟行为,其在12年间发生CHD 风险将上升为原来的3.16倍。可用相对危险度RR公 式进行计算,即: RR =PA2 / PA1 = 0.1526 / 0.048 = 3.16
应用多变量logistic回归注意事项
(1)因变量必须是二分变量,或任何取值为0或 1的属性数据。
(2)logistic回归分析对自变量的正态性、方差 齐性不作要求,对自变量类型也不作要求。 但应注意自变量与logit y之间应符合线性关系。 如自变量为连续变量,且与logit y之间不存在 线性关系,应作适当变量转换,否则参数估计 会发生偏倚,结论不可靠。
表1.
CHD危险因素定群研究(12年追踪观察结果)
变量 参数i
i估计值
-13.2573
0.1216 0.0070 0.0068 0.0257 -0.0010 0.4223 0.7206
i标准误
标化i
截距
年龄(岁) 胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3) ECG(0,1)
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条 件下CHD的发病率。如某受试者A暴露于因 素xi的情况为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研 究因素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有 两个, 如是否发病、死亡或痊愈等; • 分析“母亲怀孕期间体重增加”对“新生 儿出生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +β X • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值 可能大于1或小于0,无法从医学意义进行解 释, 显然不适宜用线性回归建立预测模型。
根据OR定义,得: OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] 两边取自然对数,得: ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] 用Logit P的值带入,得: ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0)
• 对于队列研究,假设研究一个二值暴露变量X与某一疾 病之间的关联: • 设暴露组(E+)发病的概率为P1,则其发病与不发病的概率 比为: Odds= P1 /(1- P1) (3) • 设非暴露组(E-)发病的概率为P0,则其发病与不发病的概 率比为: Odds= P0 /(1- P0) (4)
• 为避免P值大于1或小于0, 我们对P进行logit(即 logistic)变换, 把logit(P)作为因变量,即 : Logit(P)=ln [p/(1-p)] = + x • logit(P)可以从–∞到+ ∞之间取任何值 • 如:计算logit(0.1),logit(0.95) logit(0.1)=ln(0.1/0.9)=-2.20 logit(0.95)=ln(0.95/0.05)=2.94
P e 1 e P 1 e

x
i
i

x
i
i
1
(
x)
i i 1 2 2
P e 1 e P 1 e

x x
1

x
i
(9)i i源自 x x1 1 2
2

x
i
(
x x
1 1 2
1
2

x)
• 1.如果以logitP为因变量,暴露因素X为自变量,建立直线回归 方程: Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1) 即单因素线性LOGISTIC 回归模型公式; “p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程,得:
并用2检验或分层2检验进行分析,但存在以下局限性:
无法描述其作用大小和方向,更不能考察各因素间是否 有交互作用; 当控制的分层因素较多时,将导致检验结果不可靠; 2检验无法对连续性自变量进行分析(致命缺陷)。
模型简介
logistic回归模型适合于应变量为二项分类的资料, 在医学研究领域中的应用广泛。如流行病病因学研
如果自变量为定性指标: (1)如果自变量为二分类变量,常用0, 1或1,2表示。如x为性别指标,0代表 女性,1代表男性(如何解释结果?)。 (2)如果自变量为多分类指标,需要 用亚(哑)变量(dummy)表示,又称 指示变量(indicator variables)
(3)如果自变量为等级资料,可以用两种 方法处理: 一是将等级数量化后直接进入分析,如果y 的改变在每个等级上是近似相等的,则该 法效果很好; 二是视为定性指标,用亚变量表示,一般 用于y在每个等级上的变化不相等时。
如果自变量为定量指标: (1)同时自变量与logit y之间为线性关系, 则可以直接以原变量的形式进入分析; (2)如果自变量与logit y之间为非线性关系, 则需做适当转换,如x2,log(x),ex等。
也就是说,如果自变量是定量指标的话,在进行回归 分析之前一定要首先判断此变量是否与结局变量logit y 之间呈线性关系;定性或等级指标则不用考虑这个问 题。
(5) (6)
队列研究中假定暴露人群和非暴露人群影响疾病发生的 其他因素均相同,则可认为: 1 = 0 ; 在非暴露人群中不暴露研究因素,可知:x0 = 0, 带入,得: lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
i < 0: 表明 P 与 xi 有关, 变量 xi 是疾病发生 的保护因素。
模型简介-适用条件
反应变量为二分类变量或某事件的发生率; 自变量与logit(P)之间为线性关系;
残差合计为0,且服从二项分布;
各观测间相互独立。 logistic回归模型应该使用最大似然法来解决方程的 估计和检验问题,不应当使用以前的最小二乘法进行参数 估计。
举例
• 1. 定群研究资料分析…弗明汉心脏研究 • 742名居住在弗明汉年龄为40-49岁的男 性,在各自暴露不同水平的影响因素(详见 下表中的7种因素),经12年追踪观察CHD 发病情况。根据此742名受试者每人暴露各 项因素的水平和CHD发病与否的资料,采 用多因素LOGISTIC回归模型进行分析,结 果见表1。
该多因素LOGISTIC回归分析模型的用途: (1) 确定研究因素的性质: 根据 值的正和负,确定所分析因素是危险因素还是保护因 素。表中7种因素中,除血红蛋白为保护因素外,其他均为危险因 素。 (2) 计算描述因素与疾病间联系强度指标OR值的大小: (A) 由于胆固醇的值为0.0070,根据估计OR值的公式计算 CHD与胆固醇的联系强度为: OR = e3 =e0.0070 = 1.007
表明胆固醇上升1mg/dl时,CHD发病是原胆固醇水平的1.007倍。
(B) 当ECG的 值为0.7206时,根据估计OR值的公
式计算CHD与ECG异常的联系强度为: OR = e7 = e7 X 1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
0
1 2 3 4 5 6 7
0.0437 0.0025 0.0060 0.0091 0.0098 0.1031 0.4009
0.3370 0.3034 0.1320 0.3458 -0.0012 0.4952 0.1750
根据表1结果,可建立的CHD影响因素的Logistic回归模型, 公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]}
样本量
• 用logistic回归模型,样本含量要求较大。 小样本不适宜。样本含量至少是变量数的 10倍以上,否则方程不稳定,系数估计或 标准误估计常出现异常,结果无法解释。
相关主题