当前位置:文档之家› 第十五章 第二节Logistic回归分析

第十五章 第二节Logistic回归分析


• 分析因素xi为等级变量时,如以最小或 最大等级作参考组,并按等级顺序依
次取为0,1,2,…。此时, e(bi) 表示 xi增加一个等级时的优势比, e(k* bi)表 示xi增加k个等级时的优势比。
❖ 分析因素xi为连续性变量时, e(bi)表示 xi增加一个计量单位时的优势比。
六、 Logistic回归分析方法
❖ 哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以高中作为参照
教育程度
X1
X2
X3
文盲:0
1
0
0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
(四)其他问题
研究对象例数的确定 观察单位数与分析变量个数
❖ logistic回归的局限性
❖ Wald检验( wald test) 即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离 差。
以上三种方法中,似然比检 验最可靠,比分检验一般与它相 一致,但两者计算量均较大;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性存在时, 结果不像其它两者可靠。
❖ 医学研究中疾病的复杂性 ▪ 一种疾病可能有多种致病因素或与 多种危险因素有关 ▪ 疾病转归的影响因素也可能多种多 样 ▪ 临床治疗结局的综合性
解决方法
❖ 简单的:
❖ 固定其他因素,研究有影响的一两个 因素;
❖ 按1~2个因素组成的层进行分层分析 (层内和综合分析)。
❖ 多因素: ❖ 寻找合适的统计模型
G=-2(ln Lp-ln Lk)
n较大时, G近似服从自由度为待检验
因素个数的2分布。
❖ 比分检验(score test)
以未包含某个或几个变量的模型 计算保留模型中参数的估计值,并假 设新增参数为零,计算似然函数的一 价偏导数及信息距阵,两者相乘便得
比分检验的统计量S 。n 较大时, S
近似服从自由度为待检因素个数的2 分布。
Logistic回归分析解决的问题
医学研究中, 有关生存与死 亡, 发病与未发病, 阴性与阳性 等结果的产生可能与病人的年龄、 性别、生活习惯、体质、遗传等 许多因素中哪些有关?如何找出 其中哪些因素对结果有影响?
Logistic回归分析
设:暴露组 发生率 p1 /未发生率(1-p1)
对照组 发生率 p0 /未发生率(1-p0) p表示暴露因素X时个体发病的概率, 则发病的概率 与未发病的概率 1- p 之比称为优势(odds).
分析思想与多重线性回归分析相同 筛选变量的方法:
前进法 后退法 逐步法 统计量不再是线性回归分析中的F统计 量, 而是上面介绍的三种统计量之一。
为计算方便,通常向前选取变量用 似然比或比分检验,而向后剔除变量 常用Wald检验。
七、条件Logistic回归
对配比调查资料,多采用条件 Logistic回归分析。
二、 Logistic回归模型
❖ Logistic回归
二分类 多分类
条件Logistic回归 非条件Logistic回归
概述
❖ 1967年Truelt J,Connifield J和 Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的 研究,较早地将Logistic回归用于医学 研究。
❖ (一)应用条件
1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。
3.异常值 4.变量间的共线性问题
(二)变量的数量化
❖ 变量的编码要易于识别 ❖ 注意编码的顺序关系 ❖ 改变分类变量的编码,其分析
的意义应不变。
变量的编码
❖ 变量名 SEX
EDU
变量标识 性别
教育程度
变量值
回归系数 i的意义
设只有一个自变量 x1的Logistic方程
ln
p 1 p
0
1x1
i
x1=0 表示非暴露,x1 =1表示暴露。
ln(OR)=logit[P(1)]-logit[P(0)]
=(β0+β1×1)-(研究

1 吸烟
1 肺癌
X=
y=
0 不吸
▪理论上的不足:自变量对疾病的影响是独 立的,但实际情况及推导结果不同。
▪模型有不合理性:“乘法模型”与一般希 望的“相加模型”相矛盾。 ▪最大似然法估计参数的局限 ▪样本含量不宜太少:例数大于200例时才 可不考虑参数估计的偏性。
谢谢!
似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn
非线性迭代方法-Newton-Raphson法
logistic 回归系数的意义
❖ OR=e β
❖ lnOR= β
β表示自变量每增加一个单位,其 优势比对数值的改变量,
亦即自变量每增加一个单位,其相 对危险度为e β。
ln( p 1
p
)
0
1x1
2
x2
...
p
x
p
❖ Logistic回归模型是一种概率模 型, 它是以疾病,死亡等结果发生的 概率为因变量, 影响疾病发生的因 素为自变量建立回归模型。 它特别 适用于因变量为二项, 多项分类的 资料。
❖ 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病 预后有关的因素等。
❖ 条件Logistic回归模型的回归系数 检验与解释同非条件Logistic回归。
八、 Logistic回归的应用
❖ 1.因素分析 可用于危险/保健因素的 筛选,并确定其作用大小。
❖ 2.预测预报 ❖ 若已知x1, x2 … xm数值大小时, 通过
模型可以预测某个病例发病、死亡的 概率。

十、应用中应注意的问题
❖ Logistic回归系数( bi )表示,某 一因素改变一个单位时,效应指标发 生与不发生事件的概率之比的对数变 化值,即OR的对数值。
实例分析
实例分析
四、参数检验
❖ 1.似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几个待 检验观察因素的两个模型的对数似然函 数变化来进行,其统计量为G
暴露组 odds 对照组 odds
p1 / (1-p1) p0 / (1-p0)
❖ Logit变换
也称对数单位转换
logit P=
ln
P 1 P
病例组 与对照组 的 优势比 (odds retio ,OR)
OR p1 /(1 p1) p0 /(1 p0 )
Logistic回归分析模型
❖ 进行logit变换
1 2 0 1 2
值标识
男 女 文盲 小学 初中及以上
(三)哑变量的设置和引入
❖ 哑变量,又称指示变量 ❖ 有利于检验等级变量各个等级间的变化是
否相同。 ❖ 一个k分类的分类变量,进行Logistic回
归分析前需将该变量转换成k-1个指示变 量或哑变量(dummy variable)来表示。这 样指示变量都是二分变量,每一个指示变 量均有一个回归系数,其解释同前。
Logistic回归分析模型
经数学变换可得:
e 0 1X1 2 X 2 p X p P 1 e0 1X1 2 X 2 p X p
称为非条件logistic回归模型,常 应用于成组数据的分析
Exp/e表示指数函数。
三、参数估计
最大似然估计法 (Maximum likehood estimate)
Logistic回归方程
logit P=bi b1x1 b2x2 bk xk
❖ 假设自变量在各配比组对结果变量的 作用相同,即自变量的回归系数与配 比组无关。
❖ 配比设计的Logistic回归模型
logit P=b1x1 b2x2 bk xk
不含常数项。
❖ 可见非条件Logistic回归模型 与回归模型十分相似,只不过其参 数估计是根据条件概率得到的,因 此称为条件Logistic回归模型。
0 非肺癌
若求得: β= 1, OR=e
表明:吸烟个体 患肺癌的危险性是不吸烟个 体的2.71828倍。
注意 变量X的赋值与OR的关系

0
X=
1
则求得 β= ?

不吸 OR=?
则求得: β= -1, OR=1/e
意思是: 不吸烟的人得肺癌症的危险 性是吸烟的36.79%。
❖ Logistic回归中的常数项(b0)表示 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。
第十五章 第二节
Logistic回归分析
山西医科大学卫生统计 刘桂芬 liugf66@
一、前言
❖ 在疗效评价,发病因素研究中,应变量 为分类指标

有效 治愈 发生 阳性
❖Y

无效 死亡 未发生 阴性
❖ 线性回归分析: 正态随机变量
多重线性回归难以解决的问题
❖ 医学数据的复杂、多样性 ▪ 连续型和离散型数据
相关主题