当前位置：文档之家› 第十五章第二节Logistic回归分析

第十五章第二节Logistic回归分析

• 分析因素xi为等级变量时，如以最小或最大等级作参考组，并按等级顺序依
次取为0，1，2，…。此时， e(bi) 表示 xi增加一个等级时的优势比， e(k* bi)表示xi增加k个等级时的优势比。
❖ 分析因素xi为连续性变量时， e(bi)表示 xi增加一个计量单位时的优势比。
六、 Logistic回归分析方法
❖ 哑变量的设置
教育程度：文盲，小学，初中，高中以上
教育程度 X1
X2
X3
文盲：0 0
0
0
小学：1 1
0
0
初中：2 0
1
0
高中：3 0
0
1
以高中作为参照
教育程度
X1
X2
X3
文盲：0
1
0
0
小学：1
0
1
0
初中：2
0
0
1
高中：3
0
0
0
（四）其他问题
研究对象例数的确定观察单位数与分析变量个数
❖ logistic回归的局限性
❖ Wald检验（ wald test）即广义的t检验，统计量为u
u= bi s bi
u服从正态分布，即为标准正态离差。
以上三种方法中，似然比检验最可靠，比分检验一般与它相一致，但两者计算量均较大；而 Wald检验未考虑各因素间的综合作用，在因素间有共线性存在时, 结果不像其它两者可靠。
❖ 医学研究中疾病的复杂性 ▪ 一种疾病可能有多种致病因素或与多种危险因素有关 ▪ 疾病转归的影响因素也可能多种多样 ▪ 临床治疗结局的综合性
解决方法
❖ 简单的:
❖ 固定其他因素，研究有影响的一两个因素；
❖ 按1~2个因素组成的层进行分层分析 (层内和综合分析)。
❖ 多因素: ❖ 寻找合适的统计模型
G=-2(ln Lp-ln Lk)
n较大时， G近似服从自由度为待检验
因素个数的２分布。
❖ 比分检验（score test）
以未包含某个或几个变量的模型计算保留模型中参数的估计值，并假设新增参数为零，计算似然函数的一价偏导数及信息距阵，两者相乘便得
比分检验的统计量S 。n 较大时， S
近似服从自由度为待检因素个数的２分布。
Logistic回归分析解决的问题
医学研究中, 有关生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素中哪些有关?如何找出其中哪些因素对结果有影响？
Logistic回归分析
设:暴露组发生率 p1 /未发生率(1-p1)
对照组发生率 p0 /未发生率(1-p0) p表示暴露因素X时个体发病的概率，则发病的概率与未发病的概率 1- p 之比称为优势（odds）.
分析思想与多重线性回归分析相同筛选变量的方法:
前进法后退法逐步法统计量不再是线性回归分析中的F统计量，而是上面介绍的三种统计量之一。
为计算方便，通常向前选取变量用似然比或比分检验，而向后剔除变量常用Wald检验。
七、条件Logistic回归
对配比调查资料，多采用条件 Logistic回归分析。
二、 Logistic回归模型
❖ Logistic回归
二分类多分类
条件Logistic回归非条件Logistic回归
概述
❖ 1967年Truelt J，Connifield J和 Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早地将Logistic回归用于医学研究。
❖ （一）应用条件
1. 各观察对象间相互独立； 2. logit P与自变量呈线性关系。
3.异常值 4.变量间的共线性问题
（二）变量的数量化
❖ 变量的编码要易于识别 ❖ 注意编码的顺序关系 ❖ 改变分类变量的编码，其分析
的意义应不变。
变量的编码
❖ 变量名 SEX
EDU
变量标识性别
教育程度
变量值
回归系数 i的意义
设只有一个自变量 x1的Logistic方程
ln
p 1 p
0
1x1
i
x1=0 表示非暴露，x1 =1表示暴露。
ln(OR)=logit[P(1)]-logit[P(0)]
=(β0+β1×1)-(研究
令
1 吸烟
1 肺癌
X=
y=
0 不吸
▪理论上的不足：自变量对疾病的影响是独立的，但实际情况及推导结果不同。
▪模型有不合理性：“乘法模型”与一般希望的“相加模型”相矛盾。 ▪最大似然法估计参数的局限 ▪样本含量不宜太少：例数大于200例时才可不考虑参数估计的偏性。
谢谢！
似然函数：L=∏Pi 对数似然函数： lnL=∑(ln P)=ln P1+ln P2+…+ln Pn
非线性迭代方法－Newton-Raphson法
logistic 回归系数的意义
❖ OR=e β
❖ lnOR= β
β表示自变量每增加一个单位，其优势比对数值的改变量，
亦即自变量每增加一个单位，其相对危险度为e β。
ln( p 1
p
)
0
1x1
2
x2
...
p
x
p
❖ Logistic回归模型是一种概率模型, 它是以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项, 多项分类的资料。
❖ 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。
❖ 条件Logistic回归模型的回归系数检验与解释同非条件Logistic回归。
八、 Logistic回归的应用
❖ 1.因素分析可用于危险/保健因素的筛选，并确定其作用大小。
❖ 2.预测预报 ❖ 若已知x1, x2 … xm数值大小时, 通过
模型可以预测某个病例发病、死亡的概率。
❖
十、应用中应注意的问题
❖ Logistic回归系数（ bi ）表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR的对数值。
实例分析
实例分析
四、参数检验
❖ 1.似然比检验（likehood ratio test）
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G
暴露组 odds 对照组 odds
p1 / (1-p1) p0 / (1-p0)
❖ Logit变换
也称对数单位转换
logit P=
ln
P 1 P
病例组与对照组的优势比（odds retio ,OR）
OR p1 /(1 p1) p0 /(1 p0 )
Logistic回归分析模型
❖ 进行logit变换
1 2 0 1 2
值标识
男女文盲小学初中及以上
（三）哑变量的设置和引入
❖ 哑变量，又称指示变量 ❖ 有利于检验等级变量各个等级间的变化是
否相同。 ❖ 一个k分类的分类变量，进行Logistic回
归分析前需将该变量转换成k-1个指示变量或哑变量（dummy variable）来表示。这样指示变量都是二分变量，每一个指示变量均有一个回归系数，其解释同前。
Logistic回归分析模型
经数学变换可得:
e 0 1X1 2 X 2 p X p P 1 e0 1X1 2 X 2 p X p
称为非条件logistic回归模型,常应用于成组数据的分析
Exp/e表示指数函数。
三、参数估计
最大似然估计法（Maximum likehood estimate）
Logistic回归方程
logit P=bi b1x1 b2x2 bk xk
❖ 假设自变量在各配比组对结果变量的作用相同，即自变量的回归系数与配比组无关。
❖ 配比设计的Logistic回归模型
logit P=b1x1 b2x2 bk xk
不含常数项。
❖ 可见非条件Logistic回归模型与回归模型十分相似，只不过其参数估计是根据条件概率得到的，因此称为条件Logistic回归模型。
0 非肺癌
若求得: β= 1， OR=e
表明:吸烟个体患肺癌的危险性是不吸烟个体的2.71828倍。
注意变量X的赋值与OR的关系
令
0
X=
1
则求得 β= ?
吸
不吸 OR=?
则求得: β= -1， OR=1/e
意思是：不吸烟的人得肺癌症的危险性是吸烟的36.79%。
❖ Logistic回归中的常数项（b0）表示在不接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。
第十五章第二节
Logistic回归分析
山西医科大学卫生统计刘桂芬 liugf66@
一、前言
❖ 在疗效评价,发病因素研究中,应变量为分类指标
❖
有效治愈发生阳性
❖Y
❖
无效死亡未发生阴性
❖ 线性回归分析：正态随机变量
多重线性回归难以解决的问题
❖ 医学数据的复杂、多样性 ▪ 连续型和离散型数据

e商务文档

第十五章第二节Logistic回归分析

相关文档推荐：

e商务文档

第十五章 第二节Logistic回归分析

相关文档推荐：

第十五章第二节Logistic回归分析