当前位置：文档之家› 论文经典方法：Logistic回归分析及其应用

论文经典方法：Logistic回归分析及其应用

Logistic回归分析 Logistic回归分析及其应用
温泽淮 DME中心中心
2011-3-21 1
概述
1967年Truelt J，Connifield J和年，和 Kannel W在《Journal of Chronic 在 Disease》上发表了冠心病危险因素》的研究，较早将Logistic回归用于医的研究，较早将回归用于医学研究。学研究。一般概念
p
2011-3-21
7
logit(p) = ln( —— )
1－p
ห้องสมุดไป่ตู้
p
p=0或1时，此式失效或时
以 p = r/n 代之 logit(p) = ln [ (r + 0.5) / (n – r + 0.5) ]
此称经验此称经验logistic变换经验变换
代上式的logit(p), 以Z代上式的代上式的
2011-3-21
10
概述小结
logistic回归对因变量的比数的对数值回归对因变量的比数的对数值回归（ logit值）建立模型值因变量的logit值的改变与多个自变量的因变量的值加权和呈线性关系加权和呈线性关系因变量呈二项分布
2011-3-21
11
分析的一般步骤
变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释
2011-3-21
19
3.自变量的单因素分析 3.自变量的单因素分析
了解自变量与因变量的分布检验是否符合建立模型的应用条件
偏离应用条件时，进行数据变换偏离应用条件时，
各个自变量两组间的比较
计数资料计量资料
双变量分析
2011-3-21
20
4.变量的筛选 4.变量的筛选
变量筛选的原则
专业上考虑测量上考虑
正确选择预测概率界值，正确选择预测概率界值，简单地以 0.5为界值，但并不是最好的。为界值，为界值但并不是最好的。
C指数指数
预测结果与观察结果的一致性的度值越大（），模型预量。C值越大（最大为），模型预值越大最大为1），测结果的能力越强。测结果的能力越强。
2011-3-21
2011-3-21
'问卷序号' '录入序号' '病人编号' '住院号/门诊号' '患者中文姓名' '组别' '患者姓名' '患者性别' '患者年龄' '男' 2 '女' '是' 0 '否' 9 '无法判断' '正常' 0 '异常' 9 '未检' '有' 0 '无' '无' 1 '危险性' 2 '可能' 3 '很可能' ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
Z = a + b1x1 + b2x2 + … + bkxk
称此为logistic回归模型回归模型称此为
2011-3-21
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk P= 1 + ea+b1x1+b2x2+… +bkxk 此为非条件logistic回归模型回归模型此为非条件应用于成组数据的分析
21
变量的筛选
变量筛选的可用方法
逐步logistic回归：自动选择有显著性的自变回归：逐步回归不仅用于自变量的剔选，量，不仅用于自变量的剔选，也用于交互作用项是否显著的判断。用项是否显著的判断。前进法：逐个引入模型外的变量前进法：后退法：放入所有变量，后退法：放入所有变量，再逐个筛选
交互作用的定义
当自变量和因变量的关系随第三个变量的变化而改变时，的变化而改变时，则存在交互作用
交互作用项的引入
基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项
交互作用的检验交互作用的解释
2011-3-21 23
6.建立多个模型 6.建立多个模型
饱和模型自定义的模型
输出结果的解释
回归系数的解释
系数的正负值：系数的正负值：正（负）系数表示随自变量的增加因变量logit值的增加（减少）。值的增加（增加因变量值的增加减少）。二分类自变量系数为比数比的对数值，由此比数比=e 系数为比数比的对数值，由此比数比 b 多分类自变量以第i类作参照比较相邻或相隔的两个类别。类作参照，以第类作参照，比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时，比数比为e 当自变量改变一个单位时，比数比为 b
2011-3-21 28
输出结果的解释
模型拟合的优劣
自变量与结果变量（因变量）自变量与结果变量（因变量）有无关系
确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义
2011-3-21
29
输出结果的解释
模型的预测结果的评价敏感度、敏感度、特异度和阳性预测值
2011-3-21
5
简单的解决方法
固定其他因素，固定其他因素，研究有影响的一两个因素；分层分析：分层分析：按1~2个因素组成的层进行个因素组成的层进行层内分析和综合。层内分析和综合。统计模型
2011-3-21
6
寻找合适的模型
进行logit变换变换进行
logit(p) = ln( 1 － p )， p为y=1所对应的概率 —— ，为所对应的概率 0.1 logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 － 0.1
2011-3-21 12
1.变量的编码 1.变量的编码
变量的编码要易于识别注意编码的等级关系改变分类变量的编码，改变分类变量的编码，其分析的意义并不改变。义并不改变。牢记编码
使用变量数值标识（使用变量数值标识（value labels））记录编码内容
2011-3-21 13
变量的编码
2011-3-21
9
自变量取定一些值时，因变量取0 自变量取定一些值时，因变量取0、1的概率就是条件概率，对条件概率进行logistic回归， logistic回归是条件概率，对条件概率进行logistic回归，称条件logistic logistic回归为条件logistic回归
表达式：表达式： eb1x1+b2x2+… +bkxk P= 1 - eb1x1+b2x2+… +bkxk 常用于分析配比的资料
研究中有N个配比组，每组中个病研究中有个配比组，每组中n个病个配比组例配m个对照者这时，个对照者。例配个对照者。这时，各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究配比设计的病例对照研究精细分层设计的队列研究
2011-3-21
25
8.模型应用条件的评价 8.模型应用条件的评价
残差分析
残差是观察值与估计值之差
合理的logistic回归模型也可能得到回归模型也可能得到合理的不理想的残差，不理想的残差，这在自变量是二分类变量时更易出现。变量时更易出现。增加交互作用项可能增加模型的效能
2011-3-21
15
1 1 1 1 0 0
2.哑变量的设置和引入 2.哑变量的设置和引入
哑变量，又称指示变量或哑变量，又称指示变量或设计矩指示变量阵。有利于检验等级变量各个等级间的变化是否相同。的变化是否相同。一个k分类的分类变量可以用k分类的分类变量，一个分类的分类变量，可以用 1个哑变量来表示。个哑变量来表示。个哑变量来表示
0.00 -4.00 -2.00 0.00 2.00 4.00
X：自变量
2011-3-21 4
一般直线回归难以解决的问题
医学数据的复杂、医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危险因素有关疾病转归的影响因素也可能多种多样临床治疗结局的综合性
2011-3-21 16
哑变量的设置
文盲，小学，初中，教育程度：文盲，小学，初中，高中以上教育程度
X1 0 1 0 0
X2 0 0 1 0
X3 0 0 0 1
文盲：0 小学：1 初中：2 高中：3
2011-3-21
17
以高中作为参照
教育程度
X1 1 0 0 0
X2 0 1 0 0
X3 0 0 1 0
变量名 SEX EDU 变量标识性别教育程度变量值 1 2 0 1 2 值标识男女文盲小学初中及以上
2011-3-21
14
variable labels qnum rnum pnum hnum chname drugroup name sex age value labels sex /hisc /nsex /demdx /addx /edu
26
9.输出结果的解释 9.输出结果的解释
模型中各个系数的显著性检验
Wald检验：类似于直线回归系数的检验：检验 t检验检验 Wald x2检验：同上检验：似然比检验：似然比检验：自变量不在模型中与在模型中的似然值比较。在模型中的似然值比较。 Score检验检验

e商务文档

论文经典方法：Logistic回归分析及其应用

相关文档推荐：