当前位置:文档之家› Logistic回归分析及其应用

Logistic回归分析及其应用


2021/3/5
11
分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
2021/3/5
12
1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意 义并不改变。 牢记编码
正确选择预测概率界值,简单地以 0.5为界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度 量。C值越大(最大为1),模型预 测结果的能力越强。
2021/3/5
31
非条件logistic回归
研究对象之间是否发生某事件 是独立的。
适用于:
成组的病例-对照研究 无分层的队列研究或横断面调查
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
4
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
缺失数据少、测量误差低的优先选择
经验上考虑
双变量分析中有显著性的自变量(P ≤0.15) 选择那些改变主效应的自变量
2021/3/5
22
变量的筛选
变量筛选的可用方法
逐步logistic回归:自动选择有显著性的自变 量,不仅用于自变量的剔选,也用于交互作 用项是否显著的判断。 前进法:逐个引入模型外的变量 后退法:放入所有变量,再逐个筛选
2021/3/5
34
疾病影响因素的研究
病因学研究
病例-对照研究 队列研究
影响因素的研究
横断面调查 临床试验
2021/3/5
35
校正混杂因素
一般采用Mantel-Haenszel分层分 析
分层较细或存在格子零频数时, M-H法无法采用。 logistic回归分析可综合校正多个 混杂因素的影响
可不考虑参数估计的偏性。
2021/3/5
41
交互作用的检验 交互作用的解释
2021/3/5
24
6.建立多个模型
饱和模型 自定义的模型
从饱和模型中选择自变量 再建立模型
2021/3/5
25
7.选择较优的模型
模型拟合优度检验
AIC(Akaike information criterion): 同一资料的多个模型的比较,此值越小,模型越合适。
2021/3/5
36
疾病预后的估计
logistic回归模型作为一种概率模型, 可用于预测某事件发生的概率。 logistic回归不要求在因变量正态假 设的前提下进行预测。
2021/3/5
37
疾病诊断
疾病诊断的判别
诊断性试验研究中,敏感度和特 异度的估计
logistic回归模型综合校正协变量的 影响
理论上看,前进法选择变量的经验公式缺乏总体概念, 当用于因素分析时,建议用后退法。当变量间有完全相 关性时,后退法无法使用,可用前进法。
2021/3/5
23
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
交互作用项的引入
基于临床实际认为对结果有重要影响 基于模型应用条件的分析 引入两个自变量的乘积项
称此为logistic回归模型
2021/3/5
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk
P =1 + ea+b1x1+b2x2+… +bkxk
此为非条件logistic回归模型 应用于成组数据的分析
2021/3/5
9
自变量取定一些值时,因变量取0、1的概率就是
hnum
'住院号/门诊号'
chname
'患者中文姓名'
drugroup
'组别'
name
'患者姓名'
sex
'患者性别'
age
'患者年龄'
value labels sex 1 '男' 2 '女' /hisc 1 '是' 0 '否' 9 '无法判断' /nsex 1 '正常' 0 '异常' 9 '未检' /demdx 1 '有' 0 '无' /addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能' /edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
条件概率,对条件概率进行logistic回归,称为条 件logistic回归
表达式: eb1x1+b2x2+… +bkxk
P =1 - eb1x1+b2x2+… +bkxk
常用于分析配比的资料
2021/3/5
10
概述小结
logistic回归对因变量的比数的对数值 ( logit值)建立模型 因变量的logit值的改变与多个自变量的 加权和呈线性关系 因变量呈二项分布
2021/3/5
2
一元直线回归模型 y=a+bx+e
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
2021/3/5
3
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00
-4.00
-2.00
0.00
2.00
4.00
X:自变量
2021/3/5
Wald x2检验:同上 似然比检验:自变量不在模型中与
在模型中的似然值比较。 Score检验
2021/3/5
28
输出结果的解释
回归系数的解释
系数的正负值:正(负)系数表示随自变量的 增加因变量logit值的增加(减少)。
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
0
0
初中:2 0
1
0
高中:3 0
0
1
2021/3/5
17
以高中作为参照
教育程度
X1
X2
X3
文盲:0
1
0
0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
2021/3/5
18
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类与 对照比较;
Sample: 以第1 或最后1类作对照,其他每类与对照比较, 但反映平均效应。
2021/3/5
19
3.自变量的单因素分析
了解自变量与因变量的分布 检验是否符合建立模型的应用条件
偏离应用条件时,进行数据变换
各个自变量两组间的比较
计数资料 计量资料
双变量分析
2021/3/5
20
么么么么方面
Sds绝对是假的
4.变量的筛选
变量筛选的原则
专业上考虑 测量上考虑
共线性问题:计算相关矩阵,相关系数0.80.9,则选其一。
诊断性试验
2021/3/5
32
条件logistic回归
研究中有N个配比组,每组中n个病 例配m个对照者。这时,各个研究 对象发生某事件的概率即为条件概 率。 适用于 配比设计的病例-对照研究 精细分层设计的队列研究
2021/3/5
33
logistic回归的应用
疾病影响因素的研究 校正混杂因素 疾病预后的估计 疾病诊断
2021/3/5
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2021/3/5
6
寻找合适的模型
进行logit变换
p
logit(p) = ln( —1—-)p, p为y=1所对应的概率 0.1
logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
使用变量数值标识(value labels) 记录编码内容
2021/3/5
13
变量的编码
变量名 变量标识 变量值 值标识
SEXHale Waihona Puke 性别1男2女
EDU 教育程度 0 文盲
1 小学
2 初中及以上
2021/3/5
14
variable labels
qnum
'问卷序号'
rnum
'录入序号'
pnum
'病人编号'
连续型自变量 当自变量改变一个单位时,比数比为eb
2021/3/5
29
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
2021/3/5
30
输出结果的解释
模型的预测结果的评价 敏感度、特异度和阳性预测值
2021/3/5
相关主题