广义多元线性模型
解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。
流行病学分析是为了确定危险因素与结果变量之间是否有联系,危 险因素对结果变量的作用大小(即效应)。
表1 效应的估计和结果变量与危险因素的类型
0.28 ( 0.01, 0.55) 0.044
X4 3.32 ( 0.37, 6.27) 0.028
2.30 ( -0.59, 5.19) 0.119
X5 5.22 ( 2.91, 7.53) <0.001 注:β(95% CI ) p 值
4.81 ( 2.60, 7.02) <0.001
广义多元线性回归方程的构建
结果变量(Y) 危险因素(X)
效应测量
统计检验
连续性, 如收缩压 连续性, 如收缩压 分类型, 如是否高血压 分类型, 如是否高血压
分类型, 如是否吸烟 连续性, 如体重指数 分类型, 如是否吸烟 连续性, 如体重指数
吸烟者与不吸烟者收缩压的差(β) H0:β=0 及其标准误 BMI每增加一个单位SBP增加多少 H0:β=0 (β)及其标准误 吸烟者与不吸烟者高血压发生率比 H0:OR=1 (OR)及其95% 可信区间 BMI每增加一个单位高血压发生率比 H0:OR=1 (OR)及其95% 可信区间
广义多元线性回归方程的构建
广义多元线性回归方程的构建
【结果解读】 这是输出结果(只列出了SBP部分,DBP部分略),看表头:Y是结
果变量,X是危险因素,C是可能要调整的变量。按照前面的讲解,先看 C与Y关系的P值。接着看在基本模型中引进C,X的回归系数的变化。如 这里基本模型是:SBP=体重指数+年龄,在这个模型中,体重指数的回 归系数是0.615,引进是否吸烟后,变成了0.609,变化了0.9%。再看在 完整模型中剔除C,这里完整模型是SBP=体重指数+年龄+是否吸烟+文化 程度+被动吸烟+职业+是否饮酒,在这个模型中体重指数的回归系数是 0.710,剔除“是否吸烟”后,变成了0.721,变化了1.5%。依此类推。 最后软件建议要调整EDU(文化程度)与OCCU(职业)。
X4 2.30 ( -0.59, 5.19) 0.119 2.28 ( -0.60, 5.17) 0.122
X5 4.81 ( 2.60, 7.02) <0.001 4.93 ( 2.80, 7.06) <0.001 4.77 ( 2.65, 6.90) <0.001 注:β(95% CI ) p 值
广义多元线性回归方程的构建
【独立作用】
广义多元线性模型的第一大用途是在危险因素研究中,得出独立作 用。什么是独立作用?为什么要评价独立作用呢?
如研究肥胖与高血压关系,比较论文中可能的几种结论: 1. 胖子与瘦子相比,收缩压有显著差别(P<0.005)。
这个结论是用t检验比较两组均数得出的。这有没有说清楚呢?没有。 2. 体重指数与收缩压,非常显著相关(P<0.0001)。
【实例】
多元回归分析,目的是看危险因素(X)对结果变量(Y)作用中, 有没有其它因素的作用在内,有没有把其它因素的功劳,记到了X的头
上(即有没有不完全混杂)。调整的目的是,把其它因素的作用剥离出 去,正确评价X对Y的作用大小。看下表中的例子:结局变量是Y2 1. 先对Y2 与X1、X2、X3、X4、X5的关系逐个做单因素分析。除X1
3. 接着看表3,X1不显著,把X1从模型中剔出,得出方程二:X2 的回 归系数还是没变化;X3 也没变;X4、X5变化很小。
4. 鉴于X4不显著,再把X4从模型中剔出,得方程三:X2回归系数还 是没变,X3 的回归系数从0.28升到0.36,变化很大,X5有一点变化。
【解读】
(1)不论调整什么,X2的回归系数都没变化,这是为什么呢? •是因为X2 与X1、X3、X4、X5都没有关系。
(4)最后选哪个方程放在文章中呢? •如果分析的目的,是确定X3对Y2的作用,就应该选方程二,因为 方程二中的回归系数,更确切地表达了X3对Y2的作用。而不能因 为X4 的p值不显著,就不调整X4,因为p值受样本量的影响。
广义多元线性回归方程的构建
【构建步骤和标准】 在分析X对Y的作用时,是否要调整 “C” 呢?
【软件操作】 例如,要分析易侕统计软件自带的练习数据“dome”,研究体重指数 对SBP、DBP的独立作用大小,操作见下图:
•选择“数据分析”—“协变量检查与筛选” •给 出 研 究 假 设 中 的 结 果 变 量 Y , 这 里 如 SBP 、 DBP , 可 以 同 时 做 多 个 Y (分别建模) •危险因素X变量,如体重指数 •作者认为年龄是固定要调整的变量,放在固定要调整的变量处。 •其它变量如是否吸烟、文化程度、被动吸烟、职业、是否饮酒是否需 要调整呢?放在要检查与筛选的变量处 •点击查看结果
图1 按吸烟情况分组身高的箱图
按性别分开:男性身高比女性 高;男性里,吸烟者与不吸烟 者身高没有多大差异;女性里, 吸烟者与不吸烟者身高也没有 多大差异。
•不吸烟者219个女性,57个男 性,即不吸烟者主要是女性; •吸 烟 者 中 139 个 男 性 , 只 有 7 个女性,即吸烟者主要是男性。
不吸烟 吸烟 不吸烟 吸烟
数据分析基础
广义多元线性回归方程的构建
广义多元线性回归方程的构建 【文献回顾】
这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的 论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑 郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. )
(2)X5的回归系数有变化,但不大,是为什么? •是因为X5与其它X有相关,但关系不强。
(3)调整X4 与不调整X4,X3 的回归系数变化很大,这是为什么呢? •是因为X3 与X4 关系较大,不调整X4,X4 的作用就加到X3身上 去了;调整了X4 ,就是把X4 的作用从X3中剥离出来,这时看到 X3 的回归系数就变小了。
文章统计学方法部分开篇写到:
统计学方法里写到的独立作用的风险(absolute risk)是什么?是 如何通过回归分析(Logistic-regression analysis)得出的?为什么要这 样做?是怎么用软件实现的?
上述问题,将在本篇中讲解。
广义多元线性回归方程的构建
【概念】
这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、 负二项分布等,不同的分布类型对应不同的联系函数f(Y)。
这是用相关分析做的。这有没有说清楚呢?也没有。 3. 体重指数每增加1kg,收缩压增加0.01 mmHg,P<0.00001。
这是用回归方程做出来的。统计上非常显著。它也告诉我们,每降 低体重1公斤,能降低血压0.01 mmHg,这个0.01就没有临床意义了,因 为控制体重能导致的降压幅度太小。另外这个0.01里面有没有其它因素 的作用在内呢?不知道。
表3 结局变量Y2和各危险因素的多因素分析
方程一
方程二
方程三
X1 0.11 ( -0.42, 0.65) 0.679
X2 0.47 ( 0.36, 0.58) <0.001 0.47 ( 0.36, 0.57) <0.001 0.47 ( 0.36, 0.58) <0.001
X3 0.28 ( 0.01, 0.55) 0.044 0.28 ( 0.01, 0.55) 0.046 0.36 ( 0.11, 0.61) 0.005
4. 在控制了其它因素的作用下,体重指数每增加1kg,收缩压增加 1mmHg,95%可信区间0.7-1.3mmHg。
根据可信区间知统计上显著。而且每降低体重1公斤,能降低血压 1mmHg,有临床应用价值。这个结果是用多元回归方程做出来的,控制 了其它因素的作用,得出的回归系数1mmHg是体重指数对收缩压的独立 作用。可以想象当临床上遇到一个高血压并肥胖的病人,根据这个结果 就可以告诉他仅降低体重这一项就能降低血压多少,如果病人又吸烟又 饮酒,可根据相应的文献告诉他,如果戒烟又能降低血压多少,戒酒又 能降多少,这就是临床价值的体现。
表2 结局变量Y2和各危险因素的单因素和多因素分析
单因素分析
多因素分析(方程一)
X1 0.30 (-0.28, 0.87) 0.311
0.11 ( -0.42, 0.65) 0.679
X2 0.47 ( 0.36, 0.59) <0.001
0.47 ( 0.36, 0.58) <0.001
X3 0.41 ( 0.13, 0.68) 0.004
外,其它4个X与Y2均有显著性关系。 2. 再作多元回归模型,把5个X同时放入模型中,结果X1 还是不显著,
X2、X3、X5仍然显著,X4变得不显著了。 这里注意每个回归系数的变化:
•X2没变化; •X3变化较大,从0.41变成0.28; •X4变化也较大,从3.32变成2.30; •X5有一点变化,但不很大。 问题是:X3的回归系数为什么会变化很大呢?
1
先看“C”与Y有没有联系,用单 因素分析,看“C”的P值。
Y = β0 + β1 C
2 再看调整“C”与不调整“C”,X
对Y的作用是否有变化。先运行 基本模型,记录β1 ,再在该模 型中加入“C”,看β1变化多大?