当前位置:文档之家› 指标联合的ROC曲线分析

指标联合的ROC曲线分析

41Bamber D. The area above t he ordinal dominance graph and t he area be2 low t he receiver operating characteristic graph . Journal of mat hematical psychology ,1975 ,12 :3872415.
21 李康 ,马葆华 ,李振山等. 具有协变量或干扰因素的诊断数据的 ROC 分析. 中国卫生统计 ,2002 ,19 (2 ) :67270.
31John QS ,J un SL . Linear combinations of multiple diagnostic markers. Journal of t he American statistical association , 1993 , 88 ( 424 ) : 13502 1355.
a
x
(4)
对应的灵敏度为 :
Ha ( c) = 1 -
Φ( a T (μx - μy) + Φ- 1 ( p0)
∑ a T
a
y
∑ a T
a
x)
(5) 式 (3) 和 (5) 便构成了多指标线性组合后所得 ROC 曲 线上的点 。
结合前面的式 (2) , 由式 (5) 通过积分可以得到 ROC 曲线下的面积〔3〕:
)
y
-

这里
μ
=
μy
-
μx
(2)
基于系数向量 a , 可得到指标线性组合后的灵敏
度和特异度 , 以及 ROC 曲线方程 。以 Fa (·) 表示 U
的累积分布函数 , Ga (·) 为 V 的累积分布函数 , Fa ( c)
表示特异度 , Ha ( c) = 1 - Ga ( c) 为相应的灵敏度 。显
参 考 文 献
11 Wieand HS , Gail MH ,James BR ,et al. A family of nonparametric statis2 tics for comparing diagnostic markers wit h paired or unpaired data. Biometrika ,1989 ,76 :5852592.
X p) T , Y = ( Y 1 , …, Y p) T 。 X 和 Y 均为服从正态分 布的二元随机变量 ,即 X~ N (μx , ∑x ) 和 Y ~ N (μy , ∑y) 。由于多维数据的处理通常是非常困难的 , 因此
我们通过有效地构建多个指标间的线性组合来实现降
维。
∑ U = a T X ~ N ( a Tμx , a T
51Cox DR ,Snell EJ . Analysis of binary data. 12nd ed London : Chapman & Hall ,1989.
64194 01215


(Σx + Σy) - 1 = 01215 01004
01219 - 0101
01219 - 0101 01421 将以上数据代入公式 (6) , 便得到指标综合后的 ROC
曲线下的面积为 : A^ = Φ(21556) = 01995
Chinese Journal of Healt h Statistics ,Oct 2003 ,Vol. 20 ,No . 5
表 1 DI、PCNA 、A GNOR 检测口腔粘膜癌变资料及统计分析
编号
1 2 3 4
… 45 Xk Std ( x)
非癌肿组 ( X)
编号
DI PCNA AgNOR
1100 1100 1100 1100

48
4110 1
18
3160 2
19
3190 3
33
4130 4



1100 11024 01077
多变量线性组合的 ROC 曲线及面积计算
假定病例组和对照组的人数分别为 n 和 m , 各测
得 p 个指标值 。以 Xik ( k = 1 , …, p) 表示对照组中第 i 个个体的第 k 个指标值 , Y jl ( l = 1 , …, p) 表示病例 组中第 j 个个体的第 l 个指标值 , 这里 X = ( X1 , …,
65
5157 13
321200 41616 Y l
141455 01827 Std ( y)
癌肿组 ( Y)
DI
1124 1100 1112 1127
… 1120 11113 01115
PCNA AgNOR
29
7190
44
5160


65
6120
581231 71491
111031 11359
a) ,
x
∑ V = a T Y ~ N ( a Tμy , a T
a)
y
(1)
a = ( a1 , …, ap) T 表示多个 指 标 的 线 性 组 合 系
数 ,也即是 Fisher 判别函数的系数 。要使得指标线性
组合后的 ROC 曲线下面积达最大 ,则 a 满足下式 :
∑ ∑ a ∝ (
+
x
logistic 回归是目前处理多指标的诊断试验评价问 题的另外一种常用统计方法。由于 logistic 回归模型中 解释变量和响应变量间的统计关系是早已固定的 ,因此 一旦给出一组自变量的取值 ,则该个体应属于哪一类的 概率也就确定了 ,也就是说计算结果与自变量的分布类 型无关。这一特点使得 logistic 回归要比常规的判别分 析更稳健 ,但是由于未充分利用自变量的分布信息的缘 故而具有相对低效性 。本文方法是常规判别分析方法 的演绎 ,因此上述的特点同样存在于 logistic 回归和多指 标联合的 ROC 曲线方法的比较中。
Y ) ]/ ( n - 1)
(8)
将以上 μ和 ∑x 、∑y 的估计值代入公式 (6) , 就可以算
得 ROC 曲线下面积的估计值 A^ 。全部的计算过程用
SAS 即可实现 。
实例分析
越来越多的临床资料表明肿瘤发生与细胞增殖及 凋亡关系失调有关 。因此有关专业人员应用流式细胞
仪 ( FCM) 、免疫组化等方法对 13 例口腔颊囊粘膜癌 变患者和 45 例对照人群的 DNA 含量 (D I) 、增殖细胞 核抗原 ( PCNA) 、银染核仁形成区 (AgNOR) 进行了定 量检测 ,以便了解这些指标在口腔粘膜癌变监测中的 价值 ,资料如表 1 。
对三个指标分别计算各自的 ROC 曲线下面积 ,其 结果为 :01743 (D I) ,01924 ( PCNA) ,01965 (AgNOR) 。 由此提示将三个指标综合起来考虑对于口腔颊囊粘膜 癌变的诊断和监测可能具有更大的实际意义和应用价 值。
讨 论
外国学者 Bamber〔4〕于 1975 年提出 ROC 曲线下 的面积 (AUC) 等于病例组中指标测量值高于正常人 群测量值的百分数这一基本概念之后 ,相继有学者对 ROC 曲线下面积的计算方法作了种种研究和探讨 ,针 对资料是否连续 ,有无重复测量 ,以及有无缺失数据等 问题 ,提出了各种参数和非参数的计算方法 。但主要 都是用于单个诊断试验或指标的 ,对同一诊断或筛检 试验多个指标的 ROC 分析方法的报道却很少 ,只是 90 年代以后才有一些国外学者开始对多指标的 ROC 分析方法进行探索性研究 ,国内这方面的研究还未有 报道 。
本文介绍的方法是针对多个指标联合的诊断试 验 ,将多个自变量进行线性转换达到降维目的 ,应用 Fisher 的线性判别准则 ———即线性组合后两类间的均 数之差与它们方差的比值达到最大的准则 , 来确定线 性组合的系数向量 a ,从而获得多个自变量的 ROC 曲 线方程及面积计算公式 ,两总体的均数和协方差阵通 过样本的极大似然估计获得 。
∑ ∑ A = Φ( μT (
+
) - 1μ)
x
y
(6)
同样这里的 μ = μy - μx 。
均数向量和协方差阵的估计
总体分布的均数和协方差阵通常无法知道 , 只能
由样本来估计 。
依照前面的假设 ,有来自 (某病) 阴性总体的独立
∑ 同分布样本 X1 , …, X m ~ N (μx ,
)
x
, 来自
中国卫生统计 2003 年 10 月第 20 卷第 5 期
·279 ·
指标联合的 ROC 曲线分析
邹莉玲1 沈其君2 陈启光2 王文梅3
临床上对于同一种疾病的诊断或筛检 , 往往有各 种不同的诊断方法或手段 , 涉及的诊断指标是非常多 的 。不同的指标对疾病各方面敏感性是不一样的 , 因 此在对疾病做出诊断时如何充分利用这些指标的诊断 信息 ,就显得非常重要 。
,
可用样本的均数来估
∑∑ ∧
计;

x
y 为 p ×p 矩阵 ,它们的 ML 估计值 Σx

和 Σy 分别为 :
∑ ∧
Σx = S x/ ( m - 1) = [
( Xi - X) T ( Xi -
X ) ]/ ( m - 1)
(7)
∑ ∧
Σy = S y/ ( n - 1) = [
( Yj - Y) T ( Yj -
01006 - 0141 - 0101

Σx = - 0141 20819 31335 ,

Σy =
- 0101 01013
- 0171
31335 - 0171
12117
01684 - 0102
31731
- 0102 31731 11846 由以上数据可得到 :
相关主题