医学图像处理评估方法罗述谦本文作者罗述谦先生首都医科大学生物医学工程系教授中国医药信息学会北京分会生物医学工程专业委员会主任委员关键词: 医学图像图像处理算法评估一引言现代科学的高度发展及计算机技术的结合使得我们有可能以图像的形式得到有关人体健康的信息从而在疾病的诊断外科手术的计划和引导治疗过程的监督和康复器械的研制等方面提高医疗水平在医学可视化技术的研究中出现了多种模式的成像技术例如CT MRI PET及SPECT等由于这些图像与我们习惯上见到的照片不同它们是通过计算机计算重构的像因此就产生了这些重建的图像是否正确可信度如何的问题再者我们还要经常对医学图像进行某种处理以突出其中的有用信息满足临床的需要但是任何新的医学图像处理算法的提出和应用都必须经可靠的方法对其性能评估这种评估包括用数学或物理方法的仿真研究以及对真实临床数据的验证后者当然是我们应用医学图像的目的但在很多情况下这种验证是很困难有创伤的甚至难以实现的例如对颅内脑组织和人体体内器官的图像的验证前者则可用数学的方法模拟不同条件在很广泛的范围实验验证但由于数学模拟往往过于简单模拟的结果与实际情况有一定的差距因此又有一种介于二者之间的折中方法即在数学模型中融入解剖知识建立更接近实际的仿真模型二医学图像评估方法的分类医学图像的评估方法显然与具体的医学图像处理的对象和目的密切相关一般来说对大多数的医学图像处理结果的评估都是件很困难的事情通常不存在什么金标准(Gold Standard)只有相对的最优(某种准则下的)标准在此意义上常用的医学图像评估方法有以下几种:1. 体模(Phantom)体模又有硬件体模和软件体模之分后者是计算机图像合成结果体模法用已知的图像信息验证新算法的精度一般硬件体模都比较简单与实际临床图像差异较大因此只能对图像处理算法作初步的评估例如用添充氧化铁颗粒的琼脂胶做成的简单几何形状的硬件体模经MR成像后可用于对分类算法的测试图1是颇为著名的Hoffman硬件脑体模生成的MR图像Hoffman体模就较为复杂能够产生更接近真实解剖结构的MR图像这个硬件体模由6464的CdZnTe阵列构成内部填充110mCi的Tc-99m成像3min图像总计数19M次许多学者还用Hoffman体模生成PET图像用于对PET图像重建算法的准确度评估; 测试SPECT和PET图像的配准等这种体模的好处是可以在各种实际成像环境广泛使用性能已知而且稳定缺点是由于太稳定了很难对其形状和材料作些变动后面介绍的计算机化软件体模在这方面则具有很大优点2. 准标(Fiducial Marks)立体定向框架系统(Stereotactic Frame Systems)包括立体定向参考框架立体定向图像获取探针或手术器械导向几部分优点是定位准确不易产生图像畸变使用立体定向框架系统的体积图像数据可以用来评估其它配准方法的精度使用人工记号作准标的方法很多一种准标是使用9根棍棒组成的3个方向的N字型结构在CT测试时棒内充以硫酸铜溶液; 作PET测试则填充氟18这样在两组图像中都可见此N字型准标从而可对图像准确空间定位还有人用在人脑表面嵌8个螺丝作标记的方法对多个病人做CT MR(T1T2及PD)及PET扫描得到多组数据这些数据专门用于多模医学图像配准算法评估使用3. 图谱(Atlas)UCLA的Thompson教授用随机向量场变换构造一个可变形的概率脑图谱包括从多个受试者到单一解剖模板的功能血管组织诸方面映射三维图谱到新受试者的扫描图像的映射Visible Human CD的CT骨窗图像MR图像及彩绘的冷冻切片照片像由于具有清晰的解剖结构和高度的分辨率(1毫米/每层片)近来也被用来作医学图像处理方法的评估手段4. 目测检验(Visual Inspection)对医学图像处理方法的结果请本领域专家用目测方法检验听起来有些主观但的确是一种相当可信的方法有人发表论文称医学专家用肉眼对CT/ MR配准结果的评估准确度达2mm三评估的基本要求由于不同的医学图像处理有不同的目的和要求因此所用的评估指标也不同但下述特性往往在许多医学图像处理方法的评估中具有重要意义1. 精密度(Precision)在相同条件下对同一输入重复测试得到相同输出的性能(图2)在图2中圆点是测试得到的数据点靶心是测试参数真值(或参考值)2. 准确度(Accuracy)真值(或参考值)与测量值之差除以真值(或参考值)的结果(图3)3. 可重复性(Repeatability)在一段时间内对同一输入重复测试得到相同输出的性能良好的可重复性必然有高精密度但并不一定意味有高准确度4. 敏感性(Sensitivity)和特异性(Specificity)等表1给出待测算法的实测结果与理论结果之间的关系其中TP=(TruePositive)FN=(False Negative)FP= (False Positive)TN=(True Negative)优势率(Prevalence)定义为: Prevalence=FPFN TP TN FN TP ++++ 敏感性(Sensitivity)定义为: Sensitivity=FNTP TP + 100% 特异性(Specificity)定义为: Specificity=FPTN TN +100% 均方根误差(ERMS): 也经常被用作评估医学图像处理方法的定量准则它的定义是 E=∑=−Ni r i V V N 12)(1 式中Vi 为第i 个象素的实测值Vr 为第i 个象素的参考值N 为象素总数四 评估方法应用实例1. 图像重建算法评估在CT 或PET 等断层扫描图像的重建过程中可以采用多种重建算法例如反投影重建算法等Shepp-Logan 图(图4)常被用来对头部图像重建算法进行评估Shepp-Logan 图是用数学方法在计算机上产生由10个不同大小和取向的椭圆组成的图像对于某一个具体的CT 或PET 扫描仪它的探测器数目位置都是确定的因此可用解析的方法计算出与模拟生成的Shepp-Logan 图相对应的各探测器强度再根据这些探测器强度采用待测试的新重建算法重建CT 或PET 图像通过将该重建图像与Shepp-Logan 图对比可以定量评估新重建算法2. 边缘检测算法评估在CT 和MR 图像的分析中图像的边缘的准确提取往往给出重要的诊断信息众所周知在普通的图像处理研究中少女Lenna 的照片经常被用来做共同的输入图像由于该图像中人物的线条粗细多种多样纹理变化也很丰富从Lenna像提取的边缘数目多少连续性好坏就可以对各种边缘提取算法的性能进行直接比较由于医学图像自身的特点我们医学图像实验室采用类似Shepp-Logan图的计算机仿真图(图5)对多种边缘提取算法进行评估3. 组织分类算法评估对人脑MR图像自动分割并进行正确的人脑组织分类显然具有重要的临床意义蒙特利尔神经所(Montreal Neurological Institute简称MNI)的Evans教授等人研制了一个功能很强的虚拟人脑数据库称做MNI虚拟脑数据库他们对同一个受试者在立体定向空间进行27次扫描(T1加权梯度回响获取TR/TE/FA=18ms/10ms/30º)选取采样子集并做平均最后得到一个高分辨(象素尺寸1mm1mm1mm )低噪声包括全脑的3D MR图像数据集象素总数为181217181 个由于该数据集的高信噪比特性图像中脑解剖组织十分清晰再由神经解剖专家对产生的图像各类组织逐个象素检查分类并对组织边缘手工修正最终形成具有10种组织概率分类的3D MR图像数据集该数据集还考虑了部分体积效应(Partial V olume Effect)MNI虚拟脑数据库在国际上受到广泛的注意除被用来产生逼真的MR和PET仿真器外许多研究人脑组织分类算法的学者也都将其作为参考进行比对最近我们医学图像实验室基于MNI虚拟脑数据库在Delphi环境下开发了一个通用的人脑组织分类算法评估软件该软件能对待评估的分类算法逐象素比对既可以是二值性的也可是概率的并对分类结果的正确性进行统计包括敏感性特异性优势率等统计结果有数值表及直方图等形式我们还对灰度加纹理统计参数组织分类算法多谱医学图像组织分类算法及基于有偏场校正的适配分类算法进行了实际评估4. 图像配准算法评估在医学图像配准问题中通常没有所谓的金标准; 但是通过前瞻性的基于标志点的配准方法可以得到一个近似的标准结果在美国Vanderbilt大学医疗中心进行神经外科手术的一些病人颅骨上被固定定位标记并接受多模医学图像(CT MR PET)数据采集成像后通过配准定位标记点得到用于回顾性算法评估的金标准由Fitzpatrick教授领导的NIH支持的回顾性图像配准算法评估项目面向世界各国的大学和科研团体专门从事多模医学图像配准算法的评估各项目成员通过Internet下载已经擦掉标志点的3D多模图像数据利用自己研制的配准算法完成配准工作后将所得结果提交Vanderbilt大学以接受评估评估之前一些感兴趣区(V olume of Interest一般为10个)由Vanderbilt医学专家给出这些区域通常就是神经外科手术中的敏感区每个感兴趣区被定义在MR 图像中同时计算其中心c; 而后应用前瞻性配准算法得到的金标准确定其在CT上的对应点c; 再用待评估算法的配准结果确定MR中对应c的点c; 通过计算每一个原点c与对应点c的距离计算目标匹配误差(Target Registra-tion Error)并由此统计出相应配准算法的精度图6为该过程的示意图回顾性图像配准算法评估项目是一种双盲性的研究过程所谓双盲即评估人员不知道项目成员的配准算法而研究人员不知道金标准直到提交所有的配准结果这样就使得对算法的评估更加真实可靠并且更符合临床实际我们采用Vanderbilt大学提供的七个病人的全套CT和MR图像的3D体积数据用ANSI C语言编程在HP KAYAK XU/Pentium266上实现我们自己研究的基于最大互信息的多模医学图像配准算法每个病人有1套CT数据和6套MR数据包括PD T1T2和分别矫正过几何失真的PD_rectified T1_recti-fied T2_rectified图像(代号Patient_ 006的病人没有T1_rectified数据)CT图像在XY平面上的分辨率为512512在Z轴方向采样28~34层在X Y Z三个方向上的象素大小分别为0.653595mm0.653595mm 4.0mm MR图像在XY平面上的分辨率为256256在Z轴方向采样20~26层在X Y方向的象素大小为1.25~1.28mm Z方向的象素大小为4.0mm我们共试验了来自七个病人的从CT 到MR的共41套数据经Vanderbilt大学评估所有配准结果与金标准相比的误差都小于4mm(表2)即全部达到了亚象素级的配准精度迄今共有来自全世界19个大学和科研组织向Van-derbilt 大学提交了自己开发的新配准算法的配准结果并接受评估对比这些评估结果可以看出我们医学图像实验室研究的配准方法在配准精度方面居于领先之列该结果可通过访问/~image/registration获得5. 脑解剖结构标识(Labelling)的评估由于不同人在生理上存在差异同一解剖结构的形状大小位置都会很不相同这就使不同人的医学图像间的比较成为当今医学图像分析中的最大难题在对比和分析不同人的医学图像时很难准确找出对应的解剖信息但是如果我们将众多的脑图像作一定的尺度变换并对深度内部结构适当取向后就会发现不同人脑的解剖结构的大小和形状方面还是具有一定的共性的这就使我们有可能构造一个计算机化的脑解剖图谱其前提是受试者间脑的拓扑结构具有不变性由于在脑图谱构建过程中有神经解剖学专家直接参与就可以利用图谱所包含的先验知识来对病人或其他人的图像自动识别配准和正确的标识目前使用较多的Talairach脑图谱就是一个详细标记人脑各个解剖位置的计算机化的标准图谱(图7)Talairach标准空间是一个3D正交栅格坐标系统一位56岁的德国老妇人去世后尸体冷冻保存她的头部经冷冻切片和专家手绘染色处理并对大部分脑内解剖结构做出标识后形成标准解剖图谱在使用Talairach脑图谱时例如要对两个病人的PET或MR图像进行比较首先要通过一定的几何变换把二者的图像都映射到这个共同的参考空间去然后在此空间中对二者进行比较由于目的在于人脑解剖结构的标识并非要求点对点的严格对应因此Talairach标准空间能够解决不同人脑解剖结构的标识问题并为大家广泛接受从图谱到脑图像的配准归结为逐段仿射变换问题但仿射变换不能解决人脑形态的复杂非线性问题一些学者研究了用非线性变换的技术对性能有所改进全文完来源世界医疗器械出版日期1999年8月。