生物信息学在医学数据分析中的应用1.前言随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究,这就对有效数据的管理和挖掘提出了更高的要求。
近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此来理解基因表达的内在规律[1],给疾病的诊断和预测、新特药的设计提供新的思路和方法。
但目前医学数据的整合还存在以下问题:一是医院临床数据通常是分散存在的。
分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与分析。
二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可靠性和准确性得不到保证,而且容易产生数据丢失。
与此同时,人工收集数据工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和分析结果的准确性提出来质疑。
三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效率滞后,容易影响科研进度。
针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进行统计分析,基于临床科研的数据管理系统应运而生。
2. 支持向量机在医疗数据中的应用在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种生理信息综合分析是十分有必要的。
在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种,甚至几十种理化指标。
医生综合这些检测的数据,根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。
显然,这种诊断是主观性的,对同一个人,有时不同的医生甚至会做出截然相反的判别。
多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型,并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更客观、准确和及时的诊断[2]。
用于建立模型的方法很多,其中支持向量机是近年来发展迅速的一种理论统计方法。
支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法,是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生了重大影响[3,4]。
支持向量机是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,在模式识别、信号处理、函数逼近等领域得到了应用[5,6],表现出了很好的泛化能力。
目前,支持向量机作为小样本学习的最佳理论,越来越多的应用于智能医学数据分析领域,成为当前智能医疗诊断研究的热点。
其基本原理如下:支持向量机通过对待分类数据进行用核函数定义的非线性特征影射¢(x):R n→Z,将其映射到某一更高维特征空间Z中,从而能够线性可分,然后在新的特征空间Z中构造最优分类超平面,形成样本分类的决策规则(图1)。
最优分类平面不仅要保证将两类样本错分个数最少,还要求分类间隔最大。
错分个数最少保证了经验风险最小,从而使真实风险最小。
但在一般情况下,这种低维向高维的变换,可能会比较复杂,不容易实现。
考虑最优分类函数只涉及样本之间的内积运算,这样在高维空间也只需内积运算:而这种高维运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。
根据泛函的有关理论,只要一种核函数K(x,y)满足Mercer条件[7],它就对应某一变换空间中的内积。
因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类,而计算的复杂度却没有增加。
图1 支持向量机原理[7]应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题,而且在小样本条件下仍然具有良好的推广能力,因而成为智能技术研究的新的热点[9]。
SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果,并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中[10,11,12]。
2.1支持向量机在心脏病中的应用利用SVM等对多生理样本信息进行融合处理,从而形成一种判断模型,根据模型可以对新加的数据做出某种判别。
这种判别的能力好坏不仅取决于原始样本数据数量、完整性等,还和建立模型的工具方法有直接的关系。
SVM具有良好的泛化性能、结构简单,因此是建立医疗诊断模型的有效方法。
如今SVM 广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。
可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工具,应当引起相关领域研究人员的高度重视。
但在诊断中由于病人存在个体的差异和诊断数据本身的噪声和非线性等,所以要准确的诊断是困难的。
而改进的支持向量机,能够去除噪声和孤立点,提高了分类的准确率,其优良特性表明本算法在医疗诊断中具有很大的应用潜力。
在对心脏病数据进行分类时,支持向量机算法相对于其他算法的优势主要表现在以下两个方面:(1)支持向量机分类器通过求解一个凸二次规划得到,二次规划所得的解是唯一的且为全局最优解,这样不存在局部极值问题;(2)支持向量机分类器只由少数支持向量确定,且将非线性问题的求解转化为计算确定的核函数。
徐义田[13]等通过运用结构风险最小化原理和聚类原理,将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机结合起来,对线性可分与线性不可分两种情况分别建立了无监督的分类模型。
模型的求解转化为一个二次规划问题,同时此模型也适合于多分类情况。
在应用到心脏病的医疗诊断中,准确率为88.5%,明显优于其他诊断方法。
有文献[14]报道,利用心电图特征,如各个波形的问期、幅值等信息作为分类依据,采用支持向量机和高阶统计量的方法对心律异常的心拍进行分类。
苏枫[15]等通过采用支持向量机SVM 和Adaboost 分类算法,设计高精度的分类模型和分期模型,发现结合Adaboost 和SVM 两种机器学习模型,能为心力衰竭的诊断及分期提供较准确的模型。
费胜巍[16]针对SVM 参数选取困难的难题,提出基于PSO的SVM参数优化方法,提出了基于PSO-SVM的心律失常诊断方法,通过PSO优化的SVM分类器具有较高的分类精度,并通过诊断实例证明了其可行性和正确性。
本研究通过检测80例先天性心脏病患者与80例健康对照者的cTnI、hs-CRP、BNP、Lp(a)水平,结果表明病例组的cTnI、hs-CRP、BNP、Lp(a)水平显著高于对照组,差异具有统计学意义。
以cTnI、hs-CRP、BNP、Lp(a)四个血清指标建立的支持向量机先天性心脏病诊断模型,经测试结果准确率为85%,同徐义田[13]等报道研究一致。
2.2 支持向量机在结直肠癌中的应用针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题,以特征基因选择为主要研究内容,以有效提高基因表达谱分类方法准确性为目标,研究基因表达数据的数据挖掘方法,为肿瘤识别及基因表达数据特征分类提供技术支持,对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分类,具有重要的理论意义和临床应用价值。
大肠癌是发病率最高的恶性肿瘤之一,早期大肠癌手术后的5年存活率超过90%,晚期癌手术后则低于10%,建立有效的大肠癌筛查与早期诊断方法,以实现早期治疗成为提高患者生存率的关键[17]。
Furey等[18]以结肠癌为研究对象,通过计算信噪比提取特征基因,应用支持向量机的方法分析特征基因表达数据,建立肿瘤预测模型。
对结肠癌数据提取了2000个特征基因,在62个样本中预测模型正确分类了56个样本,分类的正确率为90.3%。
Ramaswamy等[18]分析了涵盖14种肿瘤的144个样本的基因表达数据,使用支持向量机方法提取特征基因,并用此方法建立肿瘤预测模型。
Zhang等[20]在统一处理中把基因选择和癌的分类、获取高准确率同时实现。
采用的算法为SCAD SVM(smoothly clipped absolute deviation)。
在国外,从20世纪90年代末开始,包括Science在内的国际著名期刊陆续发表的论文中公布了许多有价值的研究成果。
支持向量机针对基因表达数据的研究,各方面涉及较多,如基因分类、基因功能分类及特征提取等,表明支持向量机技术在信息学中的应用日趋成熟。
K-ras基因野生型大肠癌患者的抗表皮生长因子受体对结直肠癌(epidermal grow th factor receptor,EGFR) 治疗效果好,因此K-ras 基因检测有利于筛选出抗EGFR药物治疗有效的大肠癌患者,从而实现大肠癌患者的个体化治疗,延长患者的生存期,并大大降低治疗的毒性和不必要的费用[21],因此建立了一种基于最小二乘支持向量机数学模型的大肠癌K-ras基因突变预测方法就显得至关重要。
将LS-SVM应用大肠癌K-ras基因突变的预测,模型针对训练集的预测正确率达到100%,说明模型的内推能力很强,对检验集的预测正确率达到79.40%, 虽没有测试集的效果好,但是其方差较小,说明模型的稳定性还是很高的。
造成测试集效果没有训练集高的原因可能是模型的参数选取和样本K-ras突变量较少,应用LS-SVM 预测模型预测大肠癌K-ras基因突变是可行的,如果再与测序的结果相印证,就大大提高对突变能检测的信度[22]。
目前,已有的血清肿瘤标志物对结直肠癌诊断过程中大都特异性低、灵敏性差,但非特异性的血清肿瘤标记物对结直肠癌早期癌诊断以及预后监测仍具有一定的临床价值【23】。
在统计学中,用来作为衡量某特征特异性的方法有很多,目前用的最多的是距离度量。
距离度量也可称作“离散度准则”、“类别可分离判据”。
距离作为统计模式识别中的一个重要概念,主要包括巴氏距离、欧氏距离和马氏距离,而巴氏距离往往用于基因表达谱特征的分析,不管是维数高还是维数低的数据都较为适用,其应用范围较广。
本研究结果表明,当采用12个指标联合建立SVM模型时,模型分类的准确度为73.33%,不够理想。
联合CEA、NSE、CYFRA21-І、AFP、CA724等7项指标建立SVM模型,判别准确率可达86.67%。
这表明,选用过多的指标联合鉴别结直肠肿瘤的良恶性,可能会由于指标冗余而干扰其中有用指标判别的效果,造成判别准确率的降低。
本研究采用巴氏距离判别法可以有效筛选出特异性较高的指标,联合特异性较高的指标可以建立准确率较高的SVM诊断模型。
当采用巴氏距离最高的4个指标:CEA、NSE、CA724、AFP建立SVM模型时,模型的判别准确度为80%,反低于联合7个指标建立的模型准确度。