临床医学数据的分析方法与利用
[摘要] 本文使用循证医学方法,对“临床医学数据的分析方法与利用”主题进行取词检索,检索中国生物医学文献、万方、维普、中国知网四大主流中文数据库,纳入相关文献进行分析。从临床数据的分析流程、临床数据的分析方法、数据在医疗领域的利用以及面临的挑战等几个方面展开讨论并加以归纳,为医疗大数据时代的临床数据管理提供参考。
[关键词] 临床数据;数据分析;数据利用
[中图分类号] R19 [文献标识码] A [文章编号]
1673-7210(2017)12(b)-0163-05
[Abstract] Based on the theory of the
evidence-based medicine, the relevant information of
the topic “analysis and utilization of clinical data”
was searched. Sinomed, Wanfang Data, VIP and Chinese
National Knowledge Infrastructure databases were
searched to comprehensively collect related articles.
The paper elaborates the following aspects: the data
processing, the statistical analysis and utilization
of the clinical data in the medical field as well as the confronting problems, in order to provide some
references about clinical data management in the
forthcoming years for big medical data.
[Key words] Clinical data; Data analysis; Data
utilization
随着医疗技术的飞速发展以及医疗大数据时代的到来,面对激增的海量临床数据,临床数据管理的重要性日益凸显。2000年美国公布了《临床研究数据管理规范》,并进行了多次后续修订,该规范对所有临床研究的数据收集流程、不良事件报告、数据质量控制、文件的分类归档以及数据管理培训等进行了明确的规定[1]。1999年我国颁布《药品临床试验管理规范》(good clinical practice,GCP),规定临床试验数据应正确无误并及时地录入分析,确保临床数据质量以及数据的可溯源性[2]。2003年我国GCP参照国际公认原则进行了重新修订,指出“所有涉及数据管理的各种步骤均需记录在案,以便对数据质量及试验实施进行检查”“数据管理应用适当的程序保证数据库的保密性,具有计算机数据库的维护和支持程序”,可更加强调临床数据的可溯源性[3]。2016年,国家颁布《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,提出健康医疗大数据作为国家重要的基础性战略资源,规范并推动其融合共享,开放应用势在必行[4]。 现今对“医疗大数据”的分析方法日新月异,常用的临床数据分析技术涉及到很多学科,包括医学统计学、职业流行病学等,因此如何提取不同类型的临床资料对有用的信息进行分析和利用是临床数据管理的重要命题[5]。
1 临床数据分析流程
临床数据除具有“大数据”的特征外,还具有不完整性、冗余性、非标准化、隐私性、价值高的特点[6-7]。数据采集方式往往使用病例报告表,包括纸质病例报告表和电子病例报告表,前者包含了大量的非结构化数据和半结构化数据,非结构化数据是数据结构或记录格式未经标准化的一种数据形式,通常采用了自然语言录入的方式;半结构化数据是部分结构化了的数据形式,相对于结构化数据,其构成更为复杂和不确定[8]。为了使这两类数据更规范明了且有利于分析统计,需要通过语义分析以及数据提取将非结构化数据或半结构化数据转化成结构化数据[7]。20世纪80年代开始临床数据的采集开始逐步使用电子数??采集系统,方便研究者创建结构化的电子病历系统,通过该系统,患者个体的医疗信息更加一目了然,有利于临床医生对病史进行追根溯源,并能够在此基础上建立临床数据库[1]。
临床数据库通过医院信息系统、实验室信息系统、放射信息管理系统及医学影像存档与通讯系统等采集临床数据,囊括患者从入院到出院的所有诊疗信息。通过临床数据库可以构建临床数据中心,医务人员及临床科研人员可以对临床数据进行实时处理,并在数据交换平台实现数据横向或纵向的共享或流动。大规模的医疗数据集成临床数据中心,利用临床数据采集分析软件可以对海量的医疗大数据进行统计学分析、数据挖掘、医学建模,完成临床数据的分析报告和临床研究报告,再通过知识挖掘构建规则库和知识库,有利于临床知识的管理,这样又形成了知识管理的循环链(图1)。另外,现有医院在不断更新临床数据中心的同时又加入“临床数据分析引擎”模块和数据监测环节,当然这也对医院各系统的兼容性提出了更高要求[9]。
2 数据分析
高质量临床数据的获得是临床数据管理的基本要求,临床数据必须是真实可信的,并且必须和研究目的相关,还要适合于统计分析[10]。临床数据分析具体过程可分为采集、导入、统计和分析、数据挖掘。数据挖掘技术包括医疗大数据的预处理、算法(人工神经网络、决策树分析、随机森林算法、聚类分析、贝叶斯算法等)、医学建模、大数据的快速检索与处理、数据安全等。
2.1 一般统计学分析
在临床研究中应用最广泛的是随机对照试验,在数据分析时,不同统计方法对结果的解释也不同,因此通过不同的资料类型选择适当的统计学方法尤为重要。循证医学对随机对照试验所获得的数据进行Meta分析,将主题词加自由词组合,通过循证医学方法在数据库中大范围检索相关文献,将同质性高的文献数据进行合并,计算合并效应量。
2.2 数据挖掘
数据挖掘在研究领域中被称作“数据库中知识的发现”[11]。医学数据挖掘是从大量医学数据中通过各种算法来寻找疾病新规律的过程。数据挖掘技术包涵多种算法,不同样本类型通过不同算法对临床数据进行分类,建立医学模型。大数据的分析需要与计算机技术结合,机器学习就是统计学、算法理论与人工智能结合的一门交叉学科,并在当今无人驾驶技术、人类基因组技术中获得大力发展。
人工神经网络算法是模仿大脑神经网络的结构建立的信息处理方法,它的特征是“计算机代码+数学函数”,它的本质是“学习”,将训练数据在一定的“学习规则”中进行学习,获取特征信息和参数后建立人工神经网络,新的数据通过神经网络计算出对应的输出,这就是“感知器学习规则”[12]。例如要评价A家不同医院的医疗水平,可以先用B家医院的数据作为训练数据,医护人员、床位、就诊数量和死亡率5个指标作为输入(X),B家医院建立的知识库作为突出权值(W),经过处理得到输出(Y),经学习后网络会自动处理A家医院的数据(图2)。
决策树算法和支持向量机与神经网络算法较相似,都是学习型的机制,是两种常用的数据分类方法。决策树算法通过构建决策树分类器处理不同的数据类型,计算出各特征属性的信息增益后,选取信息增益最大的特征属性作为节点,生成“树状结构”图[13]。当数据量庞大到高通量多指标(如人类基因表达谱)时,提取特征属性越发不易,此时便由决策树算法引申出随机森林法的概念,是基于决策树算法的学习方法,对树的每个节点的特征空间做一次穷尽搜索,将生成的多棵决策树组成随机森林,分类结果按树分类器的投票多少决定[14];支持向量机是使用核函数将非线性数据投射到一个更高维的空间里即“升维”(从一维到二维,从二维到三维,从n维到n+1维)进行运算,运用泛函的方法可以将极小的样本量推演出全体的数据[15],支持向量机堪称最有效的数据分类工具[16]。
聚类分析属于多元统计分析方法,常用于中医证型的辨证分析,主要分为K均值聚类法和系统聚类法,常用的统计量是距离和相似系数。K均值聚类法是指定某些观测点凝聚为初始点,计算初始分类的中心位置进行聚类,再次计算中心位置并反复循环,直到中心位置很小为止;系统聚类是将样本间距离最小的合并为一类,计算与其他类的距离后再进行最小距离的合并,每次减少一类,直至合并为一大类[17]。
贝叶斯算法是建立在概率学的基础上的统计学方法,被称为“统计学历史上的飞跃”,是解释性建模和描述性建模的又一新工具,对疾病数据的研究很有帮助,可以用来表示疾病与相关症状之间关系的概率,形成的贝叶斯网络是一种有向无环图,两个节点间以单箭头连接,其中一个节点是“因”,而另一个节点是“果”(图3)。
2.3 医学建模
医学建模是临床大数据通过数学模型的建立寻找疾病发生发展的规律,即对医学数据进行模式识别,模式识别是将具体事物归到某一类别的过程[18]。一般医学数据有7种模式识别方法:解释性数据建模、描述性建模、预测性建模、知识性建模、序列模式建模、依赖关系建模、异常与趋势建模。
解释性模型的本质是模糊建模[19],通俗地讲就是对事物进行归因分析,找寻一个模糊集合中的共性得出一个普适规律,最具有代表性的应用是指纹和人像识别技术,也应用于医疗决策支持[20];描述性建模是从许多描述性数据(如身高、体重)入手,从具体到抽象、从特殊到一般地对事物进行归纳和演绎(即身高与体重的关系);预测性建模是通过整合现有的大数据对未来事件进行预测,最著名的案例是谷歌公司在2009年建立的流感预测平台运用人才思维模型预测流感爆发[21];知识性建模是利用先验的知识经验来进行新规律的发现,可用于我国中医学中大量古方的数据筛选[22];序列模式建模和依赖关系建模比较类似,是对多因素中的两组或几组进行分析,得出不同的因素之间是关联、共生还是依赖关系;异常与趋势模型是利用数据的离散值来判读事件发生风险的模型。
2.4 数据分析软件
临床研究中一般统计分析软件有Excel、SPSS、SAS、Stata、Sigmaplot、Graphpad Prism、Origin等,这些软件不仅支持统计学分析,还带有绘图功能。循证医学常用分析软件有Endnote文?I管理软件、Review Manager分析软件等。数据挖掘软件中许多是建立在多种计算机语言上的,例如R语言是一个用于统计计算的开源软件,也是提取临床数据的良好工具;建立在SQL语言检索基础上的软件Microsoft
SQL server,为临床数据模型建立提供科学依据;感知器学习规则中常用到Python语言。SPSS、SAS和Stata除了用于一般统计,也可用于数据挖掘,另外还有Weka软件、Matlab软件等。对于临床工作者而言,SPSS、SAS、Matlab、Weka更为实用。
3 数据利用
美国是世界上最早关注临床数据利用的国家之一,20世纪70年代美国启用医院信息系统,较早开始了医疗信息化,2007年《美国医学信息协会白皮书》指出开展临床研究能促进医疗数据的再利用,2013年《美国医学信息年报》通过调查研究归纳出临床信息学的6类主题,其中包括了临床数据