当前位置:文档之家› 医学数据挖掘研究

医学数据挖掘研究

医学数据挖掘研究 陈彬玫① ① 成都市郫县中医医院,610225 摘 要 当今医疗数据海量增长,利用数据挖掘找出对各类医疗决策有价值的知识迫在眉睫。本文介绍了大数据时代背景下医学数据的内容和特点,并研究了数据仓库构建医疗信息化知识平台的动力、关键技术,最后总结了医学数据挖掘挑战。

关键词 医学数据;数据挖掘;数据仓库; 1 引言 以计算机技术为核心的信息与通信技术凭借互联网的飞速发展,大大地促进了医疗卫生行业各个应用领域和行业的发展,形成了包括医院信息系统、公共卫生信息系统、远程医疗、家庭护理和区域协同医疗等数百亿的医疗卫生ICT产业,并得到了学术界和工业界的广泛重视。医疗信息化的发展,也促进了医疗数据的爆炸性增长。 但是,医疗信息化也面临很多问题。在资源利用方面,大病小病都找三甲医院,优质医疗资源紧张,医生的经验与精力也有限,没有充分发挥医生的价值。在医患信息交流方面,信息缺乏,信息不对称。民众医学健康、预防、康复知识匮乏,信息化建设的过程中也缺乏病人的主动参与。对于医疗行业本身,患者个体差异大,医疗疾病种类繁多,复合疾病常见,关系复杂,很难标准化、自动化。在医学认知方面,新的疾病不断产生和变化,医疗发展水平还有未知领域。 人的健康是开展医疗信息化的最终目的,也是国家投入巨资推动医疗信息化的出发点和落脚点。目前,区域医疗信息化是投资的重点,其主要内容是以电子病历和电子档案为基础的数据集成和共享。在这些信息系统的基础上,医疗服务将从传统经验分析和临床试验发展到从海量医疗健康数据中挖掘医疗知识,利用信息化技术创造优质的医疗服务惠及广大民众。

2 医学数据挖掘的研究动力 2.1 伦理需求 身体健康是人类社会的本质需求。因此,医疗信息化的根本使命是保证人们身体健康,满足个性化医疗服务,最大限度保证公民的医疗质量和医疗安全。通过信息化建设和数据挖掘平台的建设,可以促进现代医疗模式的应用,大大扩展了医疗服务的活动范围。进而使得社会获得巨大的信息化红利,提高人们的生活水平和生活质量。

2.2 经济效益 医疗行业是继电信行业之后最有可能深入广泛开展数据挖掘并从中获得实际效益的行业之一。医疗行业是具有大量现金流的行业,完全有能力通过开展数据挖掘。作为根本的民生举措,国家也在持续加大投入。计世资讯《2013年中国医卫行业信息化建设与IT应用趋势研究报告》的研究结果显示,2012年中国医卫行业IT投入达185.6亿元,较2011年同比增长22.6%;2013年医卫行业信息化建设投入将继续保持理性状态,呈现平稳增长趋势。2013年中国医卫行业的IT投资规模约为225.5亿元人民币,较2012年同比增长21.5%。如下图所示。 图1 2011-2013年中国医疗行业信息化投资规模 通过开展数据挖掘,医疗单位可以提升医疗服务质量,增加医疗项目,降低医疗费用和医疗风险。

2.3 数据资源 医疗行业具有丰富的第一手的数据资源。医院每天都在产生数据,人们在生活的过程中时时刻刻在产生数据指标。这些数据通过建模、抽取、加载和转换,经过计算机的处理,将成为个人医疗服务和疾病诊断的宝贵资料。

3 医学数据的内容及特点 3.1 种类多样和模式多态 医学数据产生于医院的日常经营过程中,既包括医院管理信息,也包括临床医疗信息。医学数据具有多种形式,包括影像、信号、纯数据、文字以及用于科普、咨询的动画、语音和视频信息等,医学数据的多样性是它区别于其他领域数据的最显著特征[1-4]。

3.2 异质性 医生和患者沟通过程是一种社会性沟通过程,其中的诊断数据采集难度大,不易标准化。这给数据的建模和集成带来巨大挑战。

3.3 数据的隐私性 医学资料是关于人的资料,涉及隐私、伦理、法律和社会方面的问题。因此医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性[1-4]。文献[7,9]探讨了隐私性的解决方案。

3.4 不完整性 由于疾病的个体差异以及诊治医生的不同,许多医学信息的表达和病案记录本身就具有不确定性和模糊的特点,有一定的主观性。病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映[1-4]。

3.5 时间性 人的生命和就诊记录都是时间的函数,医学检测的波形、图像也是时间的函数,这些数据具有时间序列性。

3.6 冗余性 医学诊疗记录的社会化属性决定医学数据是现实社会反映,必然存在很多冗余的数据。 4 医学数据挖掘平台的构建 4.1 数据仓库的概念 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

这是一个偏向学术的定义,却非常准确的界定了数据仓库与其他数据库系统的本质区别。数据库是一种通用平台,建立于严格的数学模型之上,用来管理企业数据,进行事务处理,完成相关业务。而数据仓库没有严格的数据理论,更偏向于工程,它不是花钱就可购买到的成品,而是企业一个日积月累的建立过程,它的应用对象是不同层次的管理者,它的数据源是多种数据源,库中数据无须修改删除,主要是大规模查询和分析,因此要求有大量的历史数据和汇总数据。

4.2 医学数据挖掘的过程 数据仓库的目的就是在多个维度整合和归纳数据,包括数据清洗、数据集成、数据转换、数据加载(ETL过程)等(如图2所示)。数据仓库可以看作是数据挖掘的一个重要过程。另外,数据仓库还提供OLAP工具用于交互分析:多维数据在不同粒度上的分析——方便高效的数据整合和挖掘。可以继承到OLAP操作中的数据挖掘工具包括:关联分析、分类、聚类和预测等(这些操作都可以增强知识的挖掘)。因此数据仓库是医学数据挖掘的一个非常重要的平台。 图2 数据挖掘的过程 4.3 数据仓库构建的关键技术 图3展示数据仓库的子模块,其中三个模块是非常重要的,分别介绍如下:

图3 数据仓库的模块组成 4.3.1 数据建模 数据的建模主要解决数据异构和异质的问题。其主要任务是将多个异构数据源,多种业务的数据,采用合适的数据拓扑承载数据,使其在业务系统中能够更好的组织和展示,这是解决数据异构的问题。而对于数据本身,则需要准确的抽象,例如,如何抽象和表示数据,一个业务数据可以抽象为多少个measurement,多少个counter,这是解决数据异质的问题。另外,还需要对数据的维度建模,根据医学数据的特点,可以抽象出多少种数据的维度,例如时间、业务对象等,以及在这些维度上如何做数据的聚合。 4.3.2 ETLoad设计 ETLoad是指数据的抽取(Extract)、转换(Transform)和加载(Load),主要完成原始数据向模型数据的转化工作。ETLoad首先是要处理海量的数据流,能够在多个进程之间如在均衡。在获取文件之后要能够解析多种格式的文件并加载入库。在多层的数据集成系统中,ETLoad还需要上层数据集成系统传递数据。ETLoad还需要完成数据按照多个维度的汇聚工作。多维数据立方体操作已有大量研究。 4.3.3 OLAP设计 OLAP主要完成数据上卷(Roll-up)、下钻(drill-down)、切片(Slicing、Dicing)等工作。上卷(Roll-up)又称为整合(consolidation),即是数据的聚合,使得数据在一个或者多个维度积累和计算。上卷(Roll-up)就是为了预测趋势。相反,下钻(drill-down)是使得用户查看数据细节的技术,Slicing是指抽出OLAP空间中特定集合的数据; Dicing是指从不同视角查看数据片。

4.4 医疗数据挖掘平台服务框架 数据仓库是数据挖掘的基础数据存储平台,是面向多维数据分析的基础库[5,6]。在数据仓库之上,可以构建各种数据挖掘算法库和个性化医疗服务的推荐系统等,文献[2]提出了一种数

据挖掘平台服务框架(如图4所示)。

图4 医疗数据挖掘平台服务框架 5 医学数据挖掘的挑战 5.1 多学科交叉 医学数据挖掘涉及医学、统计、计算机等多个学科,研究内容偏向前沿问题和尚未解决的问题,在数据尺度增加的情况下,问题更加复杂。生物医学工作者往往不能掌握复杂的分析工具,计算机科学工作者缺乏相应的医学背景,因此,培养能够在多个学科内长期积累和沉淀的数据人才至关重要。另外,从工具的角度来讲,把数据挖掘的流程模块化,把数据挖掘的工具组件化,把数据挖掘的过程智能化,可以大大的提供医学工作者的效率。文献[1]探讨了医学工作者对于数据挖掘的“望而却步”心理和高校医学教育中的知识结构问题。

5.2 数据的集成和共享 数据的集成和共享,避免信息孤岛是行业信息系统的共同目标,在医疗行业实现该目标的挑战则更大。其原因主要是业务本身的复杂性和数据的多样性,各个医疗部门在构建系统之初,不可能采用统一的平台,这势必为后期数据集成带来困难。

5.3 统一数据接口 各个医疗部门采用不同厂商的硬件和软件,在内部数据格式上更是千差万别。为了开展有效的数据挖掘,制定统一数据接口标准至关重要。

5.4 数据隐私性问题 医疗机构数据分析技能的不足导致对第三方分析机构的依赖,同时也引入了医疗敏感信息的泄露问题。文献[7]探讨了医学数据挖掘中隐私性保护,通过数据库表的映射实现病人隐私信息的保护。文献[8]综述多种面向数据库的隐私保护技术,如下表所示。

表1 隐私保护技术的对比分析 技术名称 主要优点 主要缺点 基于数据失真的隐私保护技术 计算开销小;实现简单 数据失真;严重依赖于数据, 不同数据需设计不同的算法 基于数据加密的隐私保护技术 数据真实、无缺损;高隐私保护度 计算开销、通信开销大 部署复杂, 实际应用难度较高 数据匿名化 适用于各类数据、众多应用, 算法通用性高 能保证发布数据的真实性实现简单 存在一定程度的数据缺损;存在一定程度的隐私泄露;实现最优化的数据匿名开销较大

6 总结 本文主要对医疗数据挖掘的相关概念与技术做出归纳与总结,下一步工作是在目前工作的基础上研究数据挖掘在中医院医疗系统中的应用。

参考文献 [1]龚著琳, 陈瑛, 苏懿, 等. 数据挖掘在生物医学数据分析中的应用[J]. 上海交通大学学报: 医学版, 2010, 30(011): 1420-1423. [2]吴信东, 叶明全, 胡东辉, 等. 普适医疗信息管理与服务的关键技术与挑战[J]. 计算机学报, 2012, 35(5): 827-845. [3]黄秋燕, 金京皓, 沈岳龙, 等. 数据挖掘在医学信息中的应用[J]. 医学信息: 上旬刊, 2010, 23(016): 2503-2506.

相关主题