doi:10.3969/j.issn. 1672-5166.2013.04.03医疗大数据面临的挑战及思考蔡佳慧①张 涛①宗文红①△文章编号:1672-5166(2013)04-0292-04 中图分类号:R-37 文献标志码:A摘 要随着卫生信息化建设进程的不断加快,医疗数据的类型和规模正以前所未有的速度增长,医疗卫生领域已进入“大数据时代”。
本文在对医疗大数据基本概念进行剖析的基础上,归纳总结医疗大数据时代所面临的新挑战,详细介绍闸北区为应对这些挑战在数据管理、整合、存储、利用等方面所实施的具体措施,并对下一步工作进行了有益的思考。
关键词大数据卫生信息化数据处理Challenges and Considerations of the Big Data of MedicineCai Jiahui, Zhang Tao, Zong WenhongZhabei District Health Research and Information Center, Shanghai 200070, ChinaAbstract With the rapid development of health information, the type and scale of medical and health data continue to expand at an unprecedented pace. Medical and health fi eld has entered a big-data era. On the basis of the analysis of the basic concepts of health data, this paper summarizes the new challenges faced in medical and health fi eld in the age of big data and introduces in details the implementation of specifi c measures of Zhabei District to meet these challenges in data management, integration, storage, utilization.The benefi cial thinking for the next step has also been put forward.Key words Big data, Health information, Data processing1 引言当前我们正处于一个数据爆炸性增长的“大数据”时代。
据IDC( International Data Corporation ,国际数据公司)预测,中国的大数据市场在2012~2016年间将增长5倍,政府、银行、医疗卫生、电信等行业将在其中占据最多的份额。
在医疗卫生领域,各种信息系统在医疗机构的广泛应用以及医疗设备和仪器的数字化,使医院数据库的信息容量不断膨胀,这些宝贵的医疗信息资源对于疾病的管理、控制和医疗研究都是非常有价值的。
如何利用这些海量的信息资源更好地为医疗卫生行业的管理、诊疗、科研和教学服务,已经越来越为人们所关注。
① 上海市闸北区卫生科技与信息中心,上海市,200070作者简介:蔡佳慧(1986),女,学士学位;研究方向:卫生信息管理;E-mail:caijiahui86@通讯作者:宗文红(1968),女,硕士学位;副主任医师;研究方向:卫生信息管理;E-mail:zongwenhong2006@△通讯作者2922 医疗大数据概述2.1 大数据的定义大数据其本质是信息爆炸时代对数据的核心价值再挖掘,被大部分专业人士认为是计算机行业继云计算、物联网之后IT产业又一次颠覆性的技术变革[1]。
其有四个特征:一是数据量大,起始计量单位至少是P(1000个T);二是数据类型繁多,包括音频、视频、图片、地理位置信息等等;三是数据价值密度相对较低,需要强大的机器算法迅速完成数据价值的“提纯”;四是处理速度快,时效性要求高。
可将其归纳为4个“V”:Volume,Variety,Value,Velocity[2]。
2.2 医疗大数据的来源医疗大数据的来源主要包括四类:①制药企业/生命科学:药物研发是相当密集型的过程,对于中小型的企业也在TB以上的。
在生命科学领域,随着计算能力和基因测序能力逐步增加,美国哈佛医学院个人基因组项目负责人詹森·鲍比就认为,到2015年,将会有5000万人拥有个人基因图谱,而一个基因组序列文件大小约为750MB。
②临床医疗/实验室数据:临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150MB的数据,一个标准的病理图则接近5GB。
如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院累积的数据量,就可达数TB甚至数PB之多。
③费用报销/利用率:患者就医过程中产生的费用信息、报销信息、新农合基金使用情况等。
④健康管理/社交网络:随着移动设备和移动互联网的飞速发展,便携化的生理设备正在普及,如果个体健康信息都能连入互联网,由此产生的数据量不可估量。
2.3 医疗大数据的应用麦肯锡公司(世界级领先的全球管理咨询公司)在其报告中指出,排除体制障碍,大数据分析可以帮助美国医疗服务业一年创造3000亿美元的附件价值,包括医疗服务业5大领域(临床业务、付款/定价、研发、新的商业模式、公众健康)的15项应用:(1)临床操作包括:①比较研究;②临床决策支持系统;③医疗透明度;④远程病人监控;⑤对病人档案的先进分析。
(2)付款/定价包括:①自动化系统;②基于卫生经济学和疗效研究的定价计划。
(3)研发包括:①预测建模;②提高临床试验设计的统计工具和算法;③临床试验数据的分析;④个性化治疗;⑤疾病模式的分析。
(4)新的商业模式包括:①汇总患者的临床记录和医疗保险数据集;②网络平台和社区。
(5)公众服务:改善公众健康监控[3]。
3 医疗大数据面临的挑战3.1 数据的整合对“小数据”而言,最基本、最重要的要求就是减少错误,保障质量,在大数据时代,允许不精确的出现已经成为一个新的亮点,而非缺点[4]。
分散挂接于卫生信息共享平台下的各类医疗卫生机构中,产生了大量的异构数据,使得数据采集、整合变得十分困难,现有平台的数据质量并不理想。
毋庸置疑,对于个人信息来说,每一次的历史诊疗数据都必须准确无误。
但是,只把目光集中在提高数据质量上,忽视那些不精确数据的利用将无法适应这个大数据时代。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
在这种情况下,是否能够忽略数据本身的差错,使我们掌握利用更多的数据。
3.2 数据的存储不断膨胀的医疗信息数据中混杂着大量非结构化数据,分析数据来源日趋多样化,目前的存储架构已经无法满足大数据应用的需要,在处理和查询大数据集时更是力不从心。
第一是容量问题:“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统一定要有相应等级的扩展能力。
除数据规模巨大之外,还拥有庞大的文件数量,因此如何管理文件系统层累积的元数据也是一个难题。
第二是延迟问题:医疗大数据应用存在实时性问题,需对数据进行实时或准实时的处理、秒级的查询需求响应。
在卫生信息化调研过程中,很多医务人员反映调阅数据速度慢,放射科医293生调阅病人CT影像要等待数分钟。
显然,静态的存储方案无法满足数据动态演化所带来的挑战。
第三是并发访问:一旦认识到医疗大数据分析应用的潜在价值,就会将更多数据集纳入系统进行比较,同时让更多的人使用这些数据。
而这些数据则可能存储在多个地点的多种不同类型的存储设备上,并发问题将会日益突出。
3.3 数据的挖掘利用当前区域卫生信息平台数据的利用主要分为直接利用和间接利用两大类。
直接利用包括信息调阅共享、卫生服务智能提示与诊断辅助,还有各类基于信息共享的业务协同服务等。
间接利用主要是根据卫生行政与管理需求,实现的BI 统计,绩效分析等。
而在企业中,已有许多开始深入研究医疗数据的挖掘利用[5],并已经从大数据中找到了与医疗卫生相关的潜在价值,例如:2009 年甲型H1N1 流感爆发的几周前,谷歌公司成功预测动机流感的传播;苹果公司总裁史蒂夫·乔布斯的医生们能够基于他的特定基因组成,按所需效果用药。
可以说,医疗卫生系统人员对于服务器中大量的医疗数据利用度不够,大部分还停留在关注数据的精确性,而非数据关联性的阶段。
卫生管理部分每年都投入大量资金,对数据进行维护管理,但是不断增加的数据、设备为政府带来了沉重负担,这些数据的价值还未真正体现出来。
3.4 数据的安全保护正如纳米科技时代的到来一样,任何一项高新技术的发展在推进社会发展前进的同时,必然会产生一定的负面作用。
医疗数据和应用呈现指数级增长趋势,也给动态数据安全监控和隐私保护带极大的挑战。
媒体曾爆出温州多家医院信息系统遭黑客侵入,医药信息外泄;央视“3·15”晚会曝光了罗维邓白氏公司非法买卖公民个人信息事件。
卫生信息安全现已存在着“内忧外患”,信息泄露事件造成恶劣影响,其背后暴露出的政策衔接不到位、管理监督不严格等问题值得关注和反思。
大数据时代的到来,产生新的安全性问题,例如过去不会有数据混合访问的情况,但大数据的分析需要多类数据相互参考等问题让人更为担忧。
4 思考医疗行业服务于中国13亿民众时必须面对海量医疗健康数据处理需要。
随着国家积极倡导“3521”医疗系统建设,预计在全国会出现上百个医疗数据中心,每个数据中心都将承载近1000万人口的医疗数据,数量多、更新快且类型繁杂。
据估计,中国一个中等城市(1000万人口)50年所积累的医疗数据量就会达到10PB级别[6]。
医疗卫生领域已迎来了自己的“大数据时代”。
在医疗大数据时代萌芽的阶段,对其带来的新问题应予以重视。
上海市闸北区于2010年12月被确定为“卫生部2010年基于电子健康档案、电子病历、门诊统筹管理的基层医疗卫生信息系统试点项目”试点区之一,目前,区域卫生信息共享平台已连接全部区属医疗机构共计19家,现有服务数据共计2.26亿,日均抽取医疗数据20余万,日均接受下推数据4.5万余。
面对快速增长的数据量,闸北区在数据管理、整合、存储、利用等方面进行了思考和研究:4.1 同步变革数据管理方式庞大的数据量在存储上是一个非常严重的问题,除对网络、硬件、软件进行升级以保证数据存储系统的灵活性,使其能够适应各种不同应用类型和数据场景之外,闸北区还在积极探索存储虚拟化技术。