当前位置:
文档之家› 基于云计算的医疗大数据挖掘平台
基于云计算的医疗大数据挖掘平台
的美国国家医疗保健的支出。近年来,在卫生部的
领导下和国家财政支出的支持下,绝大多数的三甲 医院和部分二级医院已经先后建立了先进的数字化
信息系统和电子健康档案系统。但至今为止,大部
分系统和数据仍然只限于内部使用。卫生部“十二
.8.
万方数据
式数据挖掘,基于网格计算的多种算法,分布在多 个节点上的方式。第5代是目前基于云计算的分布 式并行数据挖掘与服务的模式,同一个算法可以分 布在多个节点上,多个算法之间是并行的,多个节 点的计算资源实行按需分配,而且分布式计算模型 采用云计算模式,数据用DFs或者HBASE,编程 模式采用Map/reduce方式。 3_2基于云计算的分布式数据挖掘架构 分布式计算/并行计算(尤其是低成本的计算) 是解决海量数据挖掘任务的有效手段。云计算是并 行计算、分布式计算和网格计算等计算机科学概念 的商业实现,它可以将计算任务分布在大量互连的 计算机上,使各种应用系统能够根据需要获取计算 资源、存储资源和其他服务资源。按照中国电子学 会云计算专家委员会的学术定义,云计算是一种基 于互联网的、大众参与的计算模式,其计算资源 (包括计算能力、存储能力、交互能力等)是动态、 可伸缩、被虚拟化的,并以服务的方式提供。图l 为基于云计算的分布数据挖掘架构,自下而上分 为:云计算环境层(包括分布式文件系统、并行编 程环境、分布式系统管理)、数据采集层(从各个 数据源并行采集数据)、数据清洗层(包括数据约 束检查、冗余处理、抽取转换及加载等)以及并行 分析层(主要包括维度定义、关联规则定义、并行 算法及报表中心等)。
有效的数据挖掘方法从大量的生物数据中挖掘有价值
的知识,提供决策支持。目前已有大量研究者努力对 DNA数据分析进行定量研究,从已经存在的基因数 据库中得到导致各种疾病的特定基因序列模式。一些 DNA分析研究的成果已经得到许多疾病和残疾基因, 以及新药物、新方法的发现‘2 J。 4.5公众健康
Hive、HBase、zooKeeper、Sqoop等)构建了1个
临床决策支持系统
大数据分析技术将使临床决策支持系统更智 能,这得益于对非结构化数据分析能力的日益加 强。例如可以使用图像分析和识别技术,识别医疗 影像数据,或者挖掘医疗文献数据建立医疗专家数 据库,从而给医生提出诊疗建议。此外,临床决策 支持系统还可以使医疗流程中大部分的工作流向护 理人员和助理医生,使医生从耗时过长的简单咨询 工作中解脱出来,从而提高诊疗效率。 4.2医疗数据透明度 根据医疗服务提供方设置的操作和绩效数据 集,可以进行数据分析并创建可视化的流程图和仪 表盘,促进信息透明。流程图的目标是识别和分析 临床变异和医疗废物的来源,然后优化流程。仅仅 发布成本、质量和绩效数据,即使没有与之相应的 物质奖励,往往也可以促进绩效的提高,使医疗服 务机构提供更好的服务,从而更有竞争力。公开发 布医疗质量和绩效数据还可以帮助病人做出更明智 的健康护理决定,这也将帮助医疗服务提供方提高 总体绩效,从而更具竞争力。 4.3医学图像挖掘
指导决策。数据挖掘主要涉及特征化、区分、关联 或相关分析、分类、聚类、演变分析等,在互联网 应用、电子商务、电信、金融、医疗、交通、军
事、科学研究等多领域的决策分析中被广泛应用。
3.1.2
发展阶段第1代是单独算法、单个系统、
单个机器,采用的是向量数据。这些算法设计用于
数据向量挖掘,其数据一般一次性调进内存进行处
的分析会为美国产生3 000亿美元的价值,减少8%
schema)和数据查询语言增加系统的灵活性。第3 代是与预测模型相集成,支持web数据、半结构化
的数据,使得由数据挖掘软件产生的模型的变化能 够及时反映到语言模型系统中,由数据挖掘软件产 生的语言模型能够自动地被操作型系统吸收,从而 与操作型系统中的语言模型相联合提供决策支持的 功能。它能够挖掘网络环境下(IntemeL/Extranet) 的分布式和高度异质的数据,并且能够有效地和操 作型系统集成,是一种网络化计算。第4代是分布
囟圈
图1
医学图像(如CT、MIu、PET等)是利用人体 内不同器官和组织对X射线、超声波、光线等的散 射、透射、反射和吸收的不同特性而形成的。它为 对人体骨骼、内脏器官疾病和损伤进行诊断、定位 提供了有效的手段。医学领域中越来越多地使用图 像作为疾病诊断的工具。
・9・
基于云计算的分布式数据挖掘平台架构
合管理5项业务应用,建设健康档案和电子病历2 个基础数据库和1个专用网络建设。由此可看出, 今后的几年,随着云计算技术的成熟和实用化,大
规模区域医疗信息系统和大型数据中心的建立将逐 步展开。
据。所谓的“大数据”并不只是数量上的“大”。 简单套用一下大数据的4V(Volume,Velocity,Va. riety,Value)定义: (1)更大的容量(Volume):
疗行业的大数据分析及挖掘提供新思路。 [关键词]
Medicm
云计算;大数据;数据挖掘 Hatfb珊Based
Data
Mining
on
Cloud
C伽叩uting
GA0月hn—so凡g,删0£ing,XU
De一训ei,sAⅣG而一q讯,阢l^nn
胁seorc^hL旷胍拈&死^∞船,耽如n
[Abstract]The
[Keywords]
cloud computing;Big data;Data mining
PB级的结构化和非结构化数据。
1
1.1
引言
大数据
1.2云计算
目前,云计算已经普及并成为IT行业的主流技 术,其实质是在计算量越来越大、数据越来越多、 越来越动态、越来越实时的需求背景下催生出来的
一种基础架构和商业模式。大数据的出现,正在引 发全球范围内深刻的技术与商业变革。微软公司全
[修回日期] [作者简介] [基金项目】
2013—04—25
球资深副总裁、亚太研发集团主席张亚勤博士认为 “云计算和大数据是一个硬币的两面,云计算是大 数据的IT基础,而大数据是云计算的一个杀手级应 用”。云计算是大数据成长的驱动力,而另一方面,
由于数据越来越多,就更加需要云计算去处理,所 以二者是相辅相成的。随着医疗和健康数据的急剧 扩容和几何级的增长,如何充分利用包括影像数
the paper including fundamental mining in medical industry.
layer,pladb瑚layer,
function layer and business layer for pmViding new ideas for b培data aJlalysis aJld
云计算领域中的M印R“uce,Hadoop等高扩展 性、高性能的并行计算编程模型、分布式海量数据
万方数据
医堂焦,叟堂丞麦至Q!墨箜墓丝鲞噩墨翘
!Q堕呈丛丛Q!丛!Q!垡叁!丛堕幽堡至Q!墨:塑!:塑:丛Q:墨
式文件系统)移出Nutch形成开源搜索项目Lu. cenel个子项目:Hadoop;2008年Hadoop成为A—
代是与数据库相结合,支持数据库和数据仓库,支
持多个算法,其具有高性能的接口,具有较高的可 扩展性。能够挖掘大数据集以及更复杂的数据集和 高维数据,通过支持数据挖掘模式(Data
Mining
生很高的经济价值。按照世界经济论坛的说法,大 数据是新财富,价值堪比石油。麦肯锡公司认为, 大数据就是生产资料。一份报告显示,医疗大数据
必多说,它不仅与我们个人生活息息相关,更可用 于国家乃至全球的疾病防控、新药研发和顽疾攻
克。 2.2大数据的应用 邬贺铨…认为,大数据的应用首当其冲的就是 智慧医疗,具体可应用在临床诊断、远程监控、药 品研发、防止医疗诈骗等方面。大数据的应用可产
理,多用于商业系统,这种系统并不能适应大容量 数据的操作,如果数据足够大,并且频繁变化,就 需要利用数据库或者数据仓库技术进行管理。第2
医堂信皇堂盘查至Q!墨笙蓥塑鲞墓墨翘
!Q堕垦丛丛Q!丛!Q!坠!!丛堕垦丛鲤鱼至Q!墨:塑!:塑:丛Q:墨
基于云计算的医疗大数据挖掘平台
高汉松
肖
凌许德玮
桑梓勤
(武汉邮电科学研究院武汉430074) 介绍大数据时代医疗行业数据挖掘面临的挑战,结合云计算提出一种基于Hado叩生态环境搭建
[摘要]
的医疗云数据挖掘平台架构,详细阐述其各层功能,包括基础层、平台层、功能层以及业务层,以期为医
paper
430D刀,吼iM
b远data,and
pmposes
a
intmduces the chauenge of data mining of medical industry in the age of
onΒιβλιοθήκη platfb肌ofmedical data mining based
Had00p ecosystem with the technolog)r of cloud computing.The detajled function layer is also described in
!Q堕呈丛丛Q!丛!旦!垦丛!丛EQ罡丛笪!箜至Q堡:塑!:塑:丛Q:墨 五”卫生信息化建设工程规划中,初步确定了我国
卫生信息化建设路线图,简称“3521工程”,即建 设国家级、省级和地市级三级卫生信息平台,加强 公共卫生、医疗服务、新农合、基本药物制度、综
2
2.1
医疗行业的大数据
4V定义 区域医疗信息系统中的医疗数据是典型的大数
Hadoop生态圈,见图2。
MRUnit Avm
Pig Hjvo
MahfHlt
Bigmp
Whirr HCalalng
n }
》
暑
N r
j
'
^ 毛。
》
舅
= ∞ Man RPduc。
o
叠
星
o