医疗 大数据(第二版)
部分项目介绍—大数据统一分析平台
业务人员 数 据 定 义 数 据 脚 本
报 表 定 义
DataConf DataScript ReportConf
Data TaskMnr ReportMR DBTool
DB
通用分析框架
D B
Hdfs 数据流 配置流
开放数据分析平台
数据库
Hadoop
部分项目介绍—大数据统一分析平台
一、医疗大数据的背景
二 、医疗大数据的特点
三 、大数据相关技术
四、 大数据项目展示 五、 医疗大数据的价值 六、 医疗大数据平台初步构想
医疗大数据的来源
医疗大数据的特点
大量性 大量性
多样性 多样性 大量性
时序性 大量性
多样性 隐私性 大量性
性 高速性 大量性
性 缺失性 大量性
价值性 大量性
高速性
冗余性 大量性
高速性
一、医疗大数据的背景
二 、医疗大数据的特点
三 、大数据相关技术
四、 大数据项目展示 五、 医疗大数据的价值 六、 医疗大数据平台初步构想
大数据相关技术
适合海量数据处理
灵活的可扩展性
成本的低廉性
故障容灾能力强
大数据相关技术—分布式存储分布式计算
大数据相关技术—Hadoop集群
医疗大数据的背景
计算 单机
集群
横向扩展 块级虚拟化
单机 块存储 存储 文件存储 设备间连接 网络 设备内连接
横向扩展 分布式文件系统
10GE FC IB 10GE SAS IB 分布式数据库 非关系型数据库
数据库
关系型数据库
医疗大数据的背景
时间 部门
2011 2012 2014 2014 2014 2015 2016 卫生部 卫生部 卫技委 卫技委 卫技委 国务院 国务院
一、医疗大数据的背景 二 、医疗大数据的特点 三 、大数据相关技术
四、 大数据项目展示
五、 医疗大数据的价值
六、 医疗大数据平台初步构想
医疗大数据的价值
临床决策支持 医疗管理 健康管理 医疗支付 医药研发
疾病早发现并干预;实现精准医疗;
实现医疗资源的合理配置;帮助医院运营管理;
根据用户个人数据为用户实施个性化的健康管理方案; 基于数据的健康管理降低重病的发生率,减少医疗开支;
政策
《基于电子病历的信息平台建设技术解决方案(1.0版)》 《健康中国2020战略研究报告》 《基于电子病历的医院信息平台技术规范》 《电子病历基本数据集》 《基于居民健康档案的区域卫生信息平台技术规范》 《促进大数据发展行动纲要》 《关于促进和规范健康医疗大数据应用发展的指导意见》
备注:近几年部分政策
上层具体 业务应用
基础医疗服务 个人健康管理
老龄社会
临床决策支持
个体化医疗
肿瘤基因组学
数据分析 数据挖掘
医疗大数据的背景
15000 Admin
Imaging
10000 EMR Email File 5000 Non Clin Img
0
2010 2011 2012 2013 2014 2015
数据量(PB)
数据来源: McKinsey Global Institute Analysis
医疗大数据的背景
大数据相关技术—Hadoop安全体系及监控
安全体系 监控体系
身份认证: Kerberos 身份管理:LDAP 授权访问:服务授 权、文件授权、数 据授权 数据加密
ClouderMan ger Ganglia Eagle …
大数据相关技术—数据收集
Flume :常用于收集非关 Flume :常用于收集非关 系型数据数据,如:各 系型数据数据,如:各 种操作访问服务日志、 种操作访问服务日志、 诊断病历、影像数据等 诊断病历、影像数据等
Mahout:提供了机器学习的算法,包括协同过滤、分类、聚类等, 它将很多机器学习算法转出mapreduce任务运行在分布式集群中, 提升机器学习的性能。
SolrClould或ElastiSearch:分布式搜索引擎,提供对各种类型数据的 分词和检索的功能,用户可以很方便的获得具体特定关键字的各种 结构化、非结构化数据。
医疗+大数据
目录
1 2 医疗大数据的背景 医疗大数据的特点 大数据相关技术 大数据项目展示 医疗大数据的价值
3
4 5
医疗大数据平台的初步构思
一、医疗大数据的背景
二 、医疗大数据的特点 三 、大数据相关技术
四、 大数据项目展示 五、 医疗大数据的价值 六、 医疗大数据平台初步构想
医疗大数据的背景
医疗大数据减少现有支付体系压力;
基于疾病用药等数据建立模型,把控研发过程; 减少人力物力时间的投入,从而减少开支;
一、医疗大数据的背景 二 、医疗大数据的特点 三 、大数据相关技术
四、 大数据项目展示
五、 医疗大数据的价值
六、 医疗大数据平台初步构想
医疗大数据平台初步构想
医疗大数据平台初步构想
一、医疗大数据的背景
二 、医疗大数据的特点 三 、大数据相关技术
四、 大数据项目展示
五、 医疗大数据的价值 六、 医疗大数据平台初步构想
部分项目介绍—云知道检索系统
基于分布式solrCloud集群的实时和离线海量日志检索平台
部分项目介绍—云知道检索系统
部分项目介绍—云知道检索系统
部分项目介绍—大数据集群的优化升级
三地集群,共有500+个服务器,每天执行6000+个的分析任务,集群中部 署了HDFS、MapReduce、Hbase、Spark、Zookeeper、Flume、Oozie等组件
部分项目介绍—大数据集群的优化升级
部分项目介绍—大数据集群的优化升级
部分项目介绍—大数据集群的优化升级
部分项目介绍—大数据集群度量系统
Spark或Storm: 处理实时性高的数据,该类 技术中间数据存储在内存中, 故运算速度快。
MapReduce、Hive或Pig: 处理实时性不是很高的数据,可 采用MapReduce、Hive、Pig批处 理的技术,该技术的中间数据是存 储在物理磁盘,故速度相对较慢。
大数据相关技术—数据推荐与语义分析
Sqoop:常用来在关系型 数据库和非关系型数据 库之间导入导出数据
大数据相关技术—数据存储
HDFS:分布式文件系统, 便于存储各种格式的数 据,具有很高的吞吐量 和备份容灾能力
Hbase:分布式的面向列 存储的数据库,具有较 强的实时性,底层依赖 HDFS文件系统
大数据相关技术—数据分析和挖掘