医疗大数据及相关技术
– 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
MapReduce 分布式数据处理架构
DA TA
输入
计算 (IOE 架构)
输出
结果
传统方式
分组 X86 服务器
聚合 X86 服务器
HDFS 分布式文件系统架构
Hadoop 集群
HBase NoSQL数据库
“大数据”带来数据分析能力的质变性增强,不 仅是传统BI领域 ,也为新商业机会和新商业模 式提供了更大的创新空间;
“大数据”是“以数据为中心”,这不仅是技术 需要,也是管理需要;存储、计算、分析合一 的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据, 而在于对数据中蕴含信息价值的巨大掌控和应
通过非常快速(velocity)的 采集、发现和分析; 在大量化 (volumes)、 多类别(varie t分y)析的的数数据据中越提全取面价,值分(析v的alu结e)
果就越接近于真实
能够从这些数据中获取新的洞 察力,并将其与已知业务的各 个环节相融合
大数据带来哪些技术变革-技术驱
动
计算
单机
集群
大数据是淘炼黄金而不是制造用能更力;多使的企业石更好头认识数据中所蕴含的巨大 信息价值,影响和改变企业决策依据与过程和 生产业务的开展过程
“Big Data is nothing without Big Analysis”
大数据要解决的问题
Streams Real time Near time
Batch
谷歌每小时处理的数据为1拍
传统数据 vs. 大数据
传统数据处理技术面临的挑战
——传统的IOE模式已经不能满足PB级海量数据的存储、 分析和应用需求
小型机+DWH+SAN成本高企、扩容昂无贵法满足海量数据的离线分析 和实时分析
无法满足对非结构化数据的快速处理要S求cale-Up已到极限,必须支持Scale-Out
交易量3000+万笔/ 天
1PB/S
CERN:核爆产生数据 的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在 时刻的分享信息量
当前 典型 大数 据的 处理 量
数据量的表达单位
单位
英语标 识
大小
例子
位
Bit 1或0 一个二进制数位:0或1
字节 Byte 8Bit 一个英文字母:8Bit
单芯片容纳晶体管的增加,对 制造工艺提出要求
CPU制造18nm技术,电子泄 漏问题
CPU主频已达3GHz时代,难 以继续提高 散热问题(发热太大, 且难以驱散) 功耗太高
并发计3;PB
24亿网民1天产生的数 据
63% GAGR
非结构化数据增长率
30+TB
数据 扩展 性需 求和 硬件 性能 之间 存在 差距
传统框架:小型机+磁阵+商用数据仓库
海量数据的高存 储成本
数据批量处理性 能不足
流式数据处理缺 失
有限的扩展能力 单一数据源 数据资产对外增
大数据处于成长阶段,即将广泛 商用
大数据是对数据更大的掌控和应 用能力
“大数据”是数据存储、管理、处理和分析的技 术和解决方案
存储 网络 数据库
单块机存 储 文件 存储
设备间 连接
设备内 连接
关系型数 据库
横向扩展 块级虚拟 横向化扩展 分布式文 件系统 10GE FC IB
10GE SAS IB
分布式数 据库
非关系型
大数据的基本技术
MapReduc e
HBase
HDFS
Strea ming
– 分布式文件系统HDFS(hadoop Distributed File System)
来源:《互联网进化论》
大数据是对海量数
据的高效处理。
云计算是硬件资源
的虚云拟计化算处,理是分析大数
据分析的支撑平台。
产生海量
物联 网
数据移动
互联 网
传统 互联 网
数据处理技术的变化:满足数据
的多样化
需求
技术
描述
海量非结构 化、结构化 数据存储 结构化数据 处理
Hadoop Map Reduce
Data Warehouse
Velocity 快速的数据流转
Value
Structured Unstructured Semi-structured All the above
Variety 多样的数据类型
TB PB EB
Volume 海量的数据规模
巨大的数据价值
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
大数据与云计算、物联网、互联 网之间的关系
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
Colu Ro mns ws
www.bitren.c om
……
www.google.c om
“con”
“<html></ html>”
医疗大数据及相关技术介
绍
翟运开 博士/副教授 河南省数字医疗工程技术研究中心 副
主任 数字化远程医疗服务河南省工程实验室
副主任 郑州大学第一附属医院 河南省远程医
学中心 主任 中国卫生信息学会远程医疗信息化专业
目录
大数据简介 大数据相关技术 大数据挖掘 大数据平台
摩尔定律,正在走向终结
摩尔定律:集成电路芯片上 所集成的电路的数目,每隔 18个月就翻一番,同时性能 也提升一倍
“<html></ html>” “<html></ht ml>”
t
3
t
2 timestamp ts
1
Column Family
分布式文件系统 数据仓库
实时数据处理 非结构数据分析 各类信息整合
Streaming Data
Text Analytics Engine
Visual Data Modeling
ETL, Data Quality
流计算引擎
文本内容分词与 分析 信息整合、元数 据
大数据技术
成本可承受(economically) 的情况下
千字节 KB
1024B yte
一页纸上的文字:5KB
兆字节 MB
1024K B
一首普通MP3的歌曲:4MB
吉字节 GB
1024M B
一部电影:1GB
太字节 TB
1024G B
美国国会图书馆所有登记印刷版书本 的消息:15TB
2011年底,其网络备份的数据量为 280太字节
拍字节 PB
1024T B
美国邮政局一年处理的信件大约为5 拍