当前位置:文档之家› 基于云平台的生物医学大数据中心

基于云平台的生物医学大数据中心

❖ 全球数据每18个月翻一番
仅将2008年的数据印刷成书并整齐排列,其长度 是地球到冥王星距离的10倍!
大数据,大趋势
Money
People
Data
生产资料中首次出现非物质成分:数据 趋势一:资本经济时代 数据经济时代
大数据,大趋势
超过45万台服务器。 分布在全球25个地 方。
拥有20万台服务器。 希望2011年增加到 80万台。
生物大数据中心架构图
聚合
生物大数据服务:访问门户、API、软件工具
服务
生物大 数据分 析应用
生物大 数据注 释服务
生物大 数据可
视化
生物大 数据综 合检索
数据资 源注册 与发布
生物 大数 据云 平台
基础 设施 环境
基于云环境的 生物大数据 存储管理
生物大数据 虚拟计算 环境管理
海量测序原始数据文件,采用 Hadoop集群分布式文件系统对 其进行存储
组学大数据虚拟计算环境管理技术与系统
针对组学大数据虚拟计算 环境管理,构建了层次化 管理模型,提供了组件和 Pipeline设计器(组件集 合)来管理计算流程。
生物大Th数e据C已om经i成ng为o欧f B美ig国D家at发a展Er战a 略
大数据科学与产业具有较强的领域相关性,生物大数据是美国国家大数据计划 的重要组成部分。
“Big Data” Initiative March, 2012
生物大数据已经成为欧美国家发展战略
欧美主导的国际生命科学计划产生的数据和知识成为国家资源
2002 2003 2003
国际人类基因组单体型图 计划(HapMap)
DNA元件百科全书计划 (ENCODE)
人类表观基因组计划 (HEP Project)
2003
GWAS计划
FTP
2006
国际癌基因组计划
2007 2012
千人基因组计划 (1000 Genomes Project)
英国10万人基因组计划 (UK 100K genome project)
我国生物大数据基础和差距
我国需要建立国家级生物大数据技术研发基地
(RI) (CT) (DE)
美国建成覆盖本土的12个区域电子病历数据中心, 9个医疗知识中心,8个医学影像与生物信息数据中心
国际生物大数据中心的现状
基因组
DDBJ/EMBL/GenBank Ensembl/UCSC, TCGA
转录组
GEO/ArrayExpress
蛋白质组
PRIDE/PeptideAtlas
EBI与NCBI 以物理集中管理模式为主
避免网络瓶颈 整合需要 便于管理
国际现状及发展趋势
❖ 高通量生命组学研究技术所产生的各类海量生物信息科学 数据爆炸式涌现;
❖ 离开了海量生物信息科学数据的支撑,生命科学、生物技 术和医学研究已经寸步难行;
基于云平台的生物医学大数据中心
提纲
1 大数据,大趋势 2 生物、医疗大数据 3 欧美生物大数据国家发展战略 4 我国生物大数据基础和差距
5 生物大数据开发与利用 6 生物数据中心建设 7 示例:蛋白质组资源中心
大数据,大趋势
❖全球数据总量 • 2000年 800TB • 2010年 600EB • 2011年 1.8ZB • 2012年 2.7ZB ……. • 2020年 35ZB (IDC)
4 万台服务器分布 在 6 个区域之中
5
5
趋势二:数据及其服务成为国家战略和经济的基础设施
大数据,大趋势
大数据加快了社会变迁、商业活动及科技发展的速度: 一个产业在很短时间内被颠覆(iPod+iTunes对音乐及 随身听产业的颠覆) 一家龙头企业在很短时间内被衰亡(摩托、诺基亚) 科学研究的第四范式(The Forth Paradigm )
功能组 数据
定位组 相互作用 生物过
数据
组数据 程数据
疾病 数据
药物 数据
国家生物数据中心门户
基因组数据 转录组数据
GSA
蛋白质组数据
iProX
其他类型数据 结果展示
统一的认证系统 数据集登记系统 数据集间的关联
数据 库元 信息 系统
搜浏 下 索览 载
实现国产主要的基础科研数据 的提交和收集
公共数据 微生物组数据
知识库 特色组学数据库 数据分析工具 数据可视化工具
心血管疾病和 肿瘤疾病大数 据、区域医疗 与健康大数据, 提供面向医疗 健康的生物大 数据示范应用
生物大数据中心和知识库
基于云环境的组学大数据存储管理技术与系统
将数据类型划分为元数据和原始 生物数据进行管理。
采用负载均衡、查询缓存、事件 驱动响应等技术,满足元数据查 询中高并发、低延时的技术要求。
❖ 生物信息科学数据量的增加和数据性质的日益多元化和复 杂化,要求将散在的数据集中管理,提高数据利用效率;
❖ 国际上生物信息科学数据资源高度集中,主要被西方大国 所“垄断”;
❖ 在当前形势下,我国生物信息数据安全和数据利用效率面 临挑战。
生物信息科学数据共享建设存在的问题
❖ 对生物信息科学数据共享的重要性认识不足 ❖ 缺乏具体的共享政策和相应的管理方法 ❖ 缺乏完善的生物信息科学数据管理的技术体系 ❖ 缺乏系统的生物信息科学数据共享服务体系
生物大数据 云传送 管理
计算资源、存储资源、网络资源

生物大数据和大型知识库数据中心




数 据
营中
维心
护云
体环

境 自





标、
准标
规准
范 体 系
、 规
范 、



QoS






安全
全、
规授
范权
体、

身 份





互联网
生物数据聚合与集成
基因组 数据
转录组 蛋白质组
数据
数据
代谢组 数据
生物数据中心建设的目标
• 针对实现国家生物大数据战略和我国生物数据汇聚管理与 共享利用的重大需求,重点突破组学数据中心和大型组学 数据库与知识库系统关键技术,建立国家生物数据中心, 以及大型组学数据与知识管理及其服务系统。
• 形成以物理集中为主、同时兼顾分布式共享的我国生物数 据管理利用模式。维护国家生物数据主权,提升我国生物 大数据的国际竞争力。
趋势三:大数据的处理与利用能力体现了一个国家的 国力与科技竞争力
生物和医疗领域已成为大数据领域
组学数据
健康数据
医疗数据
生物和医疗领域已成为大数据领域
目前,全球每年新增组学测序数据量达到EB级
2014-1-15: Illumina发 布HiSeq X,测序通量达 到1,800,000,000 Kilobases(1.8 T 碱基)
相关主题