当前位置:
文档之家› 科学大数据——科技创新的机遇和挑战
科学大数据——科技创新的机遇和挑战
特点
开放程度高
与其它类型大数据相比,更为明显
资源特性明显
重复、非排它性使用 价值体现在使用中
面临的主要问题和挑战
技术上的挑战
长距离数据传输的速度VS.成本
移动数据还是移动计算?
低成本、高可扩展性的存储架构
数据的长期保存是一个永恒的问题
适合科学数据的数据管理模型
SCIDB是一次有意义的探索
科学大数据 ——科技创新的机遇和挑战
黎建辉(lijh@)
中国科学院计算机网络信息中心 CODATA中国全国委员会
大数据应用服务技术北京市工程实验室 2016.1.8
认识自然和社会的手段发生了根本性的改变
无所不在的传感器和物联 网让我们可以准确感知自 然界
汇聚人们访问互联网和移
动互联网的行为数据,可
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
基于样本的社会学研究:
数据源
全英32482个行政区 6500万人口通话信息
结论
研究发现,电话联系人 多样性越强的行政区, 其经济社会发展水平也 越高,从一个侧面证明 了社会资本等价于经济 资本(Science 2010)
局部性
样本数也许<50% 随机抽样 异常数据预处理
整体性
样本数也许>95% 随机性不重要 允许存在误差
• 挑战
– 数据资源获取能力 – 存储/计算能力
高维度和高度相关性
数据表征复杂的自然科学现象与关系,而这些自然现象或科学过程的外部表征一般具 有高度数据相关性和多重数据属性
计算和处理高度复杂性
复杂系统+复杂模型+复杂数据
不确定性与动态性
对自然过程的感知和科学实验获取的数据,决定了科学大数据普遍具有一定的误差和 不完备性
随着传感器、实验方法和手段等的动态演进,数据的格式和内容均呈现出动态变化的
科研范式的发展历程
科学大数据新模式
假说驱动 的方法
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
基于样本的医学研究:丹 麦学者研究手机和癌症的 关系
数据源
覆盖丹麦1990-2007年几乎所 有癌症患者和移动的数据
358403位手机用户 10729名中枢神经系统肿瘤
“长尾”科学产生小型但数量众多的数据集合,关 键是如何释放这些数据集合的潜力,降低访问和重 用它们的门槛。
中国科学院“科学数据库”长期以来就主力解决这 些数据集的管理和共享问题,目前已整合超过500 个数据库,近300TB数据。
科学大数据的基本特征
来源广泛,类型复杂
观测型数据、实验型数据、调查统计型数据、模拟计算型数据、社会网络型等 数值、文本、图形、图像、影像等 表格(自由表格、结构化表格)、文件(标准格式文件、自由格式文件)等
以感知人类社会行为
高效实现人机物三元世界中的
基于对自然和社会的感知, 社会资源(人)、
一个庞大数字化数据空间 也出现——数据界?
信息资源(机)、 物理资源(物)、 的深度融合和综合利用,
提供普惠社会的智能服务。
云、物、移、大、智
ቤተ መጻሕፍቲ ባይዱ
1609年,第谷布拉赫(Tycho Brache) 的助手约翰尼斯开普勒(Johannes Kepler)从第谷布拉赫对天体运动的系 数观察记录中发现了行星运动定律,并 发表了伟大著作《新天文学》。
这是在对所采集并仔细保存的实验数 据进行挖掘和分析的基础上建立的伟大 理论。
第谷布拉赫
“The Fourth Paradigm Data-Intensive Scientific Discovery” Microsoft Research
约翰尼斯开普勒
CERN大型强子对撞机LHC
Higgs, 超对称粒子, 暗物质, ……
适合科学大数据处理的并行架构
MapReduce+Hadoop架构在科学数据处理上,似乎满足不了大数据处理的需求
基础设施挑战
易使用、开放和可扩展的公共基础设施 以云服务的方式来提供使用
政策与法律的挑战
数据开放和共享VS.科研人员个人利益VS.国家安全和利益
人才挑战
对交叉人才(尤其是数据工程师和数据科学家)极其缺乏
QuikScat
SORCE
Envisat IKONOS
SeaWiFS SeaWinds
SPOT 4, 5 Orbview 2, 3
ERBS
Radarsat
Grace
QuickBird UARS
ALOS Jason
Aura/Aqua/Terra
Sage
CBERS
SPIN-2
EROS A1
DMC
TRMM ACRIMSAT
Toms-EP
Landsat 7
天文观测大数据
Data challenges of time domain astronomy (Graham et al. 2012)
“长尾”数据同样不容小觑
化学、材料、生物、生态环境等传统的学科,有成 千上万个普通实验室在进行着研究,产生大量分散 的数据集,虽然每个数据集合在规模上并不大(一 般不会超过1TB),但这种小数据集合数量众多且 异构性强,它们汇聚后的规模和复杂性都不容小觑。
特征一:基于全样本的研究模式
基于样本的癌症研究: 国际肿瘤基因组计划
2010年4月,Nature发 表关于国际肿瘤基因组 计划的专题报道
对所有100种癌症的基 因组测序,并汇出肿瘤 基因图谱,以逐一解开 所有癌症的基因密码, 提供个性化治疗方案
Source:Nature 464, 993-998 (15 April 2010)
Source:Nathan, et al. Network Diversity and Economic Development. Science 2010, Vol. 328 no. 5981 pp. 1029-1031 .
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
特点
患者
结论
使用手机的人并不具有更高 的罹患大脑或神经系统癌症 的风险(BMJ 2011)
引自:黄向阳研究员第507次香山会议报告
Source: Use of mobile phones and risk of brain tumours: update of Danish cohort study, BMJ 2011;343:d6387