当前位置:文档之家› 大数据分析与处理所面临的挑战—从计算的角度

大数据分析与处理所面临的挑战—从计算的角度

大数据分析与处理所面临的 挑战—从计算的角度
目录
第一部分 第二部分 第三部分 第四部分
大数据与大数据研究 大数据分析与处理对计算科学的挑战 一个实验、两个实例 结语
大数据为什么会热?是炒作还是必然?
大数据从信息载体这一底层,一个更普 适、更本质的的角度,捕捉信息化的共 性基础丶普适技术与未来发展。 (Digitization Datafication)
分布/分散计算模式
分布并行/集中计算模式
网格计算模式 (多管理域、 云计算模式 (单自治域
异地分布、按需聚合的网络 、异地分布、按需聚合
计算环境)
的网格计算模式)
支持计算:有很好的可分解性、松散 藕合的计算任务,如高能物理数据、 基因比对、搜索等;
优势与劣势:解决了大能算的问题, 但效率低是严重挑战!
目录
第一部分 第二部分 第三部分 第四部分
大数据与大数据研究 大数据分析与处理对计算科学的挑战 一个实验、两个实例 结语
计算任务与要求的演变
阶段三
阶段二
要求:大数据分析与挖掘为主
阶段一
要求:大规模数据管 理与处理为主
任务:对分布、非结构化、大规模、异构数据的 实时分析与决策支持。(大数据计算)
要求:科学计算 任务:海量数据的获
搜索引擎
核物理 航天科技 高频交易 斯隆巡天
大规模
Developing scalable &incremental algorithms
实时
Coping with the need for real-time analysis & decision- making
计算环境和编程模型的演变
传统计算:数据能够在自身的计算环境内存贮和集中处理;现代计算:正在 改变这种模式,必须支持大数据计算(特别数据分布在不同物理位置)
计算
Computational
统计
Statistical
人本
Human-centric
大数据带来大价值仅当公共政策、核心 基础、关键技术丶基础设施、人力储备取 得突破之后,我们应该有所作为!
关注什么样的基本问题?
1
公共政策:大数据资源管理与价值链管理
(数据共享、标准、质量、安全、隐私、可用性 ……)
传统并行
单一结构( GPU、MIC )
大分布并行
混合结构( CPU+GPU +MIC)
选用高性能服务器 。采用分布式异构 计算模型,分布式 服务器挂载GPU
现代超 算回归
计算环境和编程模型的演变
既使对同一类型数据,不同的计算任务可以是数据 密集型(如基因数据中的“炎黄计划”任务), 也可 以是计算密集型的(如基因组装,强NP向题)
单机串行
单一结构( CPU);
串行程序设 计;
编程模型的演变
数据规模小 数据类型单一 基于尽可能精确的模型 单台机器处理为主体
处理海量数据 关注数据的获取、存储、
查询及管理 利用廉价存储集群 侧重高I/O、高网络带宽
和高可扩展性
使用迭代计算 重复调用相同数据以拟合复杂
模型(深度学习) 网格计算和云计算方式无法满
足计算密集型需求
大数据技术的发展:(1)由存储管理为主到分析挖掘为主; (2)由数据密集型到数据与计算密集型共存的形态;
采用异构计算 架构 (CPU+GPU)
传统超算 被忽视
为了帮助数据科学家 们提高效率,超算正 在逐渐回归,但我们 仍面临许多挑战…
计算机专家
数据分析专家
单块GPU卡计算 能力有限,我们 有几百万张图片 需要学习
单台服务器最多挂 载四块计算卡,我 们有超过十亿个参 数需要训练
扩展异构计算 模型,单台服 务器挂载多块 GPU
统筹规划、高瞻远瞩
撑技术?)
03 以特定基础设施(如
天河二)支撑发展 (单
一模式风险!)
发挥特色、有所作为
04 聚焦科学问题+突破核心 技术+开展示范应用,支
持大数据科学、技术与产
业的可持续发展
大数据研究与应用的发展趋势?
小数据 (计算密集型)
大数据管理与处理 (数据密集型)
大数据分析与挖掘 (数据-计算密集型)
基本科 学问题
4
2
关键技术:支持大数据高效获取、 存
储、调用与处理的信息技术
(计算机软、硬件基础与技术;大数据处理算法 ……)
3 核心基础:大数据分析与挖掘的统计学与 计算基础 (表示、建模、分析基础、大数据分析与挖掘算法 ……)
应用展示:大数据工程 (结合领域的大数据应用)
(智慧城市(交通、医疗、环境、安全丶政务)丶工业、农业、……)
如何选择大数据研究的组织路线?
必须有国家战略 (应充分把握:大数据的“基础、技术、产业伴生发展”的 独有特征)
01 走 多 学 科 协 作 之 路 (requiring intimate blending, 要解决”统 筹、聚力”问题 )
02 紧密结合领域数据,甚
至应用驱动/产业带动(
公共基础问题,核心支
为主
取、存储、处理及浅
任 务 : 求 解 PDE 、 层分析(统计计算、机
解复杂优化问题 器学习、数据挖掘等)。
Dealing with highly distributed data sources
Working with different formats & structure
分布
非结构
天气预报
视频
文件
记录
歌曲
报告
图片
表格
数据的常见形式
必然对社会、科学、经济、人文的方 方面面产生冲击 (特别是:支持决策 科学化、社会科学方法论、科学第四 范式、形成新的产业形态、改变生活 方式),因而广泛关注是必然的。
大数据价值如何才能显现?
大数据研究并不是某一个领域的专项问 题,而是多学科综合性研究问题。 (Big data research is not the province of any one field, but is a thoroughly interdisciplinary enterprise, NRC )
超算模式 (集中控制丶多点执行丶数据集中)
支持计算:任务不易分解、紧藕合问题 优势与劣势:计算效率高,易解决计算
密集型问题,但数据访问和数据存储存 在瓶颈!
计算环境和编程模型的演变
单台服务器已 经不能应对超 大规模数据分 析任务
单纯CPU计算 效率较低,堆 机器已经不能 满足需求
采用分布式计 算架构 (MpReduce, Spark,…)
相关主题