当前位置:
文档之家› 2013-05-05内存计算-大数据的处理机遇与挑战
2013-05-05内存计算-大数据的处理机遇与挑战
新命题。在过去的研究和历史实 能力与数据处理的问题规模之间
践中,人们从体系结构、编程模 的矛盾引起的。大数据所表现出 问题与机遇
型、算法设计、并行处理、存储 的增量速度快、时间局部性低等特
机制等多个方面提出了许多真知 点,客观上加剧了矛盾的演化,使
为大数据处理量身定制一套
灼见。但是,这些体系、策略和 得以计算为中心的传统模式面临 合适的计算架构并非易事。当前
方法并未被认为能够彻底解决今 着内存容量有限、输入 / 输出 (I/O) 国际学术界和工业界主要从系统
天所提出的让大数据“说话”的 压力大、缓存命中率低、数据处 软件、体系结构、分布式系统等
难题。其中重要的原因就在于, 理的总体性能低等诸多挑战,难 方面进行了改进和优化。
大数据在规模、增长、分布、处 以取得性能、能耗与成本的最佳
但是分布式系统带来的一致性问 计这项技术将在 2015 年左右成 市场行为导向、金融市场预测和
题也极大地限制了大数据处理的 熟。人们预计,新型存储介质的 辅 助 智 能 决 策 等 决 策 类 数 据 分
并行性,且不可避免。因此只能 访问性能逐步逼近动态随机存取 析。这类应用以数据为中心,需
通过放松系统的一致性要求提高 存储器 (dynamic random access 要极高的数据传输及处理速率。
系中,从而提升系统整体的处理 探讨。
种由 PCM 和 DRAM 构成的具有
性能。
近几年国内外学 术 界出现 层次结构的混合内存,这种层次
编 程 模 型 新型计算模式 的混合内存结构包括 :
内存分为片上和片下两部分。片
的应用及体系结构的变化直接反
PDRAM[6] 这种混合结构 上 内 存 由 单 独 的 DRAM 构 成,
处理器以及增加 I/O 通道来缓解 memory, FeRAM)、相变存储器 种以新型非易失型存储设备为基
大数据处理带来的挑战。但是这 (phase change memory, PCM) 等 础构建混合内存体系以加速计算
些增加又为体系结构的改进带来 为代表的新兴非易失性随机存储 的模式,称为内存计算。从体系
为内存体系的一部分,如图 1 所 造新的内存体系并不是一个新的 同等地位,无主次之分,对两者
示。传统计算模式中计算仅发生 问题。目前,国内外科研人员在 线性编址,属于线性结构。
在内存中,磁盘中的数据则必须 这一领域的研究工作主要集中在
DRAM Buffer[7] 在 这 种
被载入内存后才可被使用,因此 如何构造混合内存体系结构上。 DRAM+PCM 的 混 合 型 内 存
在系统软件方面,人们主要
理等方面具有更多复杂的特征。 平衡,使得目前的计算机系统无 提出了以内存数据库及编译器优
这 些 复 杂 的 特 征 被 总 结 为 法处理 PB 级以上的大数据。
化等技术来应对大数据处理难
4V 的 挑 战 :规 模 (volume), 数
由于大数据是一种以数据为 题。内存数据库(如 H-store[1])
制,实现标准化、透明化的内存 人们围绕 PCM 和 DRAM 的混合 的 3% 时,两者之间的速度差异
分配、回收和优化机制。在这种 方案开展了很多研究,对何种混 能够得到比较理想的弥补。
模式下,数据可以按照计算所需 合内存体系结构能够更加充分地
层次混合内存 (hierarchi-
要的性能重新分布于异构内存体 利用这两者的特性进行了深入的 cal hybrid memory)[8] 这是一
在纷繁的 NVM 中,PCM 作 速访问的特点,被认为具有良好
可以直接发生在 SCM 上。
为一种新兴的存储设备,凭借其 的发展前景。大容量 PCM 用于
操 作 系 统 在内存计算模 非易失性、非破坏性读、读完无 满足对大内存的容量需求,可以
式下,操作系统不再仅管理有限 须回写、写操作无须先擦除、存 减 少 辅 存 I/O ;快 速 DRAM 作
要求较弱的应用支付了不必要的 有的方案只是改进、优化、缓和 受限的问题,使计算不仅可以在
开销,限制了系统的可扩展性。 或屏蔽了这个瓶颈问题。
DRAM 内存上进行,也可以在新
另外也有从编译方面进行优化
内存和外存之间的 I/O 性能 型非易失型存储设备上进行,这
的,比如 PeriSCOPE[2] 通过数据 不匹配一直是造成数据处理速度 将彻底改变传统的以计算为中心
了成本与能耗的增加。
介质 (non-volatile memory, NVM) 结构上来看,内存计算模式的出
在 分 布 式 系 统 方 面, 人 们 提 出 了 以 MapReduce[3]( 或 Hadoop[4])架构等来解决这一难
技 术 的 发 展, 使 得 传 统 的 内 存 与存储分离的界限逐渐变得模 糊,推进了存储技术的发展,为
系统利用率,比如 :两阶段提交 memory, DRAM),但是其容量和 因此,在内存计算模式中,数据
协议、Paxos 提交协议和分布式 单位价格却将远低于 DRAM。 的存储与传输取代了计算任务成
事务内存。但是,这些优化技术
因 此, 基 于 新 型 存 储 器 件 为新的核心。
41
专栏
第 9 卷 第 4 期 2013 年 4 月
现为大数据处理提供强时效、高 性能、高吞吐的体系结构支持带 来了可能。
题。MapReduce 通 过 提 供 Map 新型的内存与存储体系结构的产
和 Reduce 两个函数处理基于键 生打下了良好的基础。随着存储 内存计算的含义
值 (key-value) 方式存储的数据, 介质访问技术的提升和单位容量
相对于传统计算模式,内存 国内外研究进展
计算模式在架构层面的革新主要
由 PCM 和 DRAM 构成,充分发 挥了 PCM 在读数据和存储数据
表现在 :
大数据时代已经到来,应运 方面低功耗、非易失性和 DRAM
体 系 结 构 在内存计算模 而生的内存计算研究工作正在蓬 在写数据时低功耗及超长的写寿
式中,新型 SCM 器件被设计成 勃展开。基于 SCM 存储设备构 命的特性,PCM 和 DRAM 处于
子性 (atomicity)、一致性 (con- 理的优化都是基于传统的内存 - 优 势 的 前 提 下 大 幅 提 升 内 存 容
sistency)、隔离性 (isolation) 和持 磁盘访问模式,数据处理的关键 量,从而避免传统计算设施上内
久性 (durability),使得对一致性 “数据 I/O 瓶颈”一直存在,现 存 - 磁盘访问模式中的 I/O 能力
数据。人们甚至认为 :数据,这 重在快速增加 ;价值 (value),数 模式,即内存计算模式创造了机
个快速增长的集合,已经上升到 据价值密度低,难以进行预测分 会。它将新型存储级内存 (storage
了与石油一样的同等重要的战 析、运营智能、决策支持等计算; class memory, SCM) 器件设计成
能简单方便地在分布式系统上获 成本的下降,一场围绕存储和内
内存计算是以大数据为中
得很好的可扩展性和容错性。然 存体系结构的变革悄然来临,吸 心,通过对体系结构及编程模型
而 MapReduce 需要从磁盘获取数 引了诸如 IBM、英特尔、美光、 等进行重大革新,最终显著提升
据,再将中间结果数据写回磁盘。 三星等一些 IT 企业的关注和投 数据处理性能的新型计算模式。
磁盘 内存计算
DRAM SCM
模型更加集中于数据的处理。
图1 内存计算模式与传统增加内存模式的区别
42
第 9 卷 第 4 期 2013 年 4 月
片下部分则由 PCM+DRAM 混合 缺陷,产生了理想的性能优化 关键技术与挑战
构成。其中,片上 DRAM 因内 效果。此外,还有许多研究团
置于处理器内部而具有较小的延 队针对 PCM 等新型 SCM 的不
无 论 采 取 何 种 方 案, 其 最 终 目 系 统 构 建 方 面 也 有 长 远 计 划。 在体系结构和操作系统层面如何
的 只 有 一 个 :尽 可 能 同 时 发 挥 IBM 提 出 的 第 五 代 X 架 构 Ex5 实现异构层次内存体系的协同管
的 DRAM 资源,还需要统一管 储密度高等特性,逐渐成为大规 为 PCM 的 缓 冲 区 弥 补 了 PCM
理包括 SCM 在内的多种异构资 模内存系统中颇具潜力的 DRAM 速度上的不足。仿真实验表明, 源,为其提供统一的按位访问机 替代品 [5]。在硬件体系结构方面, DRAM 的容量大致为 PCM 容量
专栏
第 9 卷 第 4 期 2013 年 4 月
内存计算: 大数据处理的机遇与挑战
关键词 :内存计算 大数据
金 海 廖小飞 叶晨成 华中科技大学
学术界和工业界的热门话题 级到千万亿字节 (PB) 级甚至到 以计算为中心的技术难以满足大
只用了 5 年时间就从云计算转到 十万亿亿字节 (ZB) 级别 ;种类 数据的应用需求,因此,整个 IT
据量越来越大,从万亿字节 (TB) 中心的数据密集型技术,现有的 将相关数据加载到内存中,从而
40
第 9 卷 第 4 期 2013 年 4 月
不需要引入磁盘 I/O 的开销。但 仍然面临着 I/O 能力不足的难题。 和传统 DRAM 设计新型混合内
是它提供了 ACID 保证,即 :原
由此可见,目前对大数据处 存体系,可以在保持成本和能耗
作为一种可以显著提升数
迟 ;片下的 DRAM 和 PCM 共用 足之处提出了很多的改进措施, 据处理性能的新计算模式,内存
同一个内存控制器且两者分配线 他们的实验结果也都印证了所 计算模式主要包含如下几个关键
性的物理地址。
提方法的有效性。
科学问题 :异构协同、能耗可