当前位置:文档之家› 看高性能计算系统中常用的几种内部互联网络

看高性能计算系统中常用的几种内部互联网络

看高性能计算系统中常用的几种内部互联网络
在大规模并行计算和机群等高性能计算系统中,处理器之间或计算节点之间的快速互联网络的重要程度并不亚于处理器本身。

在早期的大型计算系统中,处理器之间的通信一直被所采用的互联网络(通常是以太网)延时
大、带宽不足等因素所牵制;如今,Myrinet、QsNet、SCI以及刚刚兴起的Infiniband等多种专用高速互联网络的成功应用,使得这种状况发生很大改观的同时,也使得高性能计算系统内部互联网络的选择成了一门学问。

高性能计算系统的互联方式有很多种,最初的机群系统是基于LAN技术的,也就是以最普通的以太网(Ethernet)作为数据交换媒介。

其优势在于可以方便地增加计算节点到集群系统中,但是其缺点也很多,传输速度较慢,复杂的协议造成非常高的延时,并且限制了扩展性。

各种各样的专用高速互联网络应运而生,最为典型的有Myrinet、QsNet,以及最近几年兴起的Infiniband,它们为集群系统提供了构建高带宽、低延时数据交换环境的可行条件。

广为应用的Myrinet
Myrinet是目前机群系统中应用最为广泛的互联网络。

Myricom公司从1994年就开始销售第一代Myrinet产品,当时只是作为以太网络的第二选择来实现机群系统中的节点互联,除了100MB/s 的高带宽外,它的主要优势是小数据量延时,只有10m~15ms,这与当时Convex、IBM、SGI等公司在并行系统中使用的专有网络的高延迟形成鲜明对比。

此后随着软硬件的不断升级,Myrinet更是成为了机群制造商的第一选择,直到今天这种优势依然存在。

同Infiniband一样,Myrinet使用全双工链路,并且通过远程内存存取(Remote Direct Memory Access,RDMA)对其他主适配器卡(称为Lanai)的远程内存进行读/写操作,这些卡以与之连接的主机PCI-X总线为接口界面。

最新一代的Myrinet使用了光纤作为信号传输通道,这不仅在连接方面有了很大的灵活性,而且也给信号高速传输提供了足够空间。

但同时不可忽略的是,由于光纤电缆和连接器都很“娇气”,很容易在机群节点维护的过程中受损,可靠性方面值得关注。

目前Myrinet已经有8~128口交换机提供。

从Myricom自己提供的最新测试数据来看,使用业界惯用的MPI Ping-Pong测试方法,其带宽为230MB/s,MPI延时为10ms。

快速可靠的QsNet
QsNet是Quadrics公司的产品,该技术的起源可以追溯到早期一家德国公司Meiko,它专门研制称号为CS-1、CS-2的并行计算系统,在当时的CS-2系统中就包括了一种很好的对数网络,在Meiko公司倒闭的时候,这种网络作为单独的产品保留并被一家意大利公司Alenia接手,放置在一个独立的公司Quadrics中运营。

后来由于Digital/Compaq公司选择了QsNet作为其AlphaServer SC 系列高性能计算机的互联网络而一举成功。

不过事实也证明,QsNet是一种快速、可靠的网络系统。

从两年前开始,该技术也逐渐在机群系统中得到应用。

同Infiniband、Myrinet一样,QsNet网络由两个有效部分组成:ELAN卡(相当于Infiniband的主通道适配器或Myrinet的Lanai卡)和Elite交换机(相当于Infiniband 的交换机/路由器或Myrinet 交换机)。

其拓扑结构与大多数Infiniband交换结构很相似,使用的是一种四个一组的胖树型(fat tree)拓扑结构,ELAN卡是与主机系统的PCI-X端口连接。

目前可供机群系统使用的Elite交换机只有两种型号:16口和128口。

同Infiniband一样,QsNet具有RDMA功能,允许读写远程ELAN卡的存储区域,这当然也可以扩展到主机处理器自身的存储区域,因此,从理论上来说,可以把QsNet连接的系统看做一个虚拟共享内存系统。

不过,无论是在大型集成系统还是机群系统上,这都还没有完全实现。

从目前公开用MPI Ping-Pong测试的结果来看,QsNet的带宽约为340MB/s,MPI延时约为5ms。

根据最新消息,Quadrics最新的QsNetⅡ,带宽将超过1GB/s,延时也会小于3ms。

后劲十足的Infiniband
Infiniband是一种非常新的技术,技术规格在2001年6月才最后完成。

但从2002年开始,很多制造商开始提供基于Infiniband标准的产品。

Infiniband可以用于连接多种系统部件。

Infiniband架构由可编程交换机连接通道适配器(Channel Ad ap ters,CA)组成。

CA能够被安置在服务器中(称为主通道适配器,Host Channel Adapers,HCA),或者是转换到存储设备和以太网的I/O转换器中(称为目标通道适配器,Target Channel Adapter,TCA)。

基于Infiniband的远程内存存取(RDMA)功能,消息可以从一个HCA/TCA传递到另一个HCA/TCA,也就是说,允许从一个HCA/TCA读/写另一个HCA/TCA的内存。

另外,交换机可以用不同级别的网络来堆叠。

用于高性能计算机的Infiniband交换机提供了8~128个端口。

互联链路支持三种速度:1x (2.5Gb/s)、4x(10Gb/s)、12x(30Gb/s),这三种链路都是全双工的,可以同时双向传输数据。

该架构通过定义一个子网Subnet,可以高效地扩展到成百上千的节点。

按照惯用的Ping-Pong测试方法,基于Infiniband的机群系统带宽大约是850MB/s,对小数据量的MPI延时小于7ms。

日渐稀少的SCI
SCI(Scalable Coherent Interface)是一种很老的网络互联技术,早期是因为人们在设计基于总线的多处理器系统时遇到局限,一些系统提供商和大学便联合成立工作小组致力于设计消除这些局限的方案。

SCI在1992年10月就已经成为一种IE EE/ANSI标准。

SCI是基于环型结构(ring structure),一个显著特点是能够使处理器与其所连接的高速缓存保持一致,所以,同QsNet一样,用户可以用它实现虚拟共享内存,并已经实实在在地进入应用。

不过,由于从数据结构上来说,SCI所采用的环型结构相比较于胖树型结构具有更大的风险性,因此在目前的机群系统中,SCI应用很少,而且一般仅用做节点间的互联网络。

根据一些测试数据,基于SCI的机群系统用Ping-Pong测试法所得的带宽为320MB/s,对小数据的MPI延时为1~2ms。

需要指出的是,除了本文主要介绍的几种互联网络外,目前Gigabit Ethernet也仍然在一些对延时要求不是很苛刻的应用中采用,其最大理论带宽为125MB/s,交换延时为35m~45ms。

各取所需
如何评价某一种互联网络的好坏呢?通常的考虑因素有几个:延时、带宽、价格、功能支持。

所谓带宽,就是两个节点在进行数据通信时,每秒钟可以传送的最大数据量;数据延时则是指在高性能计算系统中,当某个节点需要向其他节点发送数据时,从其开始发送数据到目的节点开始接收数据所需要的时间。

一般来讲,互联系统的价格与延时成反比,而与带宽成正比。

为了节省费用,应该针对不同的应用配置不同的互联系统。

由于各种应用的需求不同,对于互联方式的延时和带宽的要求也不一样。

有些高性能计算的应用需要每个节点之间非常频繁地交换数据,但每次的数据量并不很大,在设计时就需要使用低延时的互联网络,而对带宽的要求则不高。

反之,有些应用节点之间的数据交换不是非常频繁,但每次交换的数据量非常大,则需要考虑使用高带宽的互联网络,对延时要求则不高。

综合几种互联网络来看,带宽最高的是Infiniband,延时最小的是SCI;而从价格来看,最昂贵的是SCI和QsNet,随后依次是Infiniband、Myrinet、Gigabit Ethernet。

从功能上来说,它们都支持MPI,除Gigabit Ethernet外都实现了高效率的通信协议;SCI和QsNet还提供了共享内存的支持,但是其远程通信延时仍然在ms数量级,对于细粒度的共享内存程序,仍然无法很好地支持(对比SGI Altrix系列的远程访问延时在200ns以下);主要运行粗粒度并行程序的小规模集群系统用户,可以使用千兆以太网进行互联;大规模集群系统中,千兆以太网很可能成为系统瓶颈,宜选取专用高速网络互联。

从将来发展态势来看,Infiniband因其规模效益,可能成为将来的主流互联设备。

相关主题