当前位置:文档之家› InfiniBand高速网络互连技术

InfiniBand高速网络互连技术


1.8 GHz 3.6 Gflop/s 64+64 KB L1 cache 2 MB L2 cache
Total cores:
Total flop/s:
0 1 2
3,600,000,000 7,200,000,000 0
Roadrunner(走鹃)
Part 1: Opteron Blades
LS21 Blade Opteron socket Opteron core Opteron core HyperTransport 6.4+6.4 GB/s Opteron socket Opteron core Opteron core
• K Computer:
– 10.51 Petaflop/s on Linpack – 705024 SPARC64 cores (8 per die; 45 nm) (Fujitsu design) – Tofu interconnect (6-D torus) – 12.7 MegaWatt
• 日本理化研究所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制 • 每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了 10.51PFlops,也就是每秒钟1.051亿亿次浮点计算,这也是人类首次跨越1 亿亿次计算大关。 • 采用的处理器是富士通制造的SPARC64 VIIIfx,八核心,主频2.0GHz,二级 缓存6MB,热设计功耗58W,峰值浮点性能128GFlops。为了获得更高性 能,富士通还在其中加入了一系列高性能集群计算扩展,可以有效管理 其共享二级缓存,并支持SIMD、每核心256位浮点寄存器、高级核心间硬 件同步等等。 • 处理器数量是88128颗,核心数量为705024个,占据864个机柜。这些处 理器通过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起,带宽 5GB/s。同时,“京”的峰值计算性能也达到了11.28PFlops,执行效率为 惊人的93.2%
EIB, 204.8 GB/s SPE core SPE core SPE core
EIB, 204.8 GB/s SPE core SPE core SPE core SPE core
25.6 GB/s 4 GB DDR2 memory
FlexIO, 25.6 GB/s 25 GB/s 4 GB DDR2 memory
– 是一个可以分解和解答线性方程和线性最小平方问 题的Fortran子程序集. – 于20世纪70年代到80年代初为超级计算机而设计 – 测试出的最高性能指标作为衡量机器性能的标准
4
TOP500分析
• • • • • • 中国TOP100总Linpack性能达到11.85 Pflops (2010年6.3PFlops),是2010年的1.88倍; 跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer夺 得,2010年11月TOP500第一名的天河1A降为世界第二,但中国的机器份额首次取 得第二名,仅次于美国; 国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名,Linpack性 能2.57PFlops,峰值4.7PFlops; 国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺 得中国TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威蓝光是我 国历史上首台全国产的千万亿次超级计算机; 国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名,Linpack性 能771.7TFlops,峰值1.34PFlops。 全部机器的Linpack性能超过22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍 大幅提升。 全部系统的峰值超过25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大 幅提升; 排名前三的机器两套是CPU+GPU异构MPP; 97个(2010年98个)系统都是机群架构,机群继续占据主导地位,在前10名里4台是 CPU+GPU体系架构,在TOP100中共有13套CPU+GPU异构机群。

• •
近3年来的TOP5超级计算机系统
2009年 Rank1
美洲虎 Cray XT5-HE
2010年
2011年
NUDT TH-1A 美洲虎 Cray XT5-HE
K computer NUDT TH-1A
Rank2 IBM BladeCenter Rank3 Cray XT5-HE Rank4 IBM蓝色基因 Rank5 NUDT TH-1
神威蓝光拥有四大特点:
• 全部采用国产的CPU • Linpack效率高达74.4%,而一般的千万亿次 机都在50%左右 • 采用液冷技术,节能
• 高密度,在一个机仓(机柜)里可以装入 1024颗CPU,千万亿次规模仅需要9个这样 的机仓。
计算机节点,在1U高的机箱中可以放入4个 CPU板,每个板上可以装两颗16核的CPU。
Roadrunner Architecture
Part 2: Cell Blades
Roadrunner Architecture
Part 3: Nodes(Triblade= 1*Opteron +2*cell)
HT x16 6.4 GB/s HT2100 HT2100 IB 2 GB/s PCIe x8 2 GB/s
ASCI Springschool 2012
Henk Corporaal
(8)
K Computer的互连架构
• 6D-mesh/Tours
No 2:天河-1A,国防科技大学
• 这是超过美国橡树岭国家实验室产品高达40%的系统。达到每秒47 00万亿次的峰值性能和每秒2507万亿次的实测性能。 • 14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU,以及2048颗自主研发的八核飞腾FT-1000处理器 • 天河一号A将大规模并行GPU与多核CPU相结合,在性能、尺寸以及功 耗等方面均取得了巨大进步,是当代异构计算的典型代表。 该系统采 用了7168颗英伟达™(NVIDIA®)Tesla™ M2050 GPU以及14,336颗 CPU。如果单纯只使用CPU的话,要实现同等性能则需要50,000颗以上 的CPU以及两倍的占地面积。 • 更重要的是,如果完全采用CPU打造,可实现2.507 Petaflops(千万亿 次)性能的系统将消耗1200万瓦特的电力。 多亏在异构计算环境中运 用了GPU,天河一号A仅消耗404万瓦特的电力,节能效果高达3倍。 二者之间的功耗之差足够满足5000多户居民一年的电力所需。
InfiniBand高速网络互连技术
清风明月 2012年5月
内容提要
1. 超级计算机系统及其互连结构 2. Infiniband互连网络的体系结构
Lecture 1
3. 在HPC中的典型互连架构及应用 4. IB网络优化技术 5. 未来展望
Lecture 2
内容提要
1. 2. 3. 4. 5. 超级计算机系统及其互连结构 Infiniband互连网络的体系结构 在HPC中的典型互连架构及应用 IB网络优化技术 未来展望
13
TH-1A互连架构
• 超级胖树结构
NO.3 Jaguar美洲虎,2.331Pflops
Cray XT5-HE Opteron Six Core 2.6 GHz,近25万个内核
美洲虎的3D-Torus
CRAY 超级计算机的Roadmap
Future system: 1 EF Cray XT5: 1+ PF Leadership-class system for science
InfiniBand 4X DDR
InfiniBand 2:1 fat tree
BladeCenter
BladeCenter
BladeCenter
BladeCenter
Roadrunner Architecture
Part 4: Scaling Out
Roadrunner Architecture
国际超级计算机500强排名(TOP500)‫‏‬
• 是美国田纳西大学、伯克利 NERSC 实验室和德 国曼海姆大学一些专家为评价世界超级计算机 性能而搞的民间学术活动,每年2次排出世界上 实际运行速度最快的前500台计算机。(6月、11 月)‫‏‬ • 排名的依据是线性代数软件包 Linpack 的实际测 试数据,而峰值浮点运算速度作为参考值列出。 • Linpack基准测试程序
Part 4: Scaling Out
Compute Unit (CU)
Total cores:
7,200
Total flop/s:
Total cores: Total flop/s:
10.7 GB/s 8 GB DDR2 memory
10.7 GB/s 8 GB DDR2 memory
Total cores:
Total flop/s:
2 4
14,400,000,000 7,200,000,000
Roadrunner(走鹃)
Part 1: Opteron Blades
Total cores:
FY 2009
DARPA HPCS: 20 PF Leadership-class system
FY 2011
100–250 PF
FY 2015
FY 2018
美洲虎
NO.4 曙光“星云”, 2.9843Pflops
• Infiniband互连
No14: 神威蓝光:全国产化的超级计算 机问世
• 该机器获得科技部863计划支持,由国家并行计算机工程 技术研究中心制造,于2011年9月安装于国家超算济南中 心,全部采用自主设计生产的CPU(ShenWei processor SW1600),系统共8704个CPU,峰值1.07016PFlops,持续 性能795.9TFlops, Linpack效率74.37%,总功耗1074KW。 • 国家超级计算济南中心是科技部批准成立的全国3个千万 亿次超级计算中心之一,由山东省科学院计算中心负责建 设、管理和运营。 • 是国内首台全部采用国产中央处理器(CPU)和系统软件 构建的千万亿次计算机系统,标志着我国成为继美国、日 本之后第三个能够采用自主CPU构建千万亿次计算机的国 家。
相关主题