中科大多核并行计算课件
2013-6-26
5
大规模并行机MPP
成百上千个处理器组成的大规模计算机系统,规模是变化的。 NORMA结构,高带宽低延迟定制互连。 可扩放性:Processors, Memory, Bandwidth, I/O, 平衡设计 系统成本:商用处理器,相对稳定的结构,SMP, 分布 通用性和可用性:不同的应用,PVM, MPI,交互,批处理,互连 对用户透明,单一系统映象,故障 通信要求 MB MB 存储器和I/O能力 P/C P/C 例子:Intel Option Red LM … LM
2
第二章 当代并行机系统
2.1 共享存储多处理机系统
2.1.1 对称多处理机SMP结构特性
2.2 分布存储多计算机系统
2.2.1 大规模并行机MPP结构特性
2.3 机群系统
2.3.1 大规模并行处理系统MPP机群SP2 2.3.2 工作站机群COW
国家高性能计算中心(合肥)
国家高性能计算中心(合肥)
2013-6-26
8
机群型大规模并行机SP2
设计策略:
机群体系结构 标准环境 标准编程模型 系统可用性 精选的单一系统映像
P D MCC P I/O总线 NIC 节点1 E 以太网 P D MCC P I/O总线 NIC S 节点N E
…
系统结构:
IBM SP2, Dawning 1000
NIC NIC
定制网络
国家高性能计算中心(合肥)
2013-6-26
6
典型MPP系统特性比较
MPP模型 Intel/Sandia ASCI Option Red 9072个处理器, 1.8Tflop/s(NSL) 1996年12月 200MHz, 200Mflop/s Pentium Pro 2个处理器,32到 256MB主存,共 享磁盘 分离两维网孔, NORMA 轻量级内核 (LWK) 基于PUMA Portals的MPI Nx,PVM,HPF IBM SP2 SGI/Cray Origin2000 128个处理器, 51Gflop/s(NCSA) 1996年10月 200MHz, 400Mflop/s MIPS R10000 2个处理器,64MB 到256MB分布共享 主存和共享磁盘 胖超立方体网络, CC-NUMA 微内核Cellular IRIX Power C, Power Fortran MPI,PVM 一个大型样机的配置 400个处理器, 100Gflop/s(MHPC C) 1994年9月 67MHz, 267Mflop/s POWER2 1个处理器,64MB 到2GB本地主存, 1GB到14.5GB本地 磁盘 多级网络, NORMA 完全AIX(IBM UNIX) MPI和PVM HPF,Linda
国家高性能计算中心(合肥)
Wisconsin:Wind Tunnel
Chica、Maryl、 Penns:NSCP Argonne:Globus Syracuse:WWVM HKU:Pearl Cluster Virgina:Legion
国家高性能计算中心(合肥)
在经由商用网络互连的工作站机群上实现分布共享存储
国家可扩放机群计划:在通过因特网互连的3个本地机群系 统上进行元计算 在由ATM连接的北美17个站点的WAN上开发元计算平台和 软件 使用因特网和HPCC技术,在世界范围的虚拟机上进行高性 能计算 研究机群在分布式多媒体和金融数字库方面的应用 在国家虚拟计算机设施上开发元计算软件
问题
欠可靠: BUS,OS,SM失效均会造成系统的崩溃 可观的通信延迟(相对于CPU): 竞争会加剧延迟 慢速增加的带宽: MB double/3 year, IOB更慢 不可扩放性(用总线连接)。为此,或改用交叉开关连接,或改用 CC-NUMA,或改用Cluster
国家高性能计算中心(合肥)
D NIC P/C P/C
M
M
MIO LAN D
MIO
问题
通信性能 并行编程环境
NIC
例子:Berkeley NOW,Alpha Farm, FXCOW
国家高性能计算中心(合肥)
2013-6-26
10
典型的机群系统
典型的机群系统特点一览表
名称 Princeton:SHRIMP Karsruhe:Parastation Rice:TreadMarks 系统特点 PC商用组件,通过专用网络接口达到共享虚拟存储,支持 有效通信 用于分布并行处理的有效通信网络和软件开发 软件实现分布共享存储的工作站机群
问世日期 处理器类型
节点体系结构 和数据存储器 互连网络和主存模型 节点操作系统 自然编程机制 其他编程模型
国家高性能计算中心(合肥)
2013-6-26
7
MPP所用的高性能CPU特性比较
属性 工艺 晶体管数 时钟频率 电压 功率 字长 I/O 高速缓存 2级 高速缓存 执行单元 超标量 流水线深 度 SPECint 92 SPECfp 92 SPECint 95 SPECfp 95 其它特性 Pentium Pro BiCMOS 5.5M/15.5M 150MHz 2.9V 20W 32位 8KB/8KB 256KB (多芯片模块 5个单元 ) 3路(Way) 14级 366 283 8.09 6.70 CISC/RISC 混合 PowerPC 602 CMOS 7M 133MHz 3.3V 30W 64位 32KB/32KB 1~128MB (片外) 6个单元 4路 4~8级 225 300 225 300 短流水线长 L1高速缓存 Alpha 21164A CMOS 9.6M 417MHz 2.2V 20W 64位 8KB/8KB 96KB (片上) 4个单元 4路 7~9级 >500 >750 >11 >17 最高时钟频 率最大片上 2级高速缓 存 Ultra SPARC II CMOS 5.4M 200MHz 2.5V 28W 64位 16KB/16KB 16MB (片外) 9个单元 4路 9级 350 550 N/A N/A 多媒体和图 形指令 MIPS R10000 CMOS 6.8M 200MHz 3.3V 30W 64位 32KB/32K B 16MB (片外) 5个单元 4路 5~7级 300 600 7.4 15 MP机群总 线可支持4 个CPU
高性能开关 HPS 多级Ω网络 宽节点、窄节点和窄节点1
高性能开关 ,Omega 网络
国家高性能计算中心(合肥)
2013-6-26
9
工作站机群COW
分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计 算机,有自己的磁盘和操作系统,而MPP中只有微内核 优点:
投资风险小 系统结构灵活 性能/价格比高 能充分利用分散的计算资源 可扩放性好
2013-6-26
3
对称多处理机SMP(1)
SMP: 采用商用微处理器,通常有片上和片外Cache,基于总线连 接,集中式共享存储,UMA结构
例子:SGI Power Challenge, DEC Alpha Server,Dawning 1
P/C P/C
…
SM
2013-6-26
P/C
总线或交叉开关 SM I/O
Multicore Parallel Computing主讲人 徐 云并行计算
并行计算——结构•算法•编程
第一篇 并行计算的基础
第一章 并行计算机系统及其结构模型 第二章 当代并行机系统:SMP、MPP和Cluster 第三章 并行计算性能评测
国家高性能计算中心(合肥)
2013-6-26
国家高性能计算中心(合肥)
4
对称多处理机SMP(2)
优点
对称性: 任何处理器均可访问任何存储单元和I/O设备 单地址空间: 易编程性,动态负载平衡,无需显示数据分配 高速缓存及其一致性: 支持数据的局部性,数据一致性由硬件维持 低通信延迟: 可由简单的Load/Store指令完成
2013-6-26 11
SMP\MPP\机群比较
系统特征 节点数量(N) 节点复杂度 节点间通信 节点操作系统 支持单一系统映像 地址空间 作业调度 网络协议 可用性 性能/价格比 互连网络 SMP O(10) 中粒度或细粒度 共享存储器 1 永远 单一 单一运行队列 非标准 通常较低 一般 总线/交叉开关 2013-6-26 MPP O(100)-O(1000) 细粒度或中粒度 消息传递 或共享变量(有DSM时) N(微内核) 和1个主机OS(单一) 部分 多或单一(有DSM时) 主机上单一运行队列 非标准 低到中 一般 定制 机群 O(100) 中粒度或粗粒度 消息传递 N (希望为同构) 希望 多个 协作多队列 标准或非标准 高可用或容错 高 商用 12