当前位置：文档之家› 第八章并行处理机和多处理机

第八章并行处理机和多处理机

CU LM0 PE0 LM1 PE1 …… ……
IOP LMn-1 PEn-1
互连网络
2. 共享存储器并行处理机

共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数据，通过灵活、高速的互连网络，使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行，而最少受存储冲突的影响。共享存储器模型的处理单元数目一般不多，几个至几十个。 Burroughs Scientific Processor (BSP)采用了这种结构。 16个PE通过一个16×17的对准互连网络访问17个共享存储器模块。存储器模块数与PE数互质可以实现无冲突并行访问存储器。
第八章并行处理机和多处理机
并行处理机又叫SIMD计算机。它是单一控制部件控制下的多个处理单元构成的阵列，所以又称为阵列处理机。多处理机是由多台独立的处理机组成的系统。
并行处理机结构和实例多处理机结构和实例

并行处理计算机模型并行处理机定义：
多个PU按照一定方式互连，在同一个CU控制下，对各自的数据完成同一条指令规定的操作。从CU看，指令是串行执行的，从PU看，数据是并行处理的。并行处理机也称为阵列处理机。按照佛林分类法，它属于SIMD计算机。并行处理机的应用领域：主要用于高速向量或矩阵运算中。
由 VAX, Sun 或 Symbolics 360主机驱动, PARIS支持的 Lisp 编译器、 Fortran90 、 C* 和 *Lisp 由主机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提供，主机的 Fortran77 或 C; 与 Fortran90 标准有关的Fortran-plus
进一步分析：当2logm < m/2时即m > 16时并行累加比两路线性累加更优。反之，当m < 16 时，两路线性累加更快。其根本原因就是并行累加算法节省了加法时间，但是花费更多的数据传送时间。
算法描述如下: Par： For j=1 to m Do S(j)=A1j*B1j For 2 to [n/m] Do S(j)=S(j)+Aij*Bij Enddo S(j)=S(j)+S(j+1) S(j)=S(j)+S(j+2) S(j)=S(j)+S(j+4) …… S(j)=S(j)+S(j+[n/m]) Enddo

(4) 产生和向所有处理单元广播公共的数据； (5) 接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。 2、输入输出系统 IlliacIV的输入输出系统由磁盘文件系统DFS、 I/O分系统和一台B6700处理机组成。 I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM 三个部分组成。
CU PE0 PE1 …… PEn-1
互连网络
SM0 SM1 IOP …… SMk-1
并行处理机的特点

并行处理机的主要特点如下：速度快，特别适于高速数值计算。 SIMD依靠的是资源重复，而不是时间重叠。它依靠增加PE个数，与流水线处理机主要依靠缩短时钟周期相比，其提高速度的潜力要大得多。依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式，也决定了并行处理机能够适应的算法。需要有一台高性能的标量处理机。如果一台机器的向量处

IlliacIV 是最先采用SIMD结构的并行机随后一个方向是用位片PE制造的并行机，如
Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以 SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算 PE的中粒度SIMD计算机。

并行处理机的两个发展方向：
保留阵列结构，但每个处理单元的规模减小，如一个bit。去掉阵列结构和分布存储器。 Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究用的。 MasPar MP1是中粒度并行处理机的典型代表。
并行处理机的基本结构
两种SIMD计算机的基本结构：
分布存储器并行处理机共享存储器并行处理机一台并行处理机由五个部分组成：多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
1、分布存储器结构

目前的大部分并行处理机是基于分布式存储器模型的系统。比较容易构成MPP（Massively Parallel Processor）,几十万个PE。必须依靠并行算法来提高PE的利用率。因此，应用领域很有限。 CU是控制部件，执行标量指令，并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。 IOP是输入输出处理机，或称为主机。在IOP上安装操作系统，它除了负担输入输出工作外，还负责程序的编辑、编译和调试等工作。数据在局部存储器中的分布是一个很关键的问题。标量指令与向量指令可以并发执行。
65536 个 PE 排成 10 维超立方体 , 每个 Thinking PE 可有 1M 位存储 Machines公器 , 32 个 PE 共享司CM-2 FPU 选件 , 峰值速度28 Gflops和持续速度5.6 Gflops 1K 位 /PE 方形网格 Active 互连成 4096PE 的细 Memory 粒、位片 SIMD 阵 Technology 列，正交 4- 邻位链 DAP600 接， 20GIPS 和系列 560Mflops 峰值性能
理速度极高，但标量处理速度只是每秒一百万次，那么对于标量运算占10％的题目来说，总的有效速度就不过是每秒一千万次。

SIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用，但仍然必须和一台高性能单处理机配合工作，使后者担负系统的全部管理功能。
并行处理机实例
（3）加速比当采用两路线性累加的方法时加速比为：
6 n 2 n S 4 6 3 [ n /2 ]
若m = n，做乘法的时间变为4，则加速比简化为
6 n 2 S 6 [ n /m ] 3 [ m /2 ] 4
当采用递归并行累加时加速比为：
6 n 2 S 6 [ n /m ] m 2 log m 3
下图是H.J.Siegel提出的SIMD计算机的操作模型
控制器
PE0 P0
M0
PE1 P1
M1
PE2 P2
M2 ……
Pen-1 Pn-1
Mn-1
互连网络
H· J· Siegel提出的并行处理机模型
并行处理机的操作模型可用五元组来表示： M＝(N，C，I，M，R), 其中： N为PE个数。如IlliacIV有64个PE。 C为由控制部件CU直接执行的指令集，包括标量指令和程序控制指令。 I为所有PE并行执行的指令集，包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执行的局部操作。 M为屏蔽操作集，每种屏蔽将PE划分为允许操作和禁止操作两个子集。 R是数据寻径集，说明互连网络中PE 间通信所需要的各种设置模式。
PU 57 2 3 4 5 6
P U 63 PU 8
PU0 PU 8 16 24 32 40 48
PU1 PU 9 17 25 33 41 49 PU 57 PU 1
PU 7
PU8
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
典型并行处理机
SIMD计算系统结构和性能语言、编译器和软件支持
系统型号
1024~16384 个 PE, Fortran77, MasPar Fortran 26 GIPS 或 1.3 (MPF) 和 MasPar Gflops; 每个 PE MasPar 带16KB本地存储并行应用语言; X MP-1系列器, X-Net网格加窗口 UNIX/OS, 符号调试程序 , 一个多级交叉开可视化和动画制关互连网作程序
试在含一个 PE的SISD机和在含 m个 PE的且连接成一线性环的SIMD机上计算下列求内积的表达式。
s
A
i 1
n
i
Bi
假定完成每次 ADD 操作需 2 个单元时间，完成每次 MULTIPLY操作需4个单位时间，沿双向环在相邻PE 间移数需1个单位时间。（1）SISD计算机上计算s需多少时间？（2）SIMD计算机上计算s需多少时间？（3）用SIMD机计算s相对于用SISD机计算的加速比是多少？
48
48 BIOM 1 28
CU
模式位线 PE 63 PE 0 64 X 8 PEM 0 C U 总线 PEM 1 PE 1 64 C DB
48 控制线
CDC
PE 0 PE 63
...
D FS PEM 63 2 56 1 02 4 2 56
I/O 总线
IOS
1 02 4
实时装置
PU 56 P U 63
构成的线性环做累加运算。若采用两路7线性累加的方法共用做加法[m/2]次,数据传递[m/2]次，共用时间4 （[n/m]+1）+2[n/m]+3[m/2] = 6[n/m]+ 3[m/2]+4。若用递归累加的方法，假设 m 是 2 的 p 次幂。做 p 次并行的加法，移位1+2+4+ … + m/2 = m-1 次。用时 2p+（m-1）。总共用时为 4 （ [n/m]+1 ） +2[n/m]+2log m + （ m-1 ） = 6[n/m]+ m+2log m +3

e商务文档

第八章并行处理机和多处理机

相关文档推荐：