计算机系统结构期末考试论文学院信息工程学院专业信息管理与信息系统班级123本学号**************姓名杜伟计算机系统结构中多处理机技术杜伟信息工程学院信息管理系统摘要:多处理机通过共享的主存或输入/输出子系统或高速通信网络进行通信。
利用多台处理机进行多任务处理,协同求解一个大而复杂的问题来提高速度,或者依靠冗余的处理机及其重组能力来提高系统的可靠性、适应性和可用行。
该文介绍了微处理器的发展、多处理机的总线以及处理机系统中通信和存储技术的发展和两种特殊的多处理机系统结构。
关键词:多处理机;体系结构;总线Communicate via shared memory multiprocessor or input / output subsystem or high-speed communication network. Using multiple processors perform multitasking, cooperative solving a large and complex problem to improve the speed, or rely on redundant processor and reorganization to improve the system reliability, adaptability and availability. This paper introduces the development of communication and storage technology development of microprocessor, multiprocessor bus and processor system and two special multiprocessor architecture.Keywords: multiprocessor architecture; bus;引言:微电子技术和封装技术的进步,使得高性能的VLSI 微处理器得以大批量生产,性能价格比不断合理,这为并行多处理机的发展奠定了重要的物质基础。
计算机系统性能增长的根本因素有两个:一是微电子技术,另一个是计算机体系结构技术。
五十年代以来,人们先后采用了先行控制技术、流水线技术、增加功能部件甚至多机技术、存储寻址和管理能力的扩充、功能分布的强化、各种互联网络的拓扑结构以及支持多道、多任务的软件技术等一系列并行处理技术,提高计算机处理速度,增强系统性能。
多处理机体系结构是计算机体系结构发展中的一个重要内容,已成为并行计算机发展中人们最关注的结构。
1 微处理器的发展20 世纪80 年代中期,RISC 精简指令集计算机,用20%指令的组合实现了CISC 计算机指令系统不常用的80%指令的功能。
在提高性能方面,RISC 采用了超级流水线、超级标量、超长指令字并行处理结构;多级指令Cache;编译优化等技术,充分利用RISC 的内部资源,发挥其内部操作的并行性,从而提高流水线的执行效率。
20 世纪80 年代后期,RISC 处理机的性能指标几乎以每年翻一番的速度发展,它对于提高计算机系统的性能和应用水平起着巨大的作用。
目前,由Intel 和HP 两家公司联合开发的基于IA—64 架构的Merced 芯片,并由其共同定义的显式并行指令计算技术EPIC(Explicitly Parallel Instruction Computing ),将为微处理器技术的发展带来突破性进展。
EPIC 技术主要指编译器在微处理器执行指令之前就对整个程序的代码作出优化安排,编译器分析指令间的依赖关系,将没有依赖关系的指令(最多 3 个)组成一“组”,由Merced内置的执行单元读入被分成组的指令群并执行。
从理论上讲,EPIC 可以并行执行3 倍于执行单元数的指令。
64 位体系结构的Merced 芯片还采用了指令预测、数据预装等技术,可以显著地减少实际执行程序的长度,同时增强语句执行的并行性,经过代码的重组,程序的执行时间比基于传统体系结构的微处理器几乎减少了一半;更加不同凡响的是,可以消除分支预测错误的三分之二。
IA—64 微处理器具有128 个通用寄存器以及128 个浮点寄存器,而目前基于RISC 的微处理器通常只有32 个寄存器。
它还具有更为丰富的与大量寄存器相连的附属功能部件,使得其应用更为广泛,同时内部各功能部件之间的可伸缩性扩展了机器的“宽度”,提高了系统的性能。
容量更大的Cache 以及更多的读写端口,使得基于IA—64 微处理器的速度不再受到存储延迟的限制。
EPIC 设计的Merced 芯片可并行处理十几个运算,而当今最优秀的芯片也只能并行处理4 个运算操作。
EPIC 芯片用并行方式执行任务而不用顺序执行,这将使其速度比现在的CISC 和RISC 芯片至少快两倍。
只有0.18 微米微小距离的迹线间宽度也使芯片时钟能够达到900MHZ。
使用EPIC 设计的Merced 是第一个被分为三部分的芯片:一部分运行CISC,另一部分运行RISC,第三部分运行EPIC。
把三种体系结合于一块芯片意味着现存的应用程序将仍然可以运行在基于新芯片的服务器上。
2 多处理机的总线目前,在多处理机系统中有两种主要的连接方式:一种是共享存贮器的的多处理机系统,另一种是消息传递的分布式多处理机系统。
由于专用信号处理系统一般要求结构紧凑,在满足实时性要求的前提下,对系统资源的利用率要求放在比较次要的位置上,故其操作系统简单实用,不具备消息传递的多处理机系统中的复杂的消息寻径能力;另外,由于信号处理场合的大计算量要求,系统内处理机比较多,单纯的共享总线结构效率不高。
因此,共享总线结构和分布式结构相结合是一种发展趋势。
大多数多处理机系统的互连结构可归结为共享总线系统结构,共享总线系统结构为传统多处理系统的互连形式,由于没有通信口,处理机之间交换数据必须通过共享存贮器,其处理效率随着处理机数目增加而下降。
3 通信的发展由于通信通常在芯片的外部实现,其速度远低于芯片内部的计算速度,因而通信往往成为并行多处理机系统发展的瓶颈。
通信网络中,总线结构最简单,节点机数目较大时,总线上的通信趋于饱和,成为并行机发展的瓶颈。
采用开关网络来取代总线可以增加通信通路的数目,消除通信瓶颈。
交叉开关可以提供任意源节点到任一目的节点的通路,但硬件成本高。
N 个部件互联需要O(N2)交叉点的开关,当N>100 时,成本之高是惊人的。
折衷的办法是采用多级开关,适当减少互连通路以降低成本,但通信性能也会随之下降。
消息传递是一种有效的通信方法。
消息格式的改进使多计算机的寻径由存储转发方式演进为虫蚀方式。
第一台多计算机系统采用的是存储转发(store and forword)寻径方式。
在存储转发网络中,包是信息流的基本单位,每个节点有一个包缓冲区,包从源节点经过一系列中间节点到达目的节点。
包交换的寻径方式以其较高的传输带宽和较低的平均传输时延,更适合于具有动态和突发特性的MMP 系统的数据传送。
目前的一些多计算机系统多采用虚拟直通的寻径方式。
其思想是:为了减少时延,没有必要等到整个消息全部缓冲后再作路由选择,只要接受到用作寻径的消息头部即可判断。
其通信时延与节点无关,这对于存储转发的寻径方式来说是一个非常大的改进。
然而,当出现寻径阻塞时,虚拟直通方式只有将整个消息全部存储在寻径节点中,直到寻径通道不阻塞时才能将消息发出,这就需要每个寻径节点都有足够的缓冲区来存储可能出现的最大的信息包,在这一点上,虚拟直通方式与存储转发的寻径方式是一样的,同样不利于VLSI 的实现。
因此,虚拟直通方式在最坏的情况下与存储转发方式的通信时延是一样的。
新型的多计算机系统采用的是虫蚀寻径方式,它克服了上述的缺点。
包被进一步分成更小的片,每个片相当于虫的一个节,“蠕动”是以节为单位顺序地向前爬行。
只有头片知道包发往何处,所有数据片必须跟着头片。
不同的包可交替地传送,但不同包的片不能交叉,否则它们可能被送到错误的目的地。
每个消息中的片以流水方式在网络中向前“蠕动”。
当消息的头片到达一个节点A 的寻径器后,寻径器根据头片的寻径消息立即作出路由选择。
可以看出,虫蚀寻径有以下优点:每个节点的缓冲区较小,易于VLSI 实现;较低的网络传输时延,所有的片以流水方式向前传输,采用了时间并行性,网络时延正比于消息包的长度,传输距离对于它的影响很小;通道共享性好,利用率高,对通道的预约和释放是结合在一起的一个完整的过程,有一段新的通道后立即放弃用过的一段旧通道;易于实现选播广播通信方式等。
虫蚀寻径通信技术作为一种新型的消息通信方式,具有很好的应用前景。
4 存储技术的发展与古典的冯·诺依曼计算机以运算器为中心不同,现代计算机系统以存储器为中心。
存储技术的发展在很大程度上影响着多处理机系统结构的发展。
Cache、主存、磁盘这三个存储器可以分别构成“Cache—主存”和“主存—磁盘”两个存储系统,也可以构成一个“Cache —主存—磁盘”存储系统。
“Cache—主存”和“主存—磁盘”组成的两个存储系统组织方式是指:当CPU 要访问存储器时,给出一个虚拟地址,由存储管理部件MMU(Memory Management Unit)中的地址部件把CPU 发出的虚拟地址变换成主存物理地址,然后用主存物理地址访问Cache。
如果要访问的数据和指令在Cache 中被找到,则Cache 命中,否则发出Cache 块失效,用这个物理地址访问主存储器,取出一块数据和指令装入Cache,也把CPU 所需要的数据和指令送往CPU。
“ache—主存—磁盘”组成的存储系统组织方式是指:当CPU 要访问存储器时,把虚拟地址直接送往存储管理部件Cache。
Cache能直接接受虚拟地址的访问,把CPU 所需的数据和指令找出来。
如果Cache 发生块失效,则用经过MMU 变换得到的主存物理地址访问主存储器,把读出的一块数据和指令装入Cache,同时也把CPU 所需的数据和指令送入CPU。
全Cache 存储系统是一种新型系统,就是不用主存,只用Cache 和辅存两种存储器构成“Cache—辅存”存储系统。
这种系统的等效访问周期与Cache 很接近,等效存储容量就是虚拟地址空间的容量。
5 大规模并行处理机系统MPP和群机并行系统MPP 是一种由成百上千乃至上万个微处理器所组成的、基于分布式存储的大规模并行处理系统。
其体系结构发展特点是:节点机型选用通用高性能RISC 微处理器芯片,它具有VLSI 硅片、坤化镓技术、高密度组装和光技术。
一般均在节点上设计一个功能较强的通信处理机构,尽量减轻处理器的通信开销,有的甚至在节点上增设一个处理器作为通信处理机。