当前位置:文档之家› 高级计算机体系结构作业汇总(非标准答案)

高级计算机体系结构作业汇总(非标准答案)

1.Explain the ConceptsComputer Architecture系统结构由程序设计者所看到的一个计算机系统的属性。

即计算机系统的软硬件界面。

Advanced CA高级系统结构新型计算机系统结构。

基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。

为非冯式系统结构。

Amdahl lawAmdahl定律系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。

SCALAR PROCESSING标量处理机在同一时间内只处理一条数据。

LOOK-AHEAD先行技术通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。

PVP向量型并行计算处理机以流水线结构为主的并行处理器。

SMP对称多处理机系统任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。

MPP大规模并行计算机系统物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。

DSM分布式共享存储系统内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。

COW机群系统每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。

GCE网格计算环境利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。

CISC复杂指令集计算机通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

RISC精简指令集计算机尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

VMM虚拟机监视器作为软硬件的中间层,在应用和操作系统所见的执行环境之间。

SUPERCOMPUTER超级计算机数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。

SVM共享虚拟存储器存储器虚拟化为一个共享的存储器,并提供单一的地址空间。

MAINFRAME大型计算机作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。

COMPUTER SYSTEM ON CHIP片上计算机系统在单个芯片上集成的一个完整系统。

PARALLEL ARCHITECTURE INTO SINGLE CHIP单片并行结构在单个芯片上采用的并行体系结构MOORE lawMoore定律当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。

UMA一致存储访问采用集中式存储的模式,提供均匀的存储访问。

NUMA非一致存储访问内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。

COMA全高速缓存存储访问采用分布式存储模式,通过高速缓存提供快速存储访问。

CC-NUMA全高速缓存非一致性均匀访问存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。

NORMA非远程存储访问利用私有的存储器通过互联网络进行消息传递。

SHELL ARCHITECTUREShell结构用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC 和DISK)连接起来。

PRAM随机存取并行机器模型共享存储的SIMD模型,假定存在一个容量无限大的共享存储器,有有限或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻处理器都可以通过共享存储单元相互交互数据。

BSP整体同步并行计算模型分布存储的MIMD计算模型,将处理器和路由器分开,强调了计算任务和通信任务的分开。

采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级,从而提供了执行紧耦合同步式并行算法的有效方式。

LOG P分布存储的、点到点通信的多处理机模型L (Latency) 表示信息从源到目的地所需的时间;O (Overhead) 表示处理器接受或发送一条消息所需额外开销,并且在此期间处理器不能做作任何操作;G (Gap)表示处理器连续进行两次发送或接收消息之间必须有的时间间隔;P (Processor) 表示处理器的数目。

2.Explain the Flynn classify and its semantics.1)单指令流单数据流(Single Instruction Stream Single Data Stream,SISD)SISD其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。

2)单指令流多数据流(Single Instruction Stream Multiple Data Stream,SIMD)SIMD以并行处理机为代表,结构如图,并行处理机包括多个重复的处理单元PU1~PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同的数据。

3)多指令流单数据流(Multiple Instruction Stream Single Data Stream,MISD)MISD的结构,它具有n个处理单元,按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。

一个处理单元的输出又作为另一个处理单元的输入。

4)多指令流多数据流(Multiple Instruction Stream Multiple Data Stream,MIMD)MIMD的结构,它是指能实现作业、任务、指令等各级全面并行的多机系统,多处理机就属于MIMD。

3.Where are the difficulties of Parallel Processing? What is ‘Parallel(并行)、concurrent(并发)and Simultaneous(同时)’separately?1)并行处理的难度:a)处理单元的多少以及其功能的强弱;b)处理单元的连接方式以及其处理结构;c)同步与互斥的实现;d)处理单元之间的数据传输;e) 不同存储层次上的数据一致性。

2) 并行:两个或多个事件在同一时刻发生;并发:两个或多个事件在同一时间间隔内发生; 同时:两个或多个事件在同一时间内完成。

4. Assume that a system component be speeded to 10 times ,Its past processing timeaccounts for 40% of the system ,how much will be the system performance improved ?1;40%,101Sp f n ff n ===-+11.56250.410.410Sp ==-+5. Please draw the memory Hierarchy chart 。

6. Explaining ConceptionsRISC精简指令集计算机尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

CISC复杂指令集计算机通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

VLIW超大规模集成电路指几毫米见方的硅片上集成上万至百万晶体管、线宽在1微米以下的集成电路。

SUPER-SCALAR超标量通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。

SUPER-PIPELINE超流水线通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。

SUPER-SCALAR-SUPER-PIPELINE超标量超流水线在一个基本时钟周期内能够分时发送多组指令,并且每组指令又可包涵一条或多条指令。

IPC单位时钟周期内所执行的指令数SINGLE ISSUE单发射结构在一个时钟周期内只从存储器中取出一条指令,并且只对一条指令进行译码,只执行一条指令,只写一个运算结果。

MULTIPLE ISSUE多发射结构在一个基本时钟周期内同时从指令Cache中读出多条指令,同时对多条指令进行译码。

OOO乱序执行结构能够不按照程序提供的顺序完成计算任务,是一种加快处理器运算速度的架构。

Multi-Threading多线程同时运行多个轻量级任务。

7.In ideal case, please give the performances for SUPER-SCALAR, SUPERPIPELINE,SUPER-SCALAR-SUPER-PIPELINE, and give N=8 examples and their average IPC.1)性能超标量性能:S(m,1) = T(1,1) / T(m,1) = (K+N-1) / (K+(N-m)/m)超流水性能:S(1,n) = T(1,1)/T(1,n) = n(k+N-1) / nk+N-1超标量超流水性能:S(m,n) = T(1,1)/T(m,n) = (K+N-1) / (K+(N-m)/(mn))其中,N表示不相关指令数,m表示指令的并行度,n表示指令流水线的并行度,K表示指令流水线的阶段数2)N=8的周期图超标量:F- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- W1 2 3 4 5 6 7IPC = 8 /7 = 1.14超流水:F |D |E |W | | | |F | D |E| W| | | ||F |D |E |W | | || F| D | E| W| | || |F |D |E |W | || | F| D | E| W| || | |F |D |E |W || | | F| D | E| W|1 2 3 4 5 6 7IPC = 8 / 7 = 1.14超标量超流水:F |D |E |W | |F |D |E |W | |F | D |E| W| |F | D |E| W| ||F |D |E |W ||F |D |E |W || F | D | E | W|| F | D| E | W|1 2 3 4 5IPC = 8 / 5 = 1.608.Please describe the CPU technology in recent years, and give an example to illustratetheir technical parameters.1)Hyper threadingThreads are independent parts of a computer program. Multi-tasking operating systems (e.g. Windows or Linux) work by allocating each thread a certain amount of "CPU time" in which to execute some instructions. This means that they can run dozens of programs "at the same time".Multi-processor systems allow the OS to literally run two or more program threads simultaneously on different CPUs. This means that there is less competition for CPU time and therefore the computer should operate more quickly. However, multiprocessor systems areexpensive.Hyper-Threading Technology (HTT) was introduced by Intel to give a cost-effective compromise. By duplicating some of the parts of the main core it pretends to be two processors. This gives a small speed increase (up to 30%).2)Dual Core & multi-coreDual core designs have two cores on a single chip, sometimes sharing L2 cache memory and always sharing bus interfaces. A dual-core chip is not as good as having two processors; however it gives typically 25%–75% faster performance than a single core processor.The Athlon 64 X2 and Pentium D were the first dual-core processors released for the PC, followed by the Intel Core Duo, Core 2 Duo and AMD Athlon FX60. Intel has released a four-core Core 2 Quadro processor.core name process processor socket typical L2 cache Willamette 180nm Pentium 4 478 256 KBNorthwood 130nm Celeron 478 128 KBPrescott 90nm Celeron D / P4 478 256 KB / 1MB Prescott 2M 90nm Pentium 4 (6xx) 775 2 MBCedar Mill 65nm Pentium 4 (6xx) 775 2 MBSmithfield 90nm Pentium D (8xx) 775 2 MBPresler 65nm Pentium D (9xx) 775 4 MBYonah 65nm Core Duo / Solo 775 4 MBConroe 65nm Core 2 Duo 775 4 MBcore name process processor socket typical L2 cache Thoroughbred 130nm Athlon XP A 256 KB Barton 130nm Athlon XP A 512 KBPalermo 90nm Sempron 754 128 KBClawhammer 130nm Athlon 64 754 1 MBNewcastle 130nm Athlon 64 754 512 KBSledgehammer 130nm Athlon 64/FX 939 1 MBWinchester 90nm Athlon 64 939 512 KBVenice 90nm Athlon 64 939 512 KBManchester 90nm Athlon 64 X2 939 1 MBToledo 90nm Athlon 64 X2 939 2 MBThe diagram below shows the architecture of a Conroe core:9.Please give computing trace of a[i+7]=b[j+1]+c[k+8]+d[m+10] for T9000a[i+7]=b[j+1]+c[k+8]+d[m+10]1 |2 |3 |4 |5 |6 |7 |8 |9 |…Fj | | | | | | | | | Fb | | | | | | | | | |Fb[j] | | | | | | | || |Fb[j+1] | | | | | | ||Fk | | | | | | | ||Fc | | | | | | | || |Fc[k] | | | | | | || | |Fc[k+8] || | | | || | | |Eadd | | | | || |Fm | | | | | | || |Fd | | | | | | || | |Fd[m] | | | | | || | | |Fd[m+10]| | | | || | | | |Eadd | | | || | |Fi | | | | | || | |Fa | | | | | || | | |Fa[i] | | | | || | | | | | |Wa[i+7] | | 2 |3 |4 |4 |3 |1 | |1 | |10.How to solve the multicore memory wall problem?解决“内存墙”问题包括内存带宽和内存等待时间两大基本途径,前者的应对方法是采用提高内存总线位宽和传输倍率的技术;后者是采用多级缓存和数据预取、多线程和乱序执行等技术。

相关主题