当前位置:文档之家› 高性能计算机的体系结构与程序优化-PPT精选文档

高性能计算机的体系结构与程序优化-PPT精选文档


• 包揽式的结构
– 硬件试图做充分的动态优化, 如COMA – 认为软件在动态分析和优化方面能力有限
结点内并行:超长指令字结构
• 芯片面积主要用于功能部件和高速缓存
– 完全依赖编译程序开发指令级并行性
• 分支预测, 循环展开, 软件流水, 踪迹调度
– 指令系统结构不兼容
• 显式并行指令结构(EPIC)
– 在分析区间内,指令以数据流的方式执行 – 弥补编译器在静态分析和调度方面的不足 – 换代后目标码不重新编译也能获得较好的性能
• 需要发掘指令级并行性的新来源
– 精确的动态分支预测,消除分支损耗 – 设置大量换名寄存器,消除虚假的数据依赖 – 不等分支完成,就开始执行目标指令(猜测) – 同时执行分支的多个目标(多标量)
发挥CPU内并行性的主要手段
• 编译程序:静态指令调度
– 分析程序中的指令流 – 在不影响结果的前提下,对指令重新排序 – 缺点:不能获得运行时的动态信息 – 改进:基于profile的指令调度或优化
结点间并行:消息传递系统
• Tcomm = Tstartup + Tblock + Ncomm/Bcomm • 如何实现与处理能力匹配的通信带宽
– 通信带宽、通信延迟对应用性能的影响 – 光互连技术
• 如何减少通信开销
– 用户级通信 – 硬件支持重试、保证通信的可靠性和顺序
• 如何减少阻塞
– 自适应路由、优化应用的通信结构
结点间并行:COMA
• CC-NUMA的主要问题
– 数据静态地分配在home结点上 – 通过远程访问cache存取非本地的数据 – 数据分配不当会造成大量的数据传输
• COMA中没有物理地址, 数据可动态迁移
– 经过“预热”, 数据将被“吸引”到处理结点附 近
• 主要问题: 不命中时如何快速找到所需数据
体系结构的位置
P r o g r a m m i n g M o d e l s A r c h i t e c t u r e A p p l i c a t i o n s S y s t e m S o f t w a r e H a r d w a r e
• 体系结构是硬件和系统软件之间的界面
• 未来系统中两大问题的解决也是如此
– ①极长的等待时间;②极大的并行度
充分利用处理器内的并行
• 提高单机性能是提高并行机性能的基础 • 目前CPU内部常用的并行结构包括:
– 指令流水线与运算流水线 – 多个功能部件并行执行
• 如:定点运算、存/取、浮点加、浮点乘、…
• 充分流水、并行工作的条件
– 指令间没有相关,即相互独立 – 结构相关:两条指令要用同一个部件 – 数据相关:一条指令要用另一条指令的结果 – 控制相关:条件转移指令影响其它指令
– Enable High Performance – Support Ease Programming
• 编程模型是应用和计算机系统间的界面
– 理想的模型: 应用不必了解具体的结构特征
体系结构的主要研究内容
• 如何提高性能?
– 先进的工艺技术--纯粹属于硬件的范围?
• 技术方面的缺点需要通过结构来弥补 • DRAM慢,SRAM小=》存储器层次结构
性能不仅依赖于结构
• 性能的提高依赖于体系结构上的革新
– 硬件技术的发展对体系结构提出了新的要求 – 各个层次并行性的开发是新体系结构的主要特征
• 实际性能的提高更依赖于体系结构与编译技 术、操作系统、应用算法间的配合与协调
– Architectural Support for Programming Languages and Operating Systems, Since 1988
• 多个上下文之间的切换机制
– 发生事件时切换(有点象进程的切换) – 每个时钟周期都切换: 每次取不同线程的指令
• 多个线程的指令在同一流水线中(无依赖)
• 第一个多程系统(Tera)已经问世
– 多线程同时工作对cache干扰很大
结点内并行 超标量、动态调度、猜测执行
• 硬件动态地分析指令流,同时执行多条指令
– Explicitly Parallel Instruction Computer – 128位的Group包括3条指令 – 设置专门的域指示指令间是否存在依赖关系 – 可连接多个Group以支持更大范围内的并行
结点内并行:同时多线程结构
• 由硬件提供快速的上下文切换机制
– 引入了更多的指令级和线程级并行性 – 容忍远程访问延迟和数据依赖的负面影响
高性能计算机的 体系结构与程序优化
唐志敏 中国科学院计算技术研究所
Institute of Computing Technology, CAS
提纲
• • • • • • 应用编程与体系结构的关系 高性能计算机体系结构概述 CPU内的并行结构(指令级并行) 存储器的层次结构 多体交叉的并行存储系统 分布存储系统中的通信优化
结点间并行:共享存储系统
• 共享存储的好处
– 易于编程、通用性强 – 与SMP及其应用实现无缝衔接
• 存储一致性模型与实现效率
– 松(弱)一致性模型允许多种优化 – 对系统软件设计或应用程序设计提出新的要求?
• 如何避免、隐藏或容忍远程访问的开销
– Origin2000: 185周期; 未来可能达数百万个周期 – 缓存、预取、预送、多线程
– 体系结构方面的革新
• 各个级别上并行性的开发
• 如何支持编程?
– 共享内存 – 承担一些软件较难完成的优化工作
• 如动态执行, 猜测执行, COMA等
三种类型的体系结构技术
• 保守的结构
– 硬件仅提供必需的设施, 如大量的寄存器 – 高性能能否最终达到, 完全依赖软件
• 折衷的结构
– 硬件做一些动态的优化, 如高速缓存 – 软件仍有优化的余地
– 全系统的查找需大量时间
存储器的供数率跟得上吗?
• CPU消耗数据的速率远大于存储器供数率
– 时钟频率增长的速度大于访存时间缩短的速度 – 同时执行多条指令要求供数率进一步提高 – 多线程或芯片内多处理器要求访问多组数据
• 已知的解决方案:存储器层次结构
– 片内cache的供数率能满足指令级并行的要求? – 片内cache的命中率足够高? – 为多个线程或处理器提供各自的cache? – 如何通过程序或算法的改进增强访存局部性?
相关主题