当前位置：文档之家› 高性能计算机的体系结构与程序优化-PPT精选文档

高性能计算机的体系结构与程序优化-PPT精选文档

• 包揽式的结构
– 硬件试图做充分的动态优化, 如COMA – 认为软件在动态分析和优化方面能力有限
结点内并行：超长指令字结构
• 芯片面积主要用于功能部件和高速缓存
– 完全依赖编译程序开发指令级并行性
• 分支预测, 循环展开, 软件流水, 踪迹调度
– 指令系统结构不兼容
• 显式并行指令结构（EPIC）
– 在分析区间内，指令以数据流的方式执行 – 弥补编译器在静态分析和调度方面的不足 – 换代后目标码不重新编译也能获得较好的性能
• 需要发掘指令级并行性的新来源
– 精确的动态分支预测，消除分支损耗 – 设置大量换名寄存器，消除虚假的数据依赖 – 不等分支完成，就开始执行目标指令（猜测） – 同时执行分支的多个目标（多标量）
发挥CPU内并行性的主要手段
• 编译程序：静态指令调度
– 分析程序中的指令流 – 在不影响结果的前提下，对指令重新排序 – 缺点：不能获得运行时的动态信息 – 改进：基于profile的指令调度或优化
结点间并行：消息传递系统
• Tcomm = Tstartup + Tblock + Ncomm/Bcomm • 如何实现与处理能力匹配的通信带宽
– 通信带宽、通信延迟对应用性能的影响 – 光互连技术
• 如何减少通信开销
– 用户级通信 – 硬件支持重试、保证通信的可靠性和顺序
• 如何减少阻塞
– 自适应路由、优化应用的通信结构
结点间并行：COMA
• CC-NUMA的主要问题
– 数据静态地分配在home结点上 – 通过远程访问cache存取非本地的数据 – 数据分配不当会造成大量的数据传输
• COMA中没有物理地址, 数据可动态迁移
– 经过“预热”, 数据将被“吸引”到处理结点附近
• 主要问题: 不命中时如何快速找到所需数据
体系结构的位置
P r o g r a m m i n g M o d e l s A r c h i t e c t u r e A p p l i c a t i o n s S y s t e m S o f t w a r e H a r d w a r e
• 体系结构是硬件和系统软件之间的界面
• 未来系统中两大问题的解决也是如此
– ①极长的等待时间；②极大的并行度
充分利用处理器内的并行
• 提高单机性能是提高并行机性能的基础 • 目前CPU内部常用的并行结构包括：
– 指令流水线与运算流水线 – 多个功能部件并行执行
• 如：定点运算、存/取、浮点加、浮点乘、…
• 充分流水、并行工作的条件
– 指令间没有相关，即相互独立 – 结构相关：两条指令要用同一个部件 – 数据相关：一条指令要用另一条指令的结果 – 控制相关：条件转移指令影响其它指令
– Enable High Performance – Support Ease Programming
• 编程模型是应用和计算机系统间的界面
– 理想的模型: 应用不必了解具体的结构特征
体系结构的主要研究内容
• 如何提高性能?
– 先进的工艺技术－－纯粹属于硬件的范围？
• 技术方面的缺点需要通过结构来弥补 • DRAM慢，SRAM小＝》存储器层次结构
性能不仅依赖于结构
• 性能的提高依赖于体系结构上的革新
– 硬件技术的发展对体系结构提出了新的要求 – 各个层次并行性的开发是新体系结构的主要特征
• 实际性能的提高更依赖于体系结构与编译技术、操作系统、应用算法间的配合与协调
– Architectural Support for Programming Languages and Operating Systems, Since 1988
• 多个上下文之间的切换机制
– 发生事件时切换(有点象进程的切换) – 每个时钟周期都切换: 每次取不同线程的指令
• 多个线程的指令在同一流水线中(无依赖)
• 第一个多程系统(Tera)已经问世
– 多线程同时工作对cache干扰很大
结点内并行超标量、动态调度、猜测执行
• 硬件动态地分析指令流，同时执行多条指令
– Explicitly Parallel Instruction Computer – 128位的Group包括3条指令 – 设置专门的域指示指令间是否存在依赖关系 – 可连接多个Group以支持更大范围内的并行
结点内并行：同时多线程结构
• 由硬件提供快速的上下文切换机制
– 引入了更多的指令级和线程级并行性 – 容忍远程访问延迟和数据依赖的负面影响
高性能计算机的体系结构与程序优化
唐志敏中国科学院计算技术研究所
Institute of Computing Technology, CAS
提纲
• • • • • • 应用编程与体系结构的关系高性能计算机体系结构概述 CPU内的并行结构（指令级并行）存储器的层次结构多体交叉的并行存储系统分布存储系统中的通信优化
结点间并行：共享存储系统
• 共享存储的好处
– 易于编程、通用性强 – 与SMP及其应用实现无缝衔接
• 存储一致性模型与实现效率
– 松(弱)一致性模型允许多种优化 – 对系统软件设计或应用程序设计提出新的要求?
• 如何避免、隐藏或容忍远程访问的开销
– Origin2000: 185周期; 未来可能达数百万个周期 – 缓存、预取、预送、多线程
– 体系结构方面的革新
• 各个级别上并行性的开发
• 如何支持编程?
– 共享内存 – 承担一些软件较难完成的优化工作
• 如动态执行, 猜测执行, COMA等
三种类型的体系结构技术
• 保守的结构
– 硬件仅提供必需的设施, 如大量的寄存器 – 高性能能否最终达到, 完全依赖软件
• 折衷的结构
– 硬件做一些动态的优化, 如高速缓存 – 软件仍有优化的余地
– 全系统的查找需大量时间
存储器的供数率跟得上吗？
• CPU消耗数据的速率远大于存储器供数率
– 时钟频率增长的速度大于访存时间缩短的速度 – 同时执行多条指令要求供数率进一步提高 – 多线程或芯片内多处理器要求访问多组数据
• 已知的解决方案：存储器层次结构
– 片内cache的供数率能满足指令级并行的要求? – 片内cache的命中率足够高? – 为多个线程或处理器提供各自的cache? – 如何通过程序或算法的改进增强访存局部性?

e商务文档

高性能计算机的体系结构与程序优化-PPT精选文档

相关文档推荐：