高性能计算中心项目详细设计方案目录1 系统方案详细设计 (4)1.1 计算系统 (4)1.1.1 计算系统需求分析 (4)1.1.2 刀片集群 (5)1.1.3 SMP胖节点 (8)1.1.4 Intel E5-2600v2处理器性能优势 (9)1.1.5 AMD Opteron 6300系列处理器优势 (11)1.2 网络系统 (16)1.2.1 管理网络 (17)1.2.2 万兆核心网络 (17)1.2.3 Infiniband计算网 (18)1.3 存储系统 (20)1.3.1 高性能集群存储的需求特点 (20)1.3.2 ParaStor200并行存储系统 (21)1.3.3 文件服务器存储系统 (24)1.4 前后处理节点 (24)1.5 集群管理运维系统 (25)1.5.1 管理/登陆节点 (25)1.5.2 ClusKVM监控管理系统 (25)1.5.3 集群管理系统 (26)1.5.4 集群计费软件系统 (33)1.5.5 集群节能软件系统 (35)1.5.6 运维辅助软件 (36)1.5.7 作业调度系统 (37)1.6 安全系统 (41)1.6.1 高性能集群整体安全解决方案 (41)1.6.2 主机与应用安全(计算环境安全设计) (42)1.6.3 区域边界安全设计 (45)21.6.4 边界完整性检查 (46)1.6.5 通信网络安全设计 (47)1.6.6 系统管理 (48)1.6.7 审计管理 (49)1.6.8 安全管理体系 (49)1.6.9 安全系统配置清单 (49)1.7 集群基础软件环境 (50)1.7.1 操作系统 (50)1.7.2 编译环境 (50)1.7.3 并行环境 (52)1.7.4 数学库 (54)1.8 终端 (56)3方案详细设计1.1计算系统1.1.1计算系统需求分析(一).计算性能高高性能计算应用最为核心的需求仍然是计算能力,高性能计算机峰值计算能力代表着高性能计算机的整体处理能力,而对于大部分的高性能计算应用,对计算资源的海量需求仍然是最为迫切和直接的需求。
(二).内存需求高在高性能计算过程中,会进行大量的内存访问,对内存的容量和访问速度都有很高的需求。
尤其随着CPU多核化的快速发展,对内存的访问能力提出了新的需求,Intel和AMD 等CPU厂商已经认识到了这一问题,目前这2个厂商的CPU架构均已经升级为直连架构、内存控制器均已经集成到了CPU中,避免多个CPU访问时的内存争抢。
同时,随着CPU 的不断升级,内存通道的数量及内存的频率也在不断升级。
对于用户,在方案需求阶段,建议要求配置兼容的性能最高的内存芯片(DDR3 1600),且要求内存条的数量与CPU的内存通道数量匹配。
(三).适合高性能应用高性能计算机的最核心的需求仍然为适合高性能计算机的使用方的应用软件,从而帮助科研及生产工作,所以高性能计算采用的部件及架构要适合高性能计算软件。
例如,如果应用软件需要大内存、共享存储扩展等需求,则系统需要配置大内存及多核的SMP胖节点。
如果应用软件的扩展性不好,则在相同的预算下,尽量考虑高主频、核心较少的方案。
如果系统扩展性很好,则尽量考虑总体计算峰值最高的方案。
(四).每瓦性能高4高效能代表着高性能计算的每瓦性能较高,这是评价高性能计算机架构是否科学、配置是否合理的重要指标。
能源的利用率对于降低总体拥有成本、节能减排有着重要意义。
(五).总体功耗低高性能计算机是能耗大户,一台高性能计算满负载运行,在他的生命周期内所消耗的电力的预算几乎和高性能计算机初期的预算一致,所以高性能计算机降低功耗非常有意义。
降低功耗一般可以通过选购效率较高的IT设备、提高制冷及空气调节效率、使用功耗控制软件等几个方面实施。
(六).高密度较高密度能满足用户机房空间有限的需求,同时,较高的密度能够有效节约空间,降低运维成本,降低管理难度。
(七).可靠性要求相对不高目前,高性能计算机主要架构为集群架构,一般工作方式为若干台X86服务器通过标准网络连接,通过作业调度软件将计算任务分发到不同计算节点上。
在一台高性能计算机系统中,网络系统、存储系统、管理登陆节点等都属于系统级组件,单一组件的不可用会导致整个系统的不可用,对可靠性要求非常高;而集群计算节点由于作业调度可自动将不同作业分发到不同的节点上,少量节点的故障不会导致整个系统的不可用,所以在预算有限的情况下,可适当降低计算节点高可用性方面的预算,一般单个节点都配制一块本地硬盘,如果是机架服务器,也可考虑非冗余电源的情况。
1.1.2刀片集群系统共配置36片曙光CB60-G16刀片服务器,这36片刀片安装在4个曙光TC4600H 刀片机箱中,双精度峰值达到16.128万亿次。
每个刀片服务器配置2颗十核Intel Xeon E5-2680v2 处理器,主频2.8Ghz,每节点配置64GB DDR3 1600MHz内存。
5图3-2 TC4600产品特点目前,开放的集群(Cluster)系统具有较多的优势,已经占据了目前高性能计算机的主流位置,在TOP500中占据了80%以上的份额,在中小规模的高性能计算系统中更是占据统治地位。
刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其它系统,且为系统的扩容升级提供了良好的基础,刀片系统的优势主要体现在以下几个方面。
●计算密度更高提高计算密度是刀片服务器发展的主要动力之一。
对于大规模并行计算机来说,提高计算密度尤其重要,刀片式集群系统有效提高了计算密度。
●机房要求降低大规模高性能计算机将对机房空间提出较高的要求,并且要为系统的扩容升级留下空间。
刀片式集群系统实现了较高的计算密度,并且有效降低了系统功耗,对系统空调等散热系统的要求也相对降低。
6●功耗散热降低刀片服务器的功耗部件较少。
刀片柜中的电源将由多个刀片共享,所以会使用高效率电源,减小了系统功耗,同时产生的热量减少,减少了冷却系统的耗电量。
节能的设计体现在曙光刀片服务器的各个层面:1)根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。
2)修改计算刀片操作系统内核,实现节能3)多计算刀片任务调整调度●布线简单在机架式服务器构成的集群系统中,系统布线是一个很大的问题。
系统的线缆可能包括高性能计算网络(InfiniBand,以太网等)、数据网络、管理网络、监控网络、电源网络、KVM网络等,这些线缆需要连接到每一个计算单元。
尤其是在高密度、计算单元数目又比较多的情况下,系统布线是令设计人员头疼的问题。
刀片式集群系统可以大大减少系统布线的数量。
多个刀片服务器可以共用冗余电源,内置的交换机将高速网络(InfiniBand等)、数据网络、管理网络、KVM网络集成在一起,只需要对刀片柜进行布线,刀片柜内部的计算刀片通过背板连接,无需布线。
根据计算,使用刀片式集群,可以节省85%以上的系统布线。
●可靠性提高曙光刀片服务器采用无源背板进行系统互连,与传统的线缆连接方式相比,把可靠性提高到了一个数量级以上。
刀片系统采取模块化、冗余、热插拔设计,进一步提高了系统的可靠性。
●管理方便曙光刀片服务器管理监控高度集成:通过统一的监控界面,监控所有刀片资源,包括机箱电源、风扇、计算刀片、背板、交换机。
管理系统整合目前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。
同时,为实现方便快捷的刀片服务器管理,通过优化的管理软硬件设计,改善可管理性,增强部署和可服务性,这些将降低总的所有权成7本。
1.1.3SMP胖节点系统共配置2台SMP胖节点A840-G10,每节点配置4颗16核2.3GHz AMD 6376 X86-64处理器核心,每节点配置内存256GB;SMP胖节点总峰值1.177万亿次。
高性能计算应用软件数量众多,需求复杂,单一的刀片集群方案并不能完全解决所用应用的需求,SMP胖节点在解决以下几类应用需求时有明显的优势:◆共享存储并行程序并行程序的编程标准目前主要有两类,共享存储并行程序(多线程和openmp并行程序)和消息传递并行程序(MPI并行程序),共享存储并行程序设计较为简单,有众多的应用实例,但共享存储并行程序无法实现跨节点的并行,只能单节点内并行。
SMP胖节点单节点核心数多,计算能力强,能够更好的实现共享存储并行程序的需求。
◆高通量(大内存)并行程序对于很多科学问题,对内存容量的需求非常惊人,往往需要256GB的内存容量,才能很好的完成需求,由于SMP胖节点CPU数目多,体积大,从而能够容纳更多的内存插槽,能够满足应用海量内存的需求。
◆高I/O并行程序.有的应用软件,在运行过程中需要大量的临时文件读写,而零时文件读写一般设置在本地存储上面,防止对系统网络文件系统带来巨大的破坏,刀片节点由于体积小,硬盘容量小,无法实现本地高速IO,SMP胖节点支持更多的硬盘位和更高性能的硬盘,对于这类应用有更好的支持。
◆图形处理以及其它外插卡需求刀片系统由于空间的限制, 硬盘位,内存插槽的数量受到限制,对各种标准接口的支持也打了折扣,有的厂商的刀片完全不支持,或通过降低密度来支持一些标准的接口,.SMP胖节点由于空间大,性能高,配有多个高速插槽,可以插各种外接板卡,包括高端显卡,GPGPU,各种保密卡,HBA,HCA,万兆网卡等等,可以满足各种需求。
通过外插高端图形卡,强大的CPU处理能力以及强大的GPU浮点运算能力,能够满足大型电影、数字制作、虚拟、仿真、渲染等图形运用,大大提升图形处理能力,为用户节省更多的时间。
89 1.1.4 Intel E5-2600v2处理器性能优势2013年10月,Intel Xeon 处理器E5-2600v2发布,E5-2600v2处理器相比上代双路服务器Xeon E5-2600系列处理器在处理器架构上进行了重大调整,从而带来最高达到30%的性能提升。
E5-2600v2相比上代2600处理器,在处理器核心数、流水线长度、内存带宽等多个方面都对做出了重大提升,所以导致了性能的巨大飞跃。
对于最能衡量高性能计算处理能力的spec cpu2006 fp 性能,相比上一代处理器,按照业界通用的SPECfp_rate2006测试,高达30%的性能提升。
图2-4 intel 至强系列E5-2680 V2 详细指标 MicroarchitectureIvy Bridge Platform Romley-EPRomley-WSProcessor core ?Ivy Bridge-EP Manufacturing process 0.022 micronData width64 bitThe number of cores10The number of threads20Floating Point Unit IntegratedLevel 1 cache size ? 10 x 32 KB instruction caches10 x 32 KB data cachesLevel 2 cache size ? 10 x 256 KBLevel 3 cache size25 MBMultiprocessing Up to 2 processorsFeatures o MMX instructionso SSE / Streaming SIMD Extensionso SSE2 / Streaming SIMD Extensions 2o SSE3 / Streaming SIMD Extensions 3o SSSE3 / Supplemental Streaming SIMD Extensions 3o SSE4 / SSE4.1 + SSE4.2 / Streaming SIMD Extensions 4 ?o AES / Advanced Encryption Standard instructionso AVX / Advanced Vector Extensionso F16C / 16-bit Floating-Point conversion instructionso EM64T / Extended Memory 64 technology / Intel 64 ?o NX / XD / Execute disable bit ?o HT?o VT-x / Virtualization technology ?o VT-d / Virtualization for directed I/Oo TBT 2.0 / Turbo Boost technology 2.0 ?o TXT / Trusted Execution technologyLow power features Enhanced SpeedStep technology ?101.1.5AMD Opteron 6300系列处理器优势AMD新一代Piledriver架构Opteron 6300处理器产品包括四核、八核、十二核、十六核等4个版本,Opteron 6300系列产品线的基频最高达到了3.5Ghz,智能超频模式最高可达3.8Ghz。