高性能计算中心建设方案总体设计
目录
1.1 建设目标 (3)
1.2 方案选型说明 (3)
1.2.1 高性能计算系统选型 (3)
1.2.2 存储系统选型 (4)
1.2.3 作业调度系统选型 (4)
1.2.4 网络安全与身份认证系统选型 (4)
1.3 系统拓扑图 (6)
1.4 系统方案说明(详细说明) (6)
2
1.1建设目标
根据用户的实际应用需求,拟建设高性能计算系统一套,该系统包含如下指标:
计算系统主要由刀片集群组成,辅以少量的SMP胖节点和前后处理节点,其中刀片集群峰值达到16.12TFLOPS,胖节点峰值达到1.17TFLOPS。
建设存储系统一套,需要使用稳定可靠并行存储系统,总容量达到288TB,访问带宽达到3.0GBps。
建设文件服务器存储系统一套,需要使用稳定可靠的磁盘阵列服务器,总容量达到21TB。
前后处理节点4台,每台配置高端显卡。
网络系统应根据应用需求,配置最先进的FDR 56 Gbps Infiniband网络,为了保证可管理性和可靠性,应配置单一大端口Infiniband 交换机。
管理网络考虑性能和布线的最佳选择,使用万兆上联方案。
根据用户应用需求,配置功能强大作业调度系统,并配置可实现与现有应用集成的web portal,可实现基于图形化的互动作业,提高用户使用体验。
1.2方案选型说明
1.2.1高性能计算系统选型
本次投标的高性能计算系统为曙光的整体解决方案,曙光信息产业股份有限公司(以下简称“曙光公司”)是一家在天津注册,在中国科学院和天津新技术产业园区管理委员会大力推动下,以国家“863”计划重大科研成果为基础组建的高新技术企业。
曙光公司做为国内领先的高性能计算解决方案供应商,具有丰富的高性能项目经验和齐全的高性能计算解决方案,承担了多个国家重大超级计算机的建设工作,其建设的“曙光4000A”,“曙光5000A”和“曙光星云”等多个系统的建设,多次入选全球Top500计算排行榜的前列。
曙光在国内高性能计算市场占有很大的市场份额,从2009年至今,连续4年夺得中国TOP100排行榜的第一名,超过了国内国际所有竞争对手。
曙光作为一个自主创新的国产的高性能计算解决方案供应商,也更符合本项目的自助可控、保密的要求。
3
1.2.2存储系统选型
本次投标的并行存储系统为曙光Parastor200存储系统,存储系统作为高性能计算系统的存储介质,数据的可靠性和稳定性是第一位的。
曙光并行存储系统技术先进,安全、稳定、可靠,部署在国家超级计算深圳中心的“星云”高性能计算集群系统,使用的就是曙光Parastor200存储,单一命名空间,总容量16PB,为目前国内最大的单一存储系统。
Parastor并行存储系统具有高性能、高IOps性能、高扩展性、海量存储等特点。
1.2.3作业调度系统选型
本次投标的作业调度系统、应用门户系统系统软件选择曙光Gridview的解决方案。
曙光Gridview集群管理系统是行业内使用最广泛、最成熟、最安全的商用作业调度系统之一,有大量的成功案例,在超算中心、高校、企业都有大量运用。
工程计算门户(包括Fluent、Ansys、Abaqus、CFX、LS-Dyna、Nastran等CAE并行计算软件接口,并要求提供与自研并行计算软件接口)可以实现基于各个维度的实时统计,用户可以根据实时统计来选择空闲资源来提高作业轮转效率。
支持丰富的License调度,可以根据最新情况在资源管理和作业调度系统中加入新的管理策略。
1.2.4网络安全与身份认证系统选型
1.2.4.1产品选型原则
根据国家有关法律法规,并结合华电集团高性能计算信息系统通信网络的实际要求。
我们建议使用具有国内自主知识产权的产品,并且要完全符合华电集团高性能计算信息系统提出的产品资质要求:所有产品是经公安部、国家信息安全测评认证中心、国家保密局、中国人民解放军信息安全产品测评认证中心等国家权威测试通过,并获得安全产品销售许可证,是在国内政府机关、银行、部队、电子政务等系统采用较多,运行稳定的国产防火墙、入侵防御系统、内网安全管系统和网闸等安全产品,在功能、性能与管理性等方面能够满足华电集团高性能计算信息系统的需求。
4
1.2.4.2产品选型要求
1、在产品选型时,需要厂家可以提供个性化的安全产品。
只有这样才能保证系统的安全充分满足客户的现状,才能有针对的为用户的应用和业务提供安全保证。
国内具有自主知识产权的安全产品可以随时根据用户的要求对产品进行相应的改进,使产品更加适合用户的实际需要,而不是一般的通用性产品。
2、采用可提供本地化服务的厂家的产品。
可以提供本地化服务产品对用户的安全至关重要,可以及时提供应急安全响应服务,如在病毒或黑客入侵事件发生的时候,可以在第一时间进行响应,最大程度的保护用户利益。
3、在选择产品时需要保证符合相应的国际、国内标准,尤其是国内相关的安全标准。
如国内的安全等级标准、漏洞标准,安全标准以及国际的CVE、ISO13335、ISO15408、ISO17799等标准。
4、产品在使用上应具有友好的用户界面,并且可以进行相应的客户化工作,使用户在管理、使用、维护上尽量简单、直观。
5、所选择的安全产品尽可能为同一厂家产品,以种于日常维护、升级、设备联动等。
5
6 1.3 系统拓扑图
图3-1 系统拓扑图
1.4 系统方案说明(详细说明)
➢ 高性能计算平台整体物理CPU 为848核,总峰值17.3056万亿次;其中瘦节点(刀片)总峰值16.12万亿次,胖节点1.17万亿次,满足招标要求;
➢ 痩节点采用最新发布的Intel Xeon E5-2680 V2处理器,每CPU 10核,主频2.8GHz ;胖节点采用最新发布的AMD Opteron 6376处理器,每CPU 16核,主频2.3GHz ;处理器性能高于招标要求高8%;
➢ 刀片和胖节点服务器内存容量2.816TB ,满足要求。
➢ 系统配置前后处理服务器,4台W580I -G10服务器,128GB 内存,2颗Intel Xeon E5-2670八核处理器(2.6GHz),满足要求。
每台服务器配置1块NVIDIA Quadro K4000显卡,显存3GB ,显存比要求高20%,CUDA 核心为招标要求的2.1倍。
➢ 系统配置了一台36口mellanox FDR Infiniband 交换机
作为主要计算节点——刀
片节点的计算网络,配置万兆网络作为核心网络,配置千兆网络作为管理网络。
➢系统配置1套高性能并行存储系统ParaStor200,并行存储系统由4台数据节点Ostor,2台索引节点oPara组成,裸容量达到288TB,可用容量达230 TB,能够实现全局文件的统一访问和并发读写,聚合带宽3GBps。
➢系统配置1台文件服务器,使用双路AMD CPU Opteron 6320 八核处理器(2.8GHz),裸容量21TB,支持raid0、1、5,主频比招标要求高7.6%。
➢系统配置曙光网络监测与防护子系统,包含防火墙、智能卡、安全身份认证系统、安全堡垒主机、网络入侵检测系统、网络审计系统。
➢系统配置1台管理登陆节点,使用Intel Xeon E5-2620v2六核处理器(2.1GHz),比招标要求高0.1GHz。
➢系统配置曙光Gridview集群管理与作业调度系统、包含应用门户portal、支持应用的图形化作业,保证应用软件的易用性和高效运行。
➢系统配置曙光集群计费系统曙光ClusQuota,集群节能软件系统曙光PowerConf,运维辅助软件曙光ClusConf。
➢系统配置曙光C1000一体化的包含制冷、配电、监控、除尘除湿功能的基础设施系统,提供2台显冷量30kW的曙光行间空调,高于招标需求50%。
➢系统配置集群运行所需的UPS电池,30只12V 75AH的电池,满足系统后备延时30min要求,满足招标要求。
➢主要产品都采用了冗余设计(电源、风扇等),存储系统采用冗余设计,系统的可靠性有较高保证。
➢系统功耗(不含空调制冷系统)不超过为31千瓦,电费可按此核算。
➢厂商为用户提供完善的服务,包括安装调试、系统优化、用户培训等,这些都不单独收费,用户不必考虑这些方面的费用;曙光公司是领先的专业高性能机算机及方案提供商,拥有较多的成功案例,包括千万亿次超级机算机的成功案例,产品的可靠性和稳定性得到了充分验证,曙光公司提供5年免费上门服务,极大降低了用户的运行维护费用。
7。