超级计算机机房设计与管理前言建设和营运一座性能优越、适度冗余、高效节能,规范管理的绿色计算机机房是机房运维经理们希望和追求。
计算机机房从形式上可分为超级计算机机房、数据机房(数据中心)及通用计算机机房;从其功能上可分为连续运行机房和在线式不间断运行机房;各类计算机机房的设计、施工、管理各有其特点,也具有计算机机房的共性;本文主要阐述超级计算机机房设计原则,以及目前国内、外大型超级计算机机房设计与建设的案例,解读超级计算机机房设计的指导思想及设计目标;也将上海超级计算中心十年的管理体会,与国内同行进行交流,抛砖引玉,期待各位专业人士批评指正,旨在不断提高超级计算机机房基础设施的管理水平,创建一个安全可靠、高效节能的绿色机房。
一、计算机机房设计目标和指导思想功能决定形式已被计算机机房设计者共同认同的设计原则,各类计算机的功能差异,所要需求的机房环境也有很大差异;例如:超级计算机组其特点是规模大、耗电高、装机密度高(目前)、单柜重量大;而数据中心其特点是机房面积大、机柜数量多、单机耗电低、供电保障要求高;所以,在不同的机房设计中,都必须按照各自需求进行量身定制。
设计者在建设方的要求下,根据计算机机房的特定要求,即机房供电形式、冷却方式、机房承重、温度、湿度、洁净度、噪声、振动、静电、电磁干扰等条件及其控制精度,在设计中遵循以下原则;安全性、可靠性、灵活性、扩展性、国际标准性及开放性、通讯容量需求控制、美观舒适、经济合理、环保节能;以满足IT设备环境要求,力争将本单位的机房建设成为一个具有国内外领先水平的智能化数据机房。
一)供电系统设计1、超级计算中心供电设计案例:上海超级计算中心200T超级计算机机房设计中,主要为200T超级计算机机房建筑工程、供电系统、冷却系统、及其他相关设备工程。
根据“魔方”曙光5000A超级计算机供电的重要性,供电等级为一级负荷,由市电提供二路10KV独立电源同时供电,100%冗余;当一路电源故障时,另一路能满足一、二级负荷的供电要求,一、二级负荷均设双电源自动切换供电。
机房的供电系统要求,能保证对机房内的用电设备供电在一般情况下都不会间断。
新增“魔方”曙光5000A超级计算机和相关设备的电力供电系统由新增供电系统提供,经ATS箱转换后的电源到机房配电柜(含机房约50%插座供电),主机、网络设备、水冷机柜内循环等由UPS装置供电。
UPS系统采用在线式,当市电供电电源断电后,UPS机组能够持续供电30分钟(电池配置按UPS全负荷15分钟计算)。
使用自动切换装置ATS切换后提供的动力电源,作为制冷设备、循环水泵、机房精密空调和通风等设备供电。
使用自动切换装置ATS切换后提供的另一路电源,为机房区域的照明插座配电。
一级负荷中应急和疏散照明,采用集中式供电的EPS装置作为备用电源;这是一个较典型的超级计算中心的供电案例,其供电示意系统图如下:超级计算中心供电示意图其特点为:装机容量大,供电保障系数取决于市电供电可靠性,目前上海市东供电的市电可靠性为99.7%,采用二路供电100%冗余的形式,基本上能满足计算机组的要求,当二路供电中断时,UPS机组可提供30分钟的供电能力,确保机组能安全关机并完成数据保存。
2、数据中心供电设计数据中心根据其在线服务的特点,在供电系统设计中,强化了供电的保障性,以真正做到在任何情况下,机房供电不间断;其供电系统示意图如下:其特点为:供电系统保障性强,满足数据中心的不间断供电需求;在市电供电中断时,由发电机组自主供电,可长时间保障计算机房供电;UPS 机组保障功能,在断电时,设备切换时的供电支撑且保证电源质量;该系统结构复杂、设备繁琐、造价高且管理成本高。
3、国外IT机房供电设计案例:某超级计算中心、数据中心供电设计示意图:其设计特点为:市电单路供电,供电系统设备(变压器、低配开关、UPS机组100%备份),柴油发电机组热备份;一旦市电中断后,柴油发电机组在几分钟内,完成启动、入网供电,保证计算机机房在任何情况下,供电不中断;其优点显而易见,但机电设备的可靠性是保障机房供电不间断的前提。
综上所述,计算机机房供电保障,不仅仅是系统设计的完善性,还要考虑到机电设备的可靠性、完整性和可用性。
二)计算机机房的制冷设计1、案例介绍“魔方”曙光5000A超级计算机由42个节点机柜、10个互联网络机柜、12个存储机柜组成;该机组采用AMD“巴塞罗那”4核芯片、4路刀片系统,单机柜安装5箱刀片服务器,每箱布置10个刀片服务器,单机柜最大功耗25KW;“魔方”曙光5000A超级计算机制冷系统,采用42台水冷机柜,单柜最大制冷量为25KW;10台智能冷冻水热交换机组,每台机组热交换量为100KW(N+1运行模式);三台风冷—水冷机组,每台制冷量521KW(N+1运行模式);水冷系统配置一、二次泵(N+1运行模式)及二台10m³储冷罐;构成一套大型智能化水冷制冷系统,该系统具有制冷量大、温湿度智能控制、安全性高(确保机柜内无结露、断电后水冷系统延迟制冷、机柜风扇冗余设计等安全措施)、节能效果良好。
该机房冷却系统(高性能水冷机柜)的工作原理为:高性能水冷机柜是将服务器前部设计为冷空气进风道,节点机从前面将冷空气吸入,带走节点机产生的热量变成热空气吹出,热空气被机柜后置的风扇吸入,并吹入安装在水冷机柜下方(或侧方)的表冷器,通过空气/水热交换器变成冷空气,再吹入服务器前部冷空气进风道;由于此项的设计使冷源更加靠近服务器,热交换后的冷空气直接吹到服务器的前部,大大提高了制冷效率;水冷机柜的冷源由外部冷水机组提供(7-12℃)冷冻水,经过水-水板式交换器(CoolTrans设备),向水冷机柜提供(12-16℃)冷却水,作为水冷机柜的冷源,水冷机柜内通过空气/水热交换器变成(16-22℃)冷空气冷却服务器。
整套冷却系统由:高性能水冷机柜、水-水板式交换器、水冷冷水机组(超算中心本次采用风冷水冷机组,无室外冷却塔)、室外冷却塔、循环水泵、控制器及管道等组成。
2、水冷系统设计思路传统的机房冷却方式已无法满足高密度装机且单柜功耗25KW 的冷却要求;理论上,单机柜功耗超过12KW时,采用地板上开孔的风冷形式已无法满足机柜的冷却的要求;一般设计机房采用风冷(精密空调)时,每平方制冷量设计为1500W,单机柜发热量为6KW,最高不超过8KW;考虑到“魔方”曙光5000A超级计算机采用刀片服务器,单机柜最大功耗25KW;只有通过定点冷却的方式将刀片服务器散发的热量带出,以确保刀片服务器有效的冷却,满足刀片服务器的工作温度;就目前现有的成熟的产品,只有采用水冷机柜的方式有效地、合理地解决了刀片服务器冷却问题。
3、水冷机柜冷却形式与精密空调冷却形式比较优点是冷却效率高,节能显著(比一般精密空调节能约15%),机房占地面积小(与精密空调相比仅为五分之一);缺点是水冷机柜造价高,需要专用制冷机组、水泵设备机房,维护成本高;4、常用风冷系统设计和现实使用中的矛盾显现计算机机房按照功能决定形式的设计思路,我们常见的都采用精密空调机组作为机房的制冷源,气流组织采用的形式通常是下送上回的形式,如下图所示:设计思路理论上可行,可实际使用中,机房管理人员发现,机房机柜冷却效果差异很大,出现局部高温区,极端情况下,个别机柜出现无法正常工作的高温现象;上述情况出现,我们可以从以下温场图上(如下图),清楚看到气流在机柜之间,并非按冷风道、热风道这样有序的进行,局部区域出现环流和短路现象,进而造成个别机柜进风区域温度偏高,机柜冷却效果差;主观结论:当机柜密度过大时,冷风口(出风口)与回风口尽可能缩短距离;机房制冷量超过1500W/㎡时,地板下方空间要(按总风量参考值)适当放大,确保整个机房每个出风口送风均匀;局部机柜高功耗时,应考虑加装定点制冷设备,将制冷源贴近发热点,或增强局部热交换的能力;可选产品如水冷机柜、背板冷却装置、机柜式冷却器、增设风机等。
三)机房建设由于计算机机房所面临的需求(所需安装的IT设备,日新月异)不同,设计者很难按某种标准模式进行预先设计,通常是量体裁衣,这就要求设计者与使用者进行充分的交流与沟通,以完成一个符合IT设备工作要求的机房;面对各式各样的机组,有超级计算机、超级服务器、机架式服务器等等形式,如何完整表达机房的需求,我们建议从一下几个方面着手,可能有效表达机房建设的需求和目标:1)可靠性计算机机房建设包括:机房土建结构、机房装修、供电系统、制冷系统、消防系统、安保系统、监控系统、网络通讯系统、避雷、静电装置等组成;而所有的设施、设备的可靠性是机房能否正常运行的基本保障;对可靠性的设计可考虑建立一套量化的数据指标;比如:供电系统的容量设计,一级负荷的定义给予量化处理,安全阀值可以选定为:最大使用值为总容量的50%,在这个定义下,针对计算机供电回路的所有电气设备的设计均不能超过50%;另一方面,我们还要针对整个供电回路中的所有设备进行可靠性量化,其计算公式为:Q=各类设备(电器设备、部件、线缆)测试指标/各类设备国家或行业指标定义:Q=1,为一般要求(符合要求),可靠性定义为:1Q=1.5为良好,可靠性定义为:3Q≥2 为最好,可靠性定义为:5各机房根据自身的要求和经济能力,定义本机房的可靠性指标。
2)完整性我们列出一份机房建设分类项,以其反映机房的完整性:3)可用性机房设计者应更多的为使用者考虑可用性,一座完善机房是便于管理和使用的,符合人体工程学的;不仅仅满足计算机的正常运行,同时,要考虑管理人员的可操作性、可维修性以及舒适的空调(温度、湿度和新风量)和照明;应急通道和日常通道的合理布置;根据计算机机房洁净度的要求,需要设置合适的更衣区、洁净区等等。
4)绿色机房4.1减少碳排放计算机机房表面是一座无烟的工厂,但实际上,它所消耗的电能折算成碳排放,是一个惊人的数量,例如:一座装机100T的刀片服务器式的超级计算机房,每年耗电(主机、制冷、其他)约870万KWH,相当于碳排放量约为6830,000KG CO2(按1KWH=0.785CO2排放量KG计算);计算机机房设计、建设中,必须坚持节能减排;计算机是计算机机房中,耗电量最大的设备,一般占整个机房的50-70%的耗电量,所以在选型时,要将计算机的功耗作为重要考量指标。
4.2可循环使用设计者在设计机房时,要尽可能使用可循环使用的材料,做到绿色设计,绿色建设;4.3节能措施在设计中,选用高效节能产品,在建设中完善保温工程,有效使用能源;将24小时工作场所和8小时工作的办公室的空调分开设置,合理使用;设计参数要科学,使用余量控制合理,例如:机房送风量过量时,不但起不到良好的冷却效果,同时,也浪费了大量的能源。