数据中心机房UPS系统的维护与管理
目前,在金融、航空、电信等行业,多台大型主机及大量的服务器、路由器、交换机、磁带库和磁盘阵列机等被集中地安装在同一IDC或MDC机房内,进行网络、通信、信息实时处理。
研究证明,计算机和通信系统的可用性,在很大程度上要受电源质量的影响。
一个大型企业,深知自己成功与否取决于计算机系统,供电故障只要出现几分钟,就可能出现诸如有损形象、丢失合同、丢失用户、终止用户服务、丢失运行的数据等等致命后果,据美国《幸福》杂志统计,金融业务每宕机一小时造成的损失就达700万美元以上,显而易见,稳定、可靠、纯净的电源是数据中心机房各种设备连续、正常、高效运行的重要前提。
数据中心机房安全不间断供电(UPS:Uninterruptible Power Supply)系统经过多年发展,在其性能指标完全满足计算机网络设备要求的情况下,真正能为用户带来价值的是其可用性。
供电系统可用性包含:供电系统中设备的可靠性、可管理性和可维护性。
可靠性高、便于管理、故障后可快速修复等,都意味着给用户更多的正常使用时间,把故障后不可用时间降到最低限度。
本文作者结合多年工商银行大型UPS维护工作实践,就如何提高供电系统可用性、将不安全隐患消灭在萌芽状态,确保数据中心机房真正的不间断运行进行探讨。
一、数据中心机房UPS供电系统本身可靠性。
全集中模式下,计算机系统是由计算机及网络等电子设备组成,这些电子设备对电源系统有着严格的技术标准和要求。
UPS供电系统,通常是指UPS主机、蓄电池、静态旁路开关及其他接入接出辅助设备和环节组成,要让网络数据中心机房真正具备365×24h连续不断运行,仅靠工作效率高、输出能力强的UPS本身无法达到,UPS系统中的输入输出配电柜、并机柜、断路器开关和传输电缆等辅助设备都是单点故障瓶颈,一旦出现问题,就必然造成系统停电故障,因此要实现接近零故障的供电,必须是一个有高度容错功能的冗余供电系统。
现代IDC机房供电系统的硬件配置示意如图1所示。
一般是由2路/多路市电源组成冗余式市电系统+备用发电机组+1台/多台自动切换开关(ATS: Automatic Transfer Switch)+防雷击抗瞬态浪涌抑制器和UPS供电系统来共同组成。
这基本上是一个“永远不会停电”的配电系统,允许执行“不停电”的维护和检修操作,可将其可用性提高到99.999%,每年网络机房停机时间低于5.26分钟。
二、数据中心机房UPS供电系统维护管理实践。
据统计,40%-50%的计算机故障是因为电源的故障和干扰造成的。
而目前大型数据中心机房选用的UPS在性能和可靠性指标(例如工作效率、输出能力、平均无故障时间和使用
的半导体功率器件的容量规格等)上都能满足要求,UPS产品的平均无故障工作时间(MTBF)可达20-40万小时。
但投入运行后却屡屡发生故障。
究其原因,很重要的一点是维护工作存在问题。
下面结合工行数据中心(北京)电源系统成功维护经验进行讨论。
1、UPS设备本身的维护与管理
UPS设备是整个供电系统的核心,它的作用有两个:一是保证向负载供电的不间断性;二是改善对负载的供电质量。
在图1中,配置UPS的方法有单台配置、冗余并机配置和双总线系统配置3种,工行数据中心生产机房采用双总线系统配置。
在这种配置系统中,任何单台UPS出现故障都需要不停电检修,不影响对负载的供电。
对UPS的维护管理应做到以下几方面工作,完善维护管理制度、制定日常操作流程。
UPS是一个综合技术性很强的设备,在UPS的性能是否能充分发挥和UPS的可靠性和使用寿命等方面,都与对它的使用和维护水平有关。
统计显示,UPS供电系统发生故障原因中,人为因素占首位,由于维护原因造成的人为故障可归结为怀疑故障、知识性故障、操作故障、延时故障和交接故障等。
因此要提高维护人员水平,需要制定相应的UPS维护维修管理制度、巡检制度、安全操作制度以及应急管理制度;签署厂家技术支持协议;制定UPS 日常操作流程、电池放电与电池测试规程、应急处理流程等一系列规章制度,在遇到故障时不会造成盲目操作、人为二次故障情况,及时、迅速、准确解决故障问题。
设备维护维修文档记录。
UPS供电系统管理的重要内容是预防性故障分析维护操作,数据中心机房要求UPS24小时不间断供电,供电质量的好坏,UPS供电系统中蓄电池等各组成部分的日常维护是关键。
在实际工作中,我们按照维护制度创建一系列工作表记录设备运行情况,并形成完整电子文档,包括:(见表1)、UPS设备维修维护卡(见表2)、UPS电池测试记录表(见表3)、UPS电池放电记录表(见表4)等。
通过这些数据我们可以对设备的运行情况进行分析,有的放矢地进行维护,将故障隐患消除在萌芽状态,改变以往的被动的维护方式。
2、UPS供电系统的监控管理
大集中模式下数据中心机房的电源设备数量大且分布分散,在人力有限的情况下,采取一些远程监控的手段实时了解设备的运行状况已成为一种必然的维护方式。
工行数据中心结合自己情况对高低压设备、柴油发电机、环境设备、UPS电源设备等进行集中实时监控。
用户通过RS232或RS485通信接口可将UPS的输入、输出电压,电池工作参数、频率、负载等参数进行监控,利用电源监控软件,可以实现即时显示UPS工作信息、记录电源事件和电力数据、定时开关UPS等信息。
如果供电系统出现问题,监控软件可及时向用户发送报警信号,维护人员可以第一时间赶到现场进行处理。
1、UPS输出配电分配柜(PDU)管理
带电操作管理。
大型数据中心机房的电源基础设施中都采用了冗余技术,建设不是一步到位,大量用电设备随着工作需要逐步购置。
例如工行数据中心机房建成投产三年以来,就经过初期新购用电设备安装、迁移工程设备安装、整合工程设备安装以及不间断新增业务所用机器电源安装过程,这个过程是不允许停机操作的,带电操作即对管理人员的人身安全产生了威胁,同时也增大了操作失误的几率,严重时还会引起关键设备的宕机。
因此需要制定严格的带电操作规程以避免事故的发生,在双路供电系统UPS输出配电分配柜(PDU)带电接线时应避免双路同时操作,保证双电源设备的安全。
日常维护管理。
UPS输出配电分配柜(PDU)是负载的直接供电者,其维护管理尤为重要。
工行数据中心机房内的PDU柜就有六十多台,我们在工作中实行专人负责配电柜中开关的闭、合操作,每次变更都填写“UPS输出配电分配柜(PDU)开关上电、下电申请表”;根据负载变化情况,定期对UPS输出配电分配柜(PDU)各相电流进行测试记录(见表5:UPS 输出配电分配柜(PDU)电流记录表)。
每周对个配电柜中开关使用红外测温仪测量温度,发现温度异常变化则进行检查处理,做到防患于未然。
三、结语
总之,在UPS的性能是否能充分发挥和UPS的可靠性和使用寿命等方面,都于对它的使用和维护水平有关。
要提高使用维护水平,就必须重视和加强对使用维护人员的技术培训。