动力环境集中监控系统告警过滤及报表应用巴州电信分公司:马泊内容简介:监控系统在使用中,大量重复无效的告警往往会使维护人员产生“告警疲倦”,也会使真正重要的告警湮没在大量的无效告警中,随着监控局站的增多,动力环境集中监控网络不断拓展、延伸,监控业务台各类告警信号层出不穷,使值班人员目不暇接,分辨不出那些是有用告警,那些是无用告警,最终使监控系统失去了其应有的作用。
不断修正系统告警阈值和告警体系,减少误告警很有必要。
监控业务管理台的应用是动力维护工作向精细化方向转变的一种提现,是提升动力维护质量和效率的手段。
关键词:动力环境集中监控、告警过滤、报表应用动力环境集中监控系统已在通信网络中已被广泛使用,软件版本不断升级,远程监控实施效果日益显著。
目前,动力环境集中监控系统已把原来各自分散的众多独立设备汇接成了一个专业网络——通信动力网,该网络已逐步和其他专业网络形成为综合网络管理及告警系统,系统在日常维护工作中显现出的作用越发重要。
随着维护管理工作的转型和综合化维护工作的不断深化,如何更进一步提高动力环境集中监控系统的应用水平,使其在整个维护网络中充分发挥最大效能,从而促进动力设备维护工作向精细化、效率化方向转变,是本文想要同各位专家、同仁一起探讨的话题。
一、不断修正系统告警阈值和告警体系,减少误告警在PSMS系统中,设备告警条件的设置都是在系统建设初期、依据维护人员的一般经验进行设定的。
然而由于PSMS系统的应用存在地域性差异和使用方式上的差异,初期的一些设定往往会给监控值班人员带来困扰,并因此产生出大量的重复告警甚至误告警。
在使用时,重复无效的告警往往会使维护人员产生“告警疲倦”或是“望而生畏”,也会使真正重要的有效告警湮没在大量的无效告警中,随着监控局站设备的增多,动力环境集中监控网络不断拓展、延伸,监控业务台各类告警信号层出不穷,使监控值班人员目不暇接,分辨不出那些是有用告警,那些是无用告警,最终使监控系统难以充分发挥其应有的作用。
当前系统维护中一个重要的问题就是数据库保存的信号量和历史告警数据过多,相当一部分对于最终维护人员来讲作用不大或是没有意义。
大量告警数据的产生一方面会增加电源空调设备的维护工作量,而且许多时候是劳而无功;另一方面会产生一些“垃圾数据”,使数据库的储存量加大,造成系统负荷过重。
因此,对于典型的电源空调设备,应根据实际维护工作需要,适当对配置数据进行精简及优化。
经各方确认为没有价值的监控数据和告警信号可及时删减和屏蔽,在保证系统安全运行的前提下,对于可有可无的告警信号进行过滤,以此来提高监控系统的精确度和可用性。
我们以前对监控告警的认识具有一定的盲目性,认为只要是告警,就必须通过监控系统显示出来,但是,由于整个监控系统对各类告警过滤、分类及分析等提供解决方案的功能还不完善,大量没有必要设置的告警信号传送到监控中心,一方面会增加维护人员的工作量。
同时在众多的告警信号中,一旦出现紧急告警,监控值班人员可能会忽视。
通过多年对动力环境集中监控系统应用的经验认识到:监控系统出现的告警就应该是需要维护人员去现场进行处理的;而其他不用现场维护的告警信息可以归入到设备异常信息一类,作为分析动力设备日常运行状况和机房环境状况的参考信息,为动力设备进行预检预修提供维护依据。
目前,为我们所使用的动力环境集中监控系统中的告警大致可分为以下三种:1、设备运行及故障类告警:该类型告警多为设备运行状态和故障信息。
该类告警又分两种:一种是通过智能设备传送的,告警设置是通过内部监控模块完成的,如开关电源设备、智能油机、专用空调、UPS等。
这类设备告警信号并不都是反映故障信息,有些是显示设备目前运行状态的,如下图所示:上图所显示的是该开关电源整流模块处于均充状态,目前它并不是一种故障状态,在开关电源设备运行中它只是一种设备状态提示信号,但在告警配置中却配成了重要告警,此类告警在进行告警配置时就可不进行配置。
可作为电源设备的日常运行状况的参考信息进行保存,通过业务管理台对设备运行状况进行分析,并根据分析结果进行预防性维护。
在日常维护中发现,按照设备的标准配置,许多重要的信号值并未设置相关存储参数和告警条件,例如油机市电转换状态、供电分合闸情况,电源设备的负荷值等数据,而这些数据在分析设备运行状态时非常有用。
第二种告警是利用现场设备信号采集单元进行上报,通过监控系统告警配置完成设置。
如蓄电池组、低压配电设备等。
该类告警配置在规程中是有明确规范要求的,特别是蓄电池组和油机启动电瓶。
因其在通信电源中的重要作用,告警配置的准确性尤为重要。
但是蓄电池告警信号是最为繁多的,只要发生充放电转换就会增多许多告警量,如下图所示:如此频繁的电池告警信号会让监控值班人员无所适从。
从实际维护角度出发,在蓄电池充放电转换过程中对类似上图告警信号应进行过滤或屏蔽。
对于蓄电池在三种状态下的告警阀值设置,关键是对总电压放电阀值的设置应慎重,因为它直接关系到供电安全。
蓄电池总电压的变化,值班人员观察的较为直观。
下图为蓄电池总电压阀值设置图示。
如上所示蓄电池在工作状态增加了一级重要告警,起到提示预警的作用。
在模块局停电后,系统供电电压不断降低,再设置一个紧急告警,其目的是当电池电压降低到一定程度时再次提醒值班人员,维护人员就可以及时采取措施,避免由于值班人员的疏忽而造成重大故障。
向这样重要的信号,可根据监控和维护的实际需要,与艾默森监控工程师协商后增加储存参数和告警条件,从而使监控告警信号更加准确有效。
2 、环境监测状况类告警:此类告警是对所监测机房环境状况的一种反映,如下图所示:此类信号是通过烟感、温湿度、水浸、红外、门禁等采集装置来传送告警信息的,通过监控系统告警配置完成设置。
对于此类告警主要关注的是烟感和水浸,因为烟感和水浸告警信号直接关系到机房的运行安全,所以这两种告警一旦出现肯定是紧急告警,监控值班人员必须马上通知维护人员赶到现场进行处理。
当然对于其他环境检测告警也需要引起重视,特别是机房高温告警。
对于机房温度告警配置应区分不同性质的机房进行配置。
例如在新疆地区的很多地方,夏季气温达到30℃、而冬季气温达到0℃,该气温是各个模块局很正常的温度范围,虽然该数值确实属于“高温”和“低温”告警设定的范围,但是我们一般认为这种情况只要维护人员掌握这一现场情况即可,无需在系统中以“告警”的形式体现在告警窗口,仅需要以“事件”的形态告知相关人员即可。
真正重要的是那些在40℃、-15℃时产生的真正影响通信设备运行的“温度过高”和“温度过低”的告警,对于此类告警,我们往往需要维护人员立即赶赴现场,对机房进行强制开门开窗通风或者辅助取暖等形式来维持通信设备的正常工作。
又例如门开告警,对于一般交换机房正常工作时间来说,这就不应是一条告警,充其量是一条开门事件;但是对于偏远的干线局站点来说,门开告警又是非常关键的,一旦发生就需要工作人员立即确认该局站具体情况,以避免意外情况的发生。
对于没有空调的小型机房,温度的告警配置应根据实际情况来选择,长时间(一周)在高温(35℃)的机房应设置提示性告警,并派发工单要求维护人员加强机房巡视。
对低温告警可进行屏蔽,而如上图所示对于经常出入人员的机房,门禁信号可作为一种状态显示,没有必要配置成告警信号。
为此,我们可以通过修改告警阈值来消除地域差异和重复告警,通过屏蔽和合理设定告警等级来区分“事件”和“告警”。
例如可设定交换机房9:00-21:00这一时间段门开告警屏蔽,其余时间设为“重要告警”,而干线机房可将门开告警升级为“紧急告警”于第一时间上报,还可以通过设定,将这一告警信息通过E-Mail,短信,传呼等多种形式通知相关责任人第一时间进行处理。
可根据当地实际情况将夏季30℃,冬季0℃设为“一般告警”并加以屏蔽,使其作为“事件”只在界面中显示状态而不出现在告警窗口中,对于“温度过高(低)”的告警可设为“紧急告警”并通过短信等手段第一时间通知相关责任人及时处理。
3、采集通信上报类告警:被监控设备信号采集单元(OCE、IDA-BAT、BMS、IDA-IO等)、业务台、前置机等通信状态异常告警。
如下图所示:此类告警是大多为数据上报或采集通道故障告警,它的发生基本不影响通信供电和设备运行,但却影响对无人值守设备和机房环境的监视。
所以此类告警应首先应关注重要信号的传输通信告警,在设定的时间内没有恢复,监控值班人员就应派发工单通知维护人员前往现场检修。
对于有些空调设备因季节的原因停用,在告警配置中作为“事件”只在界面中显示状态而不出现在告警窗口中。
二、监控系统业务管理台的应用我们知道,艾默森的PSMS4.39系统中内部集成了强大的自定义报表功能,配合系统强大的Sybase数据库和庞大的数据存储能力,系统所能提供的功能远不止“实时监控”这么简单。
如果说,一般意义上的动力环境监控告警平台相当于我们的“眼睛”,可以起到告警监视作用。
那么配合拥有这些强大报表功能的业务管理台系统,通过专业维护人员的整理、总结和归纳,该系统无疑可以成为分析各类设备运行、进行设备故障诊断的知识库,从而升华为我们的“大脑”,通过“大脑”的分析和总结,起到及时对动力设备进行预警预修的作用。
这些自定义报表可以根据需要随意设置,报表类型从时间特点上可分为日报表、月报表、年报表、实时值报表、时间段报表及非时间型报表(如“设备资产报表”),从报表的格式上可分为记录型表格报表、随意型表格报表、曲线、饼图、柱状图等报表。
下图为巴州重要局站直流供电系统电压变化任意时间段报表,通过这些报表可以分析出所查时间段直流电压的变化,开关电源设备运行情况。
在日常的维护工作中,如果只关注监控告警,而不充分利用监控业务管理台强大的报表功能,如同只对各类告警“只知其然,而不知其所以然”。
熟练掌握监控业务管理台的各项报表、查询功能,对动力维护工作有很强的指导作用。
对监控中心派发的障碍维修工单,都可以在监控业务管理台报表中进行确认,从而减少维护工作的盲目性。
对于各类告警故障的处理我们不妨引入“故障修”和“状态修”的概念。
由于故障的发生有其偶然性和突发性的特点存在,严重扰乱了维护人员的正常工作秩序,以往我们的维护人员只能在故障发生后被动的做抢修工作、应急处理,也就是“故障修”,这种维修方式不但费时费力并带有不确定性,不便于日常维护管理,而且当故障发生时,设备的故障往往已经造成了不可挽回的经济损失和甚至通信事故,这种被动应急的维护方式无疑与目前现代化电信企业精细化维护和精确化管理的思路不符。
与此相比,“状态修”是一种先进的维护理念,利用监控报表前期积累的监测数据,来推断设备可能出现或即将出现的故障隐患,及时制定方案进行处理排除,将可能的负面影响收敛到可控的范围内。