SDH设备故障判断与定位的常用方法SDH设备故障定位的常用方法可简单地总结为:“一分析,二环回,三换板”。
当故障发生时,首先通过对告警、性能事件、业务流向的分析,初步判断故障点范围。
然后,通过逐段环回,排除外部故障或将故障定位到单个网元,以至单板。
最后,更换引起故障的单板,排除故障。
对于较复杂的故障,需要综合使用表1所示的方法进行故障定位和处理。
告警和性能分析法告警和性能分析法是定位故障的方法之一。
SDH信号的帧结构里定义了丰富的、包含系统告警和性能信息的开销字节。
因此,当SDH系统发生故障时,一般会伴随有大量的告警和性能事件信息,通过对这些信息的分析,可大概判断出所发生故障的类型和位置。
获取告警和性能事件信息的方式有以下两种:∙通过网管查询传输系统当前或历史发生的告警和性能事件数据。
∙通过设备机柜和单板的运行灯、告警灯的状态,了解设备当前的运行状况。
通过网管获取告警信息,进行故障定位通过网管获取故障信息,定位故障的特点是:∙全面:能够获取全网设备的故障信息。
∙准确:能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值。
∙如果告警和性能事件太多,可能会面临无从着手分析的困难。
∙完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。
下面通过举例,对告警和性能数据分析法给予说明。
在如图1所示的链形组网中,网管计算机设在NE1站。
图1 链形组网图故障现象:NE1站和NE4站间的E1业务中断,从NE1站无法登录NE4站,且NE3站东向光板有MS_RDI告警和HP_RDI告警,NE1站与NE4站间的业务所对应的E1通道有LP_RDI告警。
分析判断:通过分析告警,可知NE4站没有正确接收到NE3站发出的信号,而NE3站能正确接收到NE4站发出的信号。
可能的故障原因包括:∙NE3站东向光板发送信号有问题。
∙光缆线路问题(包括光纤和光纤接头)。
∙NE4站光板的接收信号问题。
故障定位:借助于网管软件,可以通过修改业务配置、人工插入告警等方法,对故障进行定位。
例如,若我们怀疑图1中NE2站与NE3站间光纤接反(即NE2站的东向光接口板误接NE3站的东向光接口板),则可以通过网管在NE2站东向光接口板人工插入HP_RDI,然后通过网管观察NE3站告警上报情况:∙若是西向光接口板上报HP_RDI告警,则说明NE2站的东向发送端接的是NE3站的西向接收端,光纤连接正确。
∙若是NE3站的东向光接口板上报了HP_RDI告警,则说明NE2站东向发送端接到了NE3站的东向接收端,光纤接反,需要纠正。
通过设备上的指示灯获取告警信息,进行故障定位OptiX设备上有不同颜色的运行和告警指示灯,这些指示灯的状态,反映出设备当前的运行状况或存在告警的级别。
两种获取故障信息途径的比较从上面的介绍可以看出,通过网管与通过观察设备指示灯这两个途径获取设备故障信息,各有其优点。
因此,在实际的故障定位过程中,这两种手段要结合起来使用。
排除故障时,需要网管中心的维护人员与各站的设备维护人员共同参与,一般由网管中心的维护人员协调指挥,各站的设备维护人员密切配合,统一行动。
两种途径的比较如表1所示。
告警和性能分析法的局限性∙在组网、业务以及故障信息比较复杂的情况下,伴随故障的发生,可能会产生大量的告警和性能事件;由于告警和性能事件太多,使得维护人员无从着手分析。
∙某些故障发生时,可能没有明显的告警或性能事件上报,有时甚至查不到任何告警或性能事件。
这种情况下,告警、性能分析法是无能为力的。
环回法环回法是OptiX设备定位故障最常用、最行之有效的一种方法。
概述环回法可以不依赖于对大量告警及性能数据的深入分析。
作为一名设备维护人员,应熟练掌握。
环回操作分为软件、硬件两种,这两种方式各有所长:∙硬件环回相对于软件环回而言环回更为彻底,但它操作不是很方便,需要到设备现场才能进行操作;另外,光接口在硬件环回时要避免接收光功率过载。
∙软件环回虽然操作方便,但它定位故障的范围和位置不如硬件环回准确。
比如,在单站测试时,若通过光口的软件内环回,业务测试正常,并不能确定该光板没有问题;但若通过尾纤将光口自环后,业务测试正常,则可确定该光板是好的。
OptiX设备对软件环回操作的支持OptiX光网络设备的软件环回操作及应用特点如表1所示。
表1 OptiX光网络设备软件环回操作及应用由于支路板环回、线路板环回可将故障定位到单站,同时可初步定位支路板、线路板是否存在故障,因此在实际中使用最多,要求维护人员熟练掌握。
环回法的应用在进行环回操作前,需确定对哪个通道、哪个时隙环回?应该在哪些位置环回?应该使用哪种环回——外环回,还是内环回?这可分四个步骤进行。
操作步骤1.通过咨询、观察和测试等手段,选取其中一个的确有故障的业务通道作为分析、处理的对象。
环回业务通道采样简化的过程可以描述如下:∙从多个有故障的站点中选择其中的一个站点。
∙从所选择一个站点的多个有问题的业务通道中,选择其中的一个业务通道。
∙对于所选择出来的业务通道,先分析其中一个方向的业务。
2.画出所选取业务一个方向的路径图。
在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC-4通道和时隙。
3.根据所画出的业务路径图,采取逐段、逐站环回的方法,定位出故障站点。
4.故障定位到单站后,通过线路、支路环回,进一步定位可能存在故障的单板。
最后结合其它方法,确认存在故障的单板,并通过换板等方法排除故障。
环回法小结环回法不需要花费过多的时间去分析告警或性能事件,而可以将故障较快地定位到单站乃至单板。
方法操作简单,维护人员较容易掌握。
但是,假若所环回的通道内有其它正常的业务,环回法必然会导致正常业务的暂时中断,这是该方法最大的一个缺点。
因此,一般只有出现业务中断等重大事故时,才使用环回法进行故障排除。
替换法替换法是判断和定位故障的方法之一。
概述替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。
这里的物件,可以是一段线缆、一个设备或一块单板。
替换法的应用替换法既适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;也适用于故障定位到单站后,用于排除单站内单板的问题。
替换法实际应用举例如图1的示例中,如果怀疑NE3站发与NE4站收之间的光纤有问题,则可将NE3站与NE4站间收、发两根光纤互换。
若互换后,NE3站东向光板的收有R_LOS告警,则说明是光纤的问题;若互换后,故障现象与原来一样,则说明光纤没有问题,而是光板的问题。
此时,可以进一步使用替换法,分别替换NE3站东向光板和NE4站西向光板,来定位到底是哪块光板的问题。
如果支路板某个2M通道有T_ALOS告警,我们怀疑是交换机或中继线的问题,则可与其它正常通道互换一下。
若互换后T_ALOS告警发生了转移,则说明是外部中继电缆或交换机的问题;若互换后故障现象不变,则可能是传输的问题。
利用“替换法”,我们还可以解决其它如电源、接地等问题。
替换法小结替换法的优势是:简单,对维护人员的要求不高,是一种比较实用的方法。
但该方法对备件有要求,且操作起来没有其他方法方便。
插拔单板时,若不按规范执行,还可能导致板件损坏等其他问题的发生。
配置数据分析法配置数据分析法是判断和定位故障的方法之一。
概述在某些特殊的情况下,如外界环境条件的突然改变,或由于误操作,可能会使设备的配置数据——网元数据和单板数据遭到破坏或改变,导致业务中断等故障的发生。
此时,在将故障定位到单站后,可使用配置数据分析法进一步定位故障。
配置数据分析法的应用通过查询、分析设备当前的配置数据是否正确来定位故障。
配置数据包括:复用段的节点参数、线路板和支路板通道的环回设置、支路通道保护属性、通道追踪字节等。
例如某支路板的SNCP保护不倒换,我们就需要查看该支路板的通道属性是否已配置为保护。
对于网管误操作,还可以通过查看网管的操作日志来进行确认。
配置数据分析法小结配置数据分析法适用于故障定位到单站后故障的进一步分析。
该方法可以查清真正的故障原因。
但该方法定位故障的时间相对较长,且对维护人员的要求非常高。
一般只有对设备非常熟悉、且经验非常丰富的维护人员才使用。
更改配置法更改配置法是判断和定位故障的方法之一。
概述更改配置法所更改的配置内容可以包括:时隙配置、板位配置、单板参数配置等。
因此更改配置法适用于故障定位到单站后,排除由于配置错误导致的故障。
另外更改配置法最典型的应用就是用来排除指针调整问题。
更改配置法的应用如怀疑支路板的某些通道或某一块支路板有问题,可以更改时隙配置将业务配置到另外的通道或另一块支路板;若怀疑某个槽位有问题,可通过更改板位配置进行排除;若怀疑某一个VC-4有问题可以将时隙调整到另一个VC-4。
在升级扩容改造中,若怀疑新的配置有错,可以重新下发原来的配置来定位是否配置问题。
但需要注意的是,我们通过更改时隙配置,并不能将故障确切地定位到是哪块单板的问题——线路板、支路板、交叉板还是母板问题。
此时,需进一步通过“替换法”或“环回法”进行故障定位。
因此,该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。
应用更改配置法在定位指针调整问题时,可以通过更改时钟的跟踪方向以及时钟的基准源进行定位。
更改配置法小结由于更改配置法操作起来比较复杂,对维护人员的要求较高。
因此,通常只在没有备板的情况下,为了临时恢复业务而使用;或在定位指针调整问题时使用。
此外在使用该方法前,应保存好原有配置,同时对所进行的步骤予以详细记录,以便于故障定位。
PRBS功能测试法PRBS(Pseudo-Random Binary Sequence)功能测试法是判断和定位故障的方法之一。
概述伪随机码测试(PRBS)模块相当于一个简单的自发自收的非成帧业务的仪表。
在开局或问题定位时,可以做到无仪表测试,一般用于网络的自检和维护。
实现了PRBS功能的网元,可以作为一个简单的仪表,分析业务通道是否有故障。
既可以分析本网元,也可以分析整个网络的情况。
PRBS功能测试法应用PRBS测试法分为低阶业务PRBS功能测试和高阶业务PRBS功能测试。
OptiX 155/622H只支持低阶业务PRBS功能测试。
启用低阶PRBS功能后,在相应位置进行环回,就可以进行交叉方向、支路方向、线路方向测试。
根据是否检测到误码判断相应测试通道的工作状态。
低阶业务PRBS功能测试:PRBS模块集成在支路板实现,如图1所示。
图1 低阶业务PRBS测试信号流由支路板发起的PRBS功能测试,可以向两个方向发送。
向电口侧发送:经电缆环回(或经过别的网元环回),可检测支路板发送方向的端口是否工作正常。