当前位置:文档之家› 参考第3章故障定位的基本思路与方法

参考第3章故障定位的基本思路与方法

第3章故障定位的基本思路与方法本章介绍常见故障的基本处理思路和方法。

包括:●对维护人员的要求●故障定位的基本原则●故障判断与定位的常用方法●故障处理的过程示例3.1 对维护人员的要求快速定位和及时排除光传送系统的故障,对维护人员的业务技能、操作规范等都有很高要求。

维护人员应做到以下应知应会。

3.1.1 专业技能1. 熟练掌握SDH的基本原理参见《光同步数字传送网》主编:韦乐平人民邮电出版社。

2. 熟练掌握传输系统告警信号流及告警产生的机理参见《OptiX OSN 3500/2500/1500智能光传输系统维护手册告警及性能事件分册》。

3. 熟练掌握以下常见告警信号的处理(1)线路告警●R_LOS●R_LOF●R_OOF●AU_AIS●AU_LOP●MS_AIS●MS_RDI●B1_EXC●B2_EXC●HP_LOM●HP_SLM●HP_TIM●HP_UNEQ(2)支路告警●TU_AIS●TU_LOP●T_ALOS●P_LOS●EXT_LOS●UP_E1_AIS●LP_RDI●LP_SLM●LP_TIM●LP_UNEQ●B3_EXC(3)保护倒换告警●PS(4)时钟告警●LTI●SYNC_C_LOS●SYN_BAD(5)设备告警●POWER_FAIL●FAN_FAIL●BD_STATUS告警信号的处理方法,参见《OptiX OSN 3500/2500/1500智能光传输系统维护手册告警及性能事件分册》。

4. 熟练掌握传输设备和网管的基本操作参见网管操作手册和网管的联机帮助。

5. 熟练掌握传输常用仪表的基本操作传输设备在维护中常用的仪表包括:2M误码仪、光功率计、SDH分析仪、示波器、万用表等,使用方法参见各仪表的使用手册。

3.1.2 工程组网信息●熟悉组网情况。

●熟悉业务配置。

●熟悉设备运行状况。

●熟悉工程文档,并作好工程文档的维护工作。

3.1.3 故障现场数据的采集与保存●采集并保存设备的告警及性能事件。

●采集并保存各网元及单板的配置数据。

●采集并保存各网元及单板的运行状态数据。

●采集并保存网管的操作日志。

3.2 故障定位的基本原则故障定位关键是:将故障点准确地定位到单站。

故障定位的一般原则可总结为四句话:先外部,后传输;先网络,后网元;先高速,后低速;先高级,后低级。

故障定位的一般原则可总结如下:●先定位外部,后定位传输。

在定位故障时,应先排除外部的可能因素,如光纤断,对接设备故障或电源问题等。

●先定位网络,后定位网元。

在定位故障时,首先要尽可能准确地定位出是哪个站的问题。

●先高速部分,后低速部分。

从告警信号流中可以看出,高速信号的告警常常会引起低速信号的告警;因此在故障定位时,应先排除高速部分的故障。

●先分析高级别告警,后分析低级别告警。

在分析告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分析低级别的告警,如次要告警和提示告警。

3.3 故障判断与定位的常用方法故障定位的常用方法可简单地总结为:“一分析,二环回,三换板”。

当故障发生时,首先通过对告警、性能事件、业务流向的分析,初步判断故障点范围。

然后,通过逐段环回,排除外部故障或将故障定位到单个网元,以至单板。

最后,更换引起故障的单板,排除故障。

对于较复杂的故障,需要综合使用表3-1所示的方法进行故障定位和处理。

表3-1 复杂故障的定位和处理3.3.1 告警、性能分析法SDH信号的帧结构里定义了丰富的、包含系统告警和性能信息的开销字节。

因此,当SDH系统发生故障时,一般会伴随有大量的告警和性能事件信息,通过对这些信息的分析,可大概判断出所发生故障的类型和位置。

获取告警和性能事件信息的方式有以下两种:●通过网管查询传输系统当前或历史发生的告警和性能事件数据。

●通过传输设备机柜和单板的运行灯、告警灯的状态,了解设备当前的运行状况。

1. 通过网管获取告警信息,进行故障定位通过网管获取故障信息,定位故障的特点是:●全面:能够获取全网设备的故障信息。

●准确:能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值。

●如果告警、性能事件太多,可能会面临无从着手分析的困难。

●完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。

下面通过举例,对告警、性能数据分析法给予说明。

在如图3-1所示的链形组网中,网管计算机设在NE1站。

图3-1 链形组网图故障现象:NE1站和NE4站间的E1业务中断,从NE1站无法登录NE4站,且NE3站东向光板有MS_RDI告警和HP_RDI告警,NE1站与NE4站间的业务所对应的E1通道有LP_RDI告警。

分析判断:通过分析告警,可知NE4站没有正确接收到NE3站发出的信号,而NE3站能正确接收到NE4站发出的信号。

可能的故障原因包括:●NE3站东向光板发送信号有问题。

●光缆线路问题(包括光纤和光纤接头)。

●NE4站光板的接收信号问题。

故障定位:借助于网管软件,可以通过修改业务配置、人工插入告警等方法,对故障进行定位。

例如,若我们怀疑图3-1中NE2站与NE3站间光纤接反(即NE2站的东向光接口板误接NE3站的东向光接口板),则可以通过网管在NE2站东向光接口板人工插入HP_RDI,然后通过网管观察NE3站告警上报情况:●若是西向光接口板上报HP_RDI告警,则说明NE2站的东向发送端接的是NE3站的西向接收端,光纤连接正确。

●若是NE3站的东向光接口板上报了HP_RDI告警,则说明NE2站东向发送端接到了NE3站的东向接收端,光纤接反,需要纠正。

注意:通过网管获取告警或性能信息时,应注意保证网络中各网元的当前网元运行时间设置正确,倘若网元时间设置错误,将会导致告警、性能信息上报错误或根本不上报。

在维护过程中,对某网元重下配置后,应特别注意将该网元的网元时间设为当前时间,否则网元会工作在缺省时间里,而缺省时间并不是当前时间。

2. 通过设备上的指示灯获取告警信息,进行故障定位OptiX OSN 3500/2500/1500 设备上有不同颜色的运行和告警指示灯,这些指示灯的状态,反映出设备当前的运行状况或存在告警的级别。

机柜顶部指示灯的状态及含义参见《OptiX OSN 3500/2500/1500智能光传输系统设备手册》。

OptiX OSN 3500/2500/1500单板一般都有4个指示灯,其含义参见《OptiXOSN 3500/2500/1500智能光传输系统设备手册》。

3. 两种获取故障信息途径的比较从上面的介绍可以看出,通过网管与通过观察设备指示灯这两个途径获取设备故障信息,各有其优点。

因此,在实际的故障定位过程中,这两种手段要结合起来使用。

排除故障时,需要网管中心的维护人员与各站的设备维护人员共同参与,一般由网管中心的维护人员协调指挥,各站的设备维护人员密切配合,统一行动。

两种途径的比较如表3-2所示。

表3-2 通过网管和指示灯获取故障信息途径的比较3.3.2 环回法1. 概述环回法是SDH传输设备定位故障最常用、最行之有效的一种方法。

该方法最大的一个特色就是定位故障,可以不依赖于对大量告警及性能数据的深入分析。

作为一名SDH传输设备维护人员,应熟练掌握。

警告:环回操作可能会影响正常的业务,建议在业务量小的时候使用。

环回操作分为软件、硬件两种,这两种方式各有所长:●硬件环回相对于软件环回而言环回更为彻底,但它操作不是很方便,需要到设备现场才能进行操作;另外,光接口在硬件环回时要避免接收光功率过载。

●软件环回虽然操作方便,但它定位故障的范围和位置不如硬件环回准确。

比如,在单站测试时,若通过光口的软件内环回,业务测试正常,并不能确定该光板没有问题;但若通过尾纤将光口自环后,业务测试正常,则可确定该光板是好的。

2. OptiX OSN 3500/2500/1500 对软件环回操作的支持OptiX光传输系统的软件环回操作及应用特点如表3-3所示。

表3-3 OptiX光传输系统软件环回操作及应用由于支路板环回、线路板环回可将故障定位到单站,同时可初步定位支路板、线路板是否存在故障,因此在实际中使用最多,要求维护人员熟练掌握。

交叉时钟板环回可用于初步定位单站故障是线路侧故障、支路侧故障还是交叉故障,同时还可以定位出是哪一侧的线路板故障。

由于交叉时钟板环回操作起来比较复杂,一般很少使用。

窍门:实现交叉时钟板环回最简单的方式就是通过网管配置一个线路板或支路板的环回业务。

当然,环回前先要作好业务备份工作,以便恢复业务时使用。

3. 环回法的使用在进行环回操作前,需确定对哪个通道、哪个时隙环回?应该在哪些位置环回?应该使用哪种环回——外环回,还是内环回?这可分四个步骤进行。

窍门:对于同时出问题的业务,一般都具有一定的相关性,因此只要恢复其中的一个业务,其他的业务常常能自动得到恢复。

另外,采样简化的思路,也常常使得故障的分析、处理显得更加清晰、简单。

尤其是在出故障的业务比较复杂的情况下,采样简化的方法更加显得行之有效,甚至是故障定位思路的出发点或突破口。

4. 环回法实际应用举例环回法实际应用案例参见《OptiX OSN 3500/2500/1500智能光传输系统维护手册故障处理分册》第1章的“1.2.8 环回举例”。

5. 环回法小结环回法不需要花费过多的时间去分析告警或性能事件,而可以将故障较快地定位到单站乃至单板。

方法操作简单,维护人员较容易掌握。

但是,假若所环回的通道内有其他正常的业务,环回法必然会导致正常业务的暂时中断,这是该方法最大的一个缺点。

因此,一般只有出现业务中断等重大事故时,才使用环回法进行故障排除。

3.3.3 替换法1. 概述替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。

这里的物件,可以是一段线缆、一个设备或一块单板。

2. 替换法的使用替换法既适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;也适用于故障定位到单站后,用于排除单站内单板的问题。

3. 替换法实际应用举例如图3-1的示例中,如果怀疑NE3站发与NE4站收之间的光纤有问题,则可将NE3站与NE4站间收、发两根光纤互换。

若互换后,NE3站东向光板的收有R_LOS告警,则说明是光纤的问题;若互换后,故障现象与原来一样,则说明光纤没有问题,而是光板的问题。

此时,可以进一步使用替换法,分别替换NE3站东向光板和NE4站西向光板,来定位到底是哪块光板的问题。

如果支路板某个2M通道有T_ALOS告警,我们怀疑是交换机或中继线的问题,则可与其他正常通道互换一下。

若互换后T_ALOS告警发生了转移,则说明是外部中继电缆或交换机的问题;若互换后故障现象不变,则可能是传输的问题。

相关主题