当前位置:文档之家› 中国移动技术规范

中国移动技术规范

中国移动技术规范文档编号:中国移动PTN故障智能辅助定位功能需求规范书文档版本:Version 1.0版权声明:版权归中国移动通信集团公司所有,未经中国移动通信集团公司书面许可,任何单位或个人不得以任何形式全部或部分使用和传播本技术规范。

发布日期:2019年10月发布单位:中国移动通信集团公司本技术规范根据中国移动PTN网络维护效能提升管理需求而制定,随着网络管理需求的不断深化,本技术规范的相关内容将会修改和完善。

本技术规范的解释权属于中国移动通信集团公司。

本技术规范由中国移动通信集团公司提出并归口。

本技术规范起早单位:中国移动通信集团公司网络部本技术规范主要起草人:集团公司:邓春胜、邓宇省公司:党志俊、娄文科、田志坚、黄垣森、杨彬、张剑、夏志超、李勇、梁静海、张跃明、彭鹏刖言 (2)目录 (3)1•概述 (4)2.术语、定义和缩略语 (4)2.1术语和定义 (4)2.2缩略语 (4)3.功能需求 (5)3.1 告警相关性分析 (5)3.1.1告警根源性分析 (5)3.1.2告警相关性原则 (6)3.2业务相关性分析 (6)3.3故障辅助分析及定位 (6)3.3.1用户界面 (7)3.3.2故障定位手段 (7)3.3.3故障定位结果 (8)1 •概述研究各种典型场景下PTN网络故障诊断定位方法,包括业务故障、光缆故障、设备故障、时钟故障、DCN故障、业务性能劣化等,开发出故障智能辅助定位工具,实现一键式故障智能诊断及故障原因智能输出,并给出常见故障处理建议,提高运维人员现场维护效率及能力。

该辅助定位功能具备以下模块:—告警相关性分析—业务相关性分析—故障智能分析和定位2.术语、定义和缩略语2.1术语和定义下列术语和定义适用于本技术规范:网元管理系统Element Management System简称EMS,由设备供应商提供,是为了管理一个或多个传送网网元所使用的软硬件系统。

网元管理系统管理由单一设备供应商提供的网元。

2.2缩略语F申囲移瑚通信3.功能需求3.1告警关联分析3.1.1告警相关性分析告警相关性分析是指通过分析一定时间段内设备上报的告警,根据一定规则,识别出根因告警和衍生告警,并呈现给网管维护人员。

网络运维人员在定位故障时,可以优先根据根因告警的信息进行故障定位,避免衍生告警对定位故障的干扰,从而提升定位故障的效率。

针对海量上报的告警,能够依据一定的规则,将告警进行分析和分类,找出根源告警和衍生告警,并能够根据根源告警给出可能的故障原因。

将衍生告警隐藏或分开在不同界面显示,使用户聚焦于根因告警处理。

告警相关性分析的界面应该支持根原因告警标识,相应的衍生告警隐藏,在需要的时候,可以通过展开或跳转等不同形式查看到衍生告警。

具备一键式在海量告警中显示根源告警功能,且点击根源告警,可以查看其相关联的衍生告警。

中園程动通佶CHINA MQniLE3.1.2告警相关性原则系统应该具备对告警关联性定制的功能,关联规则包括添加,编辑,查询,删除等操作。

关联规则条件包括:— 产生在相同对象上的 口警。

- 产生在业务的上下游之间有告警。

— 产生于业务对端的告警 警。

3.2业务关联分析网元告警基于业务上 报:当网络出现故障,影响到业务的开通,相关告警会直接反应到端到端业务管理界 面;在告警管理中,可以快速定位到告警 影响的业务。

3.3故障辅助分析定位针对典型的故障场景,能够实现自动化故障定位,给出可能的 本规范尚未覆盖的场 景,能够提供故障的排除指导。

故障发生时,网管能够快速定位到本次影响的线路、设备或业 辅助定位工具或者通过故障处理向导定位和排除故障。

I 原因和处理建议。

对于务,进而可以通过故障故障智能分析和定位要求覆盖以下场景:—业务中断类CES业务中断CES业务承载的基站业务中断CES业务承载的基站业务有误码ETH专线业务中断E-LINE配置不通E-LINE业务承载的业务中断E-LINE业务承载的业务有丢包ETH专网业务中断(含广播风暴)E-Lan业务承载的业务中断;E-Lan业务承载的业务有丢包或者特殊的报文丢包;Tunnel/PW中断等Tunnel 承载的PW(CES/ATM/L2VPN/L3VPN)业务中断Tunnel承载的PW(CES/ATM/L2VPN/L3VPN) 业务有误码、丢包—业务性能劣化类CES业务误码过大ETH业务丢包率过大一其他类DCN故障网元运行中突然脱管网元DCN配置就不通网元运行中闪断3.3.1用户界面—输入:维护人员监控到告警,提示线路、设备或业务出现故障;维护人员接到客户投诉业务出现故障,输入故障影响的物理信息。

—处理:维护人员监控到告警,利用网管进行故障根因的初步分析,并评估故障对业务的影响,协助故障定位维护人员接到客户投诉业务出现故障,根据输入的故障信息,辅助分析。

一输出:故障的可能原因和处理建议。

332分析定位原则基本原则为:先主后次、由外而内、逐步深入。

先主后次故障产生时通常伴随着告警,首先需要分析告警,在分析大量告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分析低级别的告警,如次要告警和提示告警。

在分析相同严重级别告警时,应首先分析底层告警,再逐步向上层告警分析。

搏肆黒E1>_LOS) 植瞎忌(ffli MAC. FCS E^C)PW层MFHS.PW^LOrvl 仿真业务H!(側・fTH_CFM_LOC)低由外而内在界定故障类型时,应先排除外部的可能因素,如链路故障、电源故障、温度过高等, 其次是排查配置是否正确,如时钟跟踪、对接参数、门限设置等最后才是具体定位故障点。

逐步深入啊;中團璃动通信X^rCHlNA MOniLti:中国移动PTN故障智能辅助定位功能需求规范书在定位故障点时,遵循逐步缩小范围的原则,先确认是网络侧问题还是用户侧问题,然后进一步定位到是某一段链路或故障网元的某块处理板。

KodeB/B巧故障?RNC/BSCAfi障*332分析定位手段针对各类典型故障,故障定位手段包括但不限于:—告警分析;当设备发生故障时,一般会伴随着告警产生。

通过对告警的分析,可大概判断出发生故障的类型、时间和位置:应用示例:如下图BSONodeB NE 1 ME 2NE 3NE 4 BT5/RNC故障现象:NE1站和NE4站间的ETH业务中断,通过分析业务配置,梳理出业务在PTN网络内经过Link1、Link2、Link3三段链路。

定位过程:根据业务所在TUNNEL,在TUNNEL管理界面右键查询当前告警,发现NE2 站与NE3站均有ETH_LOST 告警,该告警对应的以太链路为Link2。

通过分析告警,可知NE2站与NE3站存在链路故障。

—OAM检测(ping/traceroute 或LB/LT等);OAM机制可以有效地检测和监控各个层面的内部运行状态。

通过相应的OAM功能,可以实现故障点的定位或运行状态的监控。

_____________ 虐戟壮OAMIMP LS OAM) __________________________ r 毘席层OAM-^ATMOA METH Link OAIU^ 键席层OAM (A L TMOAIULETH Link O A M)—链路/业务两端配置正确性、一致性检查;在某些特殊的情况下,如外界环境条件的突然改变,或由于误操作,可能会使设备的配置数据一一网元数据和单板数据遭到破坏或改变,导致业务中断等故障的发生。

这时需要我们对配置数据进行排查,内容包括不限于:端口相关配置业务相关配置隧道相关配置保护相关配置—端口/业务性能计数检查等;单板性能统计分析法是通过“当前性能”和“ RMON性能”来分析单板、端口、Tunnel、PW的性能统计数据是否正常,以此来判断是否存在故障。

RMON ( Remote Monitoring)即远程监控,启用RMON 功能可实现本站点和对端站点间的远程监控。

通过查询本站点对应以太网业务单板的RMON 性能,即可了解对端站以太网单板的业务性能和告警等信息,再结合其他故障定位手段,可以定位业务中断或性能劣化的位置。

应用示例BSC/nodoB NE 1 NE2 NE 3NE 4 BTS/HNC 故障现象:NE1站和NE4站间的CES业务中断,通过分析业务配置,梳理出业务在PTN网络内经过Link1、Link2、Link3三段链路。

定位过程:通过逐断建测试Tunnel ,做Tunnel单项Ping测试。

发现当Tunnel Ping报文设为1024时,从NE2往NE3方向有丢包。

可能的原因有三个:(1)NE2发送侧丢包(2)NE3接收侧丢包(3)中间链路丢包为了进一步确认故障点,需要做性能统计分析,如下如下图,NE2网元以每周期100个的速率发送1024字节的报文:T話如下图,NE3网元接收1024字节报文的速率是每周期90 个:由此判断是中间链路丢包,后经确认中间存在波分设备,是中间网络出现丢包。

一环回测试(提供远端和近端的客户侧信号环回测试)环回法是一种通过环回隔离的方式将故障点逐步缩小范围,进一步准确的定位到单站, 甚至单板的方法。

该方法主要用于以下场景:定界问题故障是否在PTN网络内部定位故障点具体在哪个网元应用示例如下图所示,通过综合基站侧内环测试和RNC侧外环测试的结果,可以定界问题故障是否在PTN网络内部:情况1 :基站侧内环测试PTN之间链路故障OK、RNC侧外环测试OK :则可能是基站故障,或是基站与情况2:基站侧内环测试NOK、RNC侧外环测试NOK :则可能是RNC故障,或是RNC与PTN之间链路故障情况3:基站侧内环测试NOK、RNC侧外环测试0K :则可能是PTN网络内部故障333故障定位结果通过一个或多个故障定位手段的结合使用,故障定位工具应能分析出的典型故障原因包括但不限于:1)业务配置故障—TDMk务配置故障包括装帧时间、帧格式等配置不一致等—以太网业务配置故障包括Vian、优先级、MT等配置不一致,配置带宽不足,专网水平分割组未配置等—隧道和OAME置故障包括标签、下一跳IP、OA检测周期等配置不一致等—伪线和OAME置故障包括标签、PW类型、OA检测周期等配置不一致等2)设备故障—光模块故障包括光模块损坏、光模块不匹配、光模块光功率异常等。

一电源板卡故障—主控板故障—线卡故障3)光缆故障—光缆故障包括光缆断纤、尾纤松动、光线路口坏等。

—光缆性能质量劣化包括光光功率衰减过大等4)DCN故障—线路故障—硬件故障—软件故障故障定位输出结果中应包含具体故障位置。

相关主题