ZXJ10(V10)交换机模块间通讯处理
ZXJ10(V10)交换机是一种大型局用交换机,其处围模块数可达62个模块,总容量超过50万线。
这样一个庞大的交换系统,为保证系统的正常运行,尤其是各模块间的通讯畅通,就必须有一种安全、稳定的通讯系统。
ZXJ10(V10)交换机采用安全、可靠的HDLC通讯方式,保证系统能够长时间地稳定运行。
一、模块间通讯通路的建立。
(一)、物理通路的建立:
如下图所示:
MP和COMM(MPMP)板间通过后背板上的总线相连,MP级的DSNI板完成COMM板上平衡2M数据流至NET板差分2M数据流的转换,通讯时隙在T网上通过半固定连接桥接至FBI板或SP级的DSNI板,再通过DT/ODT连至PSM或RSM的相应时隙。
(二)、数据配置
数据配置实质上是半固定接续的建立过程,即将各单板上的2M或8M时隙中取8个时隙,每4个时隙构成一个超信道,这些时隙在经过半固定接续后,将中心网的MP
和处围模块的MP连接起来,从而建立起各模块间数据传送的通道。
模块间通讯数据的配置涉及以下几个方面:
1、中心网的配置
中心网的配置主要完成9#、10#平面至1#平面的半固定连接,这一部分实际包括了9、10两网和1~4平面的所有连接,也就是将2#模块和1#模块连接起来。
具体配置详见有关文档。
这一部分配置好后,即打通了远端DT/ODT至中心网1#平面的连接
2、外围模块至中心网的组网配置
完成外围模块至中心网的半固定连接,有二种方法:一是通过DT连接,二是通过ODT/ODRV方式连接。
A、通过DT相连,这种方法是一种较常见的方法。
这只需选定DT上PCM的8个时隙
和T网的半固定连接对应起来即可,这8个时隙可放于同一个PCM,也可每4个
一组(一个超信道),分位于两个PCM上(推荐);
B、通过ODT相连,一般用于中心架和A型近端间的连接,此时通讯时隙已固定在
第15HW,具体连接方法可见相关文档。
二、问题处理。
模块间通讯一般有两种问题:一种是模块间通讯阻断,从而造成模块间的各种数据传送均告失败;一种为模块间通讯不畅,其后果为模块间电话不通,文件管理系统不正常,但模块间通讯未完全中断。
(一)、模块间通讯阻断。
1、现象:后台告警有“模块间阻断”告警消息,后台不可见该模块数据或消息。
MONIPROJ中通讯链路断。
2、故障分析:在出现这一故障时,应冷静处理,逐步进行。
模块间通讯链路的建立如下(以SNM->RSM为例):
SNM上MP<->COMM<->DSNI(MP)<->T网<->DSNI(SP)<->DT/ODT<->远端DT/ODRV<->DSNI(SP)<->T网<->DSNI(MP)<->COMM<->MP
查找步骤如下:
1、查看中心架至RSM间的传输中继是否好,这可通过查看后台告警中有无
对应该模块的中心架上PCM告警(走通讯时隙),或直接至机架前看对
应PCM灯是否长亮来辨别。
如是,则查看传输系统是否正常,中心架及
远端DT是否工作正常。
一般来说,对一个已正常运行一时间的系统来
说,传输出问题的可能较大。
2、如非中继问题,且更换对应DT板后,故障仍旧,则可考虑是否为对应
DSNI板(与DT相连)是否正常,DT和DSNI板间相连的HW线是否
好,这可通过更换正常的单板及HW线来辨别(在试验是否为DSNI故
障是,应只保留一块在机架上,另一块拔掉)。
如不能排除,则至下一步
3、主备T网倒换,倒换及至更换MP级DSNI板,排除T网及DSNI板的
故障,一般应可排除,此种情况应为DSNI板故障引起较多。
如仍不能
解决,则至下一步
4、复位对应通道上的COMM板,通过MONIPROJ观察通讯时隙是否可用,
解决可能由于COMM程序问题引起的通讯中止问题。
(一般来说不大可
能两块COMM均坏)
5、MP倒换,及MP复位,解决可能的MP内存问题,这一问题出现时,可
通过探针来观察其模块间数据是否存在且正确(R_mtree、R_tsmap
R_nerghbor、R_hwmap、R_hwset等表)。
6、若在上述步骤后均不能解决,则可考虑将该模块移至一正常使用的通道
上看是否正常,若正常,则为后背板(BCTRL)问题,如仍不行,则应
通知南研所开发人员复查软件问题。
注:若是在开局时发生上述故障,则应重点查DSNI板(MP级和SP级的跳
线或该板本身是否正常)
(二)、模块间通讯不畅
1、故障现象:告警后台无模块间通讯阻断消息,但电话已不可通;文件管理中对
MP的DATA目录观察时好时坏,时钟维护中可看到该模块号。
2、分析解决:一般来说,在发生上述现象时,通过MONIPROJ要看到对应该模
块的通道有CIC误码或有FRAMEDROP,且较为严重。
其中,CIC误码的产
生一般和传输系统有关联,因此应重点查和PCM直接相关的东西,如传输通
路、DT板、DSNI板,当然也可能和MPMP有关。
而对于FRAMEDROP错
来说一般需重点考虑时钟系统,在CIC误码大的情况下,也可能性产生这一
错。
三、MONIPROJ用法:
V10版机提供了一个可以观测前台通讯数据的工具:MONIPROJ,它主要用来观察前台当前通讯信道的半固定连接是否存在以及是否可用,信道上的通讯质量如何等,也可对模块内的各通讯板数据进行观察,还可以调试观察前台MP上有内存分配及使用情况。
熟练
的使用它,可迅速定位故障位置,达到事半功倍的效果。
在‘模块间BOARD数据’及‘模块间MP数据’两页中可对前台模块间的通讯数据进行观察,如图一至图四所示。
在‘模块间BOARD数据’页中,‘模块选择’表示需观察的模块,‘通信板选择’表示要观察模块上的COMM板位置,对A型机来说,COMM板是从右至左数,因而对于模块间的MPMP板而言,即只能是第五、六号通信板。
对B型机RSM/PSM来说,COMM板从左至右,一般13、14两槽位为模块间通讯板。
在中心架上,则只有1号模块上的COMM板为模块间通讯板(2号模块上13、14两槽位的MPMP板只用来和1号模块互通),共可插6对,由于每对COMM板上只有8个通道,因而中心架本身最大只可能带48个外围模块。
‘观察选项’选中‘基本状态’项,可观察选定通信板所连的模块及这条链路的通断情况,从‘通信板状态’项也可看该块通信板是否处于工作状态。
见图一所示。
图一、基本状态
选中‘收发记录’项,弹出如图二所示图。
在这项中,可观察某一选定信道的通讯质量,如是否有CIC误码等。
在正常情况下,链路当前状态应为1,表示链路已连接,链路通断计数及链路重发计数均应不变化且值应较小,收、发帧错误或丢弃计数均应无变化(点击刷新按钮),而收、发帧计数值应不断变化增加。
如出现收、发帧错误或丢弃较多,则此信道通讯质量下降,严重时将导致模块间通讯中断,即使不中断,也可能出现跨模块电话不通的故障。
图二收发记录
在观察到信道有误码或有丢弃帧后,可选取中‘线路状态’,以观察原因,如图三所示。
图三线路状态
选择需观察的通信板,点击‘数据刷新’按钮,若收或发的CIC值不停增加,则必为线路问题,应着重查传输系统(交换机侧主要是DT板),对CRC_NONINT也一样,对ABORT 则应看COMM板通信是否正常。
一般来说,如发上有CRC,则应查本端,若收上有,则应查对端。
也可以通过看模块间MP上数据来定位故障,如图四所示。
图四模块间MP数据
点击选中Record,弹出如图四所示界面,其中,模块号选发端,目的模块选收端模块。
点击数据刷新按钮,则应看到数据区有变化。
其中,MOUDLE指目的模块号,Txcount为发端所发数据的计数,TxAbort为发送丢弃项,若此项有变化,则应为发端COMM有问题OverLoad、TooLong、FrameDrop等均在线中有问题时产生,一般此时应有CRC误码。
应重点查时钟系统或传输部分。
End.。