常见华为软交换故障
一.故障分类
华为软交换MSCServer今年第一季度故障根据有没有派单分成两类,有派单的是告警台上有相关告警,可以监控到的故障;另外一类是监控不到的,日常巡检中发现的故障。
以下是总结第一季度故障的具体类型。
1、派单故障:
2、巡检故障:
二.派单故障分析和处理
根据故障的类型,简单介绍和分析故障,并给出处理意见和方法。
1.磁盘空间告警
告警信息:XX局介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单(D:\FORNTDAVE)15天,第一份最终话单(E:\BACKSAVE\X3KM\(HZM01))15天,第二最终话单(E:\BACKSAVE\SECOND\X3KM\(HZM01))90天。
告警处理:删除部分格式转换后的话单,剪切部分最终话单到应急工作站(暂时),新建话单备份机,在IGWB上压缩话单(待实现)。
告警级别:重要。
需及时处理,否则出现严重空间不足引起IGWB倒换。
2.单板故障
告警信息:WSMU 板故障;单板CPU自检故障。
告警分析:该故障由单软的软件或硬件故障引起。
告警处理:1.复位 2.拔插 3.更换
注意:一般要求处理单板故障必须在凌晨话务低时操作,对于备份的单板,只能对备用单板进行操作。
告警级别:重要。
涉及到WIFM,WBSG,WMGC,WCDB,WVDB,WSMU,WCSU等重要的单板需要向上级申请,及时更换单板或晚上操作。
3.电源故障
告警信息:-48V 电源提供故障。
告警分析:根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。
告警处理:观察一段时间,DSP PDB可查看当前电压值,分析告警原因,如果电压值正常,可通过SET PDBALMTHD:;设置PDB告警阀值恢复告警,如果是电源故障需联系动力值处理。
告警级别:紧急。
此告警需紧急上报和处理,电源系统故障严重会影响交换机运行,影响业务。
4.IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
可查看C:\IGWB\TRACE下的信息,根据倒换的原因作相应的处理,常见的倒换原因如下:
告警级别:紧急。
需要紧急上报和处理,IGWB故障影响话单的接收,严重时造成话丢失。
5.传输故障
告警信息:WEPI E1信号丢失。
告警分析:无
告警处理:自环检测,如是本端问题则重做接口、换线或者换板,否则转传输室处理。
告警级别:紧急。
需要马上处理,如该端口有开到LSTP或者MSS的信令,传输故障引起信令链中断,影响业务。
6.IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。
主要检查这些进程有没有大量占用内存空间。
现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
告警级别:重要。
需要跟进处理。
7.IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。
一
份保存在备机的E:\BillforBs,保存1000个文件,通过SmartBackup实现;一份保存在E:\ finabill_bak,保存时间为90天,通过C:\IGWB\CONFIG\igwb.ini文件的配置信息实现。
告警处理:停止开启SmartBackup备份任务;重启SmartBackup软件;重启IGWB进程。
告警级别:重要。
需及时处理。
此故障引起话单无法备份。
8.网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插网线,禁用启用网卡,重启lanswitch端口,重启BAM。
告警级别:紧急。
需要马上处理,必要时要用应急工作站代替BAM,此故障发生导致BAM无法连接主机,相当于BAM瘫痪,无法对网元操作及维护。
9.MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止& 路由不可用;MTP链路故障/MTP 链路定位失败;
SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息。
告警级别:紧急。
需马上处理,M3UA路由传输禁止& 路由不可用,SCCP目的信令点禁止,可能引起到目的局的业务中断。
三.巡检故障分析和处理
1.硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
告警级别:重要。
需要跟进处理。
2.电源模块故障
故障现象:服务器前面告警灯亮红灯,电源模块上的绿灯不亮。
故障分析:华为软交换的BAM,IGWB服务器都采用双电源输入的工作方式,电源支持热拔插。
电源更换后上电时要注意,因为接的是机柜的电源,如果电源模块异常可能引起机柜输入电源跳闸,影响到同机柜的其他设备。
故障处理:更换电源模块。
告警级别:紧急,需要马上联系工程师更换故障电源模块。
3.备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
4.告警级别:重要。
需要跟进处理,备用IGWB磁盘空间不足,当主用IGWB故障
发生倒换时,备用空间IGWB空间不足会引起倒换不成功,造成话单丢失。
5.主机时间偏差
故障现象:检查主机系统时间发现msoftx3000的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。
可以通过指令SET TIME修改,或者直接改BAM的系统时间。
告警级别:重要。
需跟进处理,此故障引起话单时间产生影响,严重时间偏差导致呼叫失败。