ZXJ10交换机故障预防中电投乌苏热电分公司(高军照修注)目录1. 病毒感染 (1)2. 网络风暴 (2)3. 传输故障 (3)4. 对端设备问题 (4)5. 雷击 (5)6. 日常维护 (6)6.1 服务器C盘空间不足 (6)6.2 服务器数据库空间不足 (6)6.3 数据未及时备份 (7)6.4 数据未及时转储 (8)6.5 机房环境不符合要求 (8)6.6 线缆松动 (9)7. 机房停电 (10)8. 误操作 (11)8.1 数据配置误操作 (11)8.2 硬件操作不规范 (12)9. 未购买维保服务 (13)- 2 -前言随着消费者对通讯服务要求的日益提高,要求我们的通讯设备能够稳定运行,并且在出现业务中断后能迅速恢复。
目前很多故障是由于没有很好的预防导致的,如果能够进行有效预防,则可以大大降低故障发生的概率,并且即使在故障发生以后,也能尽快的恢复业务。
下面对常见的会引起重大故障的情况以及预防措施进行介绍,希望能给各个局予以参考。
1. 病毒感染故障现象:1.服务器或操作终端反应速度慢,无法正常操作;2.后台程序无法正常运行,报错,或自动退出;3.计费服务器不能正常登录或计费进程不接收话单,导致立即计费、IP超市不能正常使用;4.鉴权服务器不能提供实时的服务,造成鉴权、拦截等业务呼叫失败;5.破坏数据库,尤其是计费库,使数据丢失;6.话务台、网管前置机等后台终端不能正常使用。
7.计算机自动重启。
影响范围:1.影响计算机的正常操作,不能进行正常的日常维护;2.影响实时的业务,如立即计费、鉴权等。
3.影响到话务台、网管前置机等终端。
预防措施:1.安装中兴通讯指定的防病毒软件,并定期更新病毒库,定期进行全盘病毒扫描;2.操作系统、数据库打最新的补丁;3.安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;4.后台网络与大网隔离,防止外网病毒入侵;- 1 -5.不在ZXJ10后台维护网络上安装、使用其它无关软件;6.不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;7.定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;8.加强机房操作维护人员管理,强化防病毒意识。
案例1:现象:XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。
处理:检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。
经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!点评:该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。
案例2:现象:XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。
处理:经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。
点评:这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。
2. 网络风暴故障现象:1.交换机前后台不能正常通信。
2.前台MP自动重起;3.MP的CPU占用率高,呼叫困难;4.计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。
影响范围:1.前后台通讯;2.前台MP;- 2 -3.后台服务器及操作终端。
预防措施:1.后台网络与大网隔离,防止广播风暴;2.作好防病毒工作。
3.操作系统、数据库打最新的补丁;案例:现象:XX局ZXJ10交换机MP不能正常启动。
处理:询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。
点评:事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。
3. 传输故障故障现象:1.模块间通信中断;2.模块间通信瞬断;3.远端用户单元通信阻断;4.局间业务中断;5.模块间、局间电话杂音等。
影响范围:1.模块间电话业务;2.局间电话业务。
预防措施:1.加强传输设备的定期检查维护,对于隐患要及时排除;2.对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;- 3 -3.电话用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;4.在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防范和通信保障措施。
案例1:现象:XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。
处理:经过了解现场情况,该中断的模块内用户可以互相拨打,DTI板状态正常,在DDF上给DTI环回也正常。
查传输通道有问题,处理后,模块间通信恢复点评:由于现场及时检查了传输,使得问题较快定位。
案例2:现象:XX局ZXJ10反映拨打一个局向电话不通。
处理:局内可以正常拨打,该局向电话不能呼入呼出。
经查,系传输中断,处理后,恢复正常。
点评:这是一起传输问题引起局间电话不通的案例,因此,首先保障传输安全,才能保障通信畅通。
4. 对端设备问题故障现象:1.对端误操作,数据配置错误,导致业务不通;2.对端设置了电路闭塞,导致中继不通;3.对端做了电路自环,影响中继业务和信令;4.对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。
影响范围:视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的电话业务。
预防措施:1.在修改数据时要考虑到对各邻接局向的影响;2.在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;- 4 -3.出现故障后,及时与对端局沟通,双方配合,缩短中断时间。
案例:现象:XX局某个局向业务中断处理:经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。
让对端局将该30B+D用户欠费标志取消后正常。
点评:这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致电话不通,因此在做数据时要考虑到对邻接局向的影响,并且在修改数据后要及时拨打测试,一旦出现故障需尽快查明原因,并进行恢复处理。
5. 雷击故障现象:雷击后,部分单板损坏、部分后背板损坏、部分线缆损坏,导致该模块部分单元或整个模块电话不通。
故障范围:本模块部分用户或全部用户。
预防措施:1.保证设备接地良好,接地电阻符合邮电部机房环境规范;2.按中兴通讯提供的防雷改造方案,对设备进行防雷改造;3.对于雷击多发地区,要准备备板备件,以便雷击后能迅速进行部件的更换;4.设备所在的机房要符合邮电部相关机房防雷规范。
案例:现象:XX局ZXJ10模块间通信阻断,有1000多用户只能内部通信。
处理:检查发现,因雷击导致COMMA板故障,影响模块间通讯,更换故障单板,问题解决。
点评:该局没有做防雷改造,机房也没有很好的防雷措施,导致雷击时更易出现设备损坏,庆幸的是,现场及时提供了备板,使中断时间不是太长。
- 5 -6. 日常维护6.1 服务器C盘空间不足故障现象:1.程序运行错误,不能正常运行;2.计算机启动后程序不能正常运行,或速度很慢。
影响范围:不能进行正常的后台操作维护。
预防措施:1.作好日常检查工作,检查服务器C盘(系统盘)的剩余空间,保证C盘剩余空间不能少于500M;2.不要在计算机上,尤其是C盘上安装其它软件;案例:现象:XX局服务器数据库出错,后台无法运行。
处理:现场检查时发现,C盘的空间只有200M左右,空间已不能使程序正常的运行了,且交换机的运行程序目录也已被删除(可能是在处理中误删除了),只能重新对后台进行安装,安装过程中还出了一些报错,经过处理,最终安装成功,故障消除。
点评:由于C盘空间太小,本来只需要删掉一些无关的程序即可,但用户在现场处理时又将C 盘上ZXJ10维护系统目录误删除,导致故障范围加大。
本故障的根源是在C盘上安装了太多的程序,导致C盘剩余空太小造成的,因此如果平时能注意C盘空间,在出问题后能正常处理,则不会出现该案例中的一系列问题。
6.2 服务器数据库空间不足故障现象:数据库满,相关的业务中止。
影响范围:后台服务器、相关业务。
预防措施:- 6 -1.合理分配数据库空间,对于计费库,要根据话单量进行数据库空间的分配,保证可以保存三个月以上的话单;2.定期检查数据库空间,对于即将满的数据库要分析原因,如果是本身空间分配比较小,则要做扩库操作,如果是因为过期数据没有及时删除,则需要进行及时的清理。
3.不要在计算机上安装其它软件,占用硬盘空间。
案例:现象:XX局ZXJ10V10大面积话吧出现拨号完之后立马出现忙音现象。
处理:检查发现计费服务器130的计费库已满,一年前的话单还存在。
将计费库由4000M扩到6000M,并将过期话单清除后故障解决。
点评:由于硬盘空间和数据库空间有限,随着话单的不断增加,总有一天硬盘空间或数据库空间会不够,因此,在日常维护中,要定期检查硬盘和数据库空间,对于过期话单,要及时清理。
该局的计费库空间其实是足够的,主要是历史话单太多,没有及时清理,如果能够及时清理话单,本次话吧不能拨打的情况可以避免。
6.3 数据未及时备份故障现象:后台数据库或者后台服务器崩溃后不能及时进行数据的恢复,延长了业务中断时间。
影响范围:全局业务或计费系统。
预防措施:1.定期人工备份交换机的后台数据和计费设置数据,数据备份到不同的介质;2.定期人工备份IP超市系统数据;3.设置交换机后台数据自动备份功能;案例:现象:XX局,立即计费系统无法正常工作。
处理:查询数据库,发现JYSYS被置为可疑状态。
经过长时间的努力,最终解决问题。
该局用户没有养成备份数据的习惯,另外计算机也可能染有病毒。
- 7 -点评:出现问题后,一个简单的有效的方法就是重装服务器,将备份数据恢复即可,但由于用户没有养成备份数据的习惯,现场的计费设置数据还是很久以前备份的,已经没有使用价值,如果重新设置则工作量太大,并且也记不清到底是怎样的设置了,因此现场只能是解决JFSYS置疑问题,从而花去了大量的时间,影响了立即计费等业务。
在本次故障处理中,也发现了计算机存在病毒,这也是导致计算机数据库故障的原因之一。
6.4 数据未及时转储故障现象:当MP重启或设备突然掉电,造成数据不正确(恢复到转储前的数据),影响业务。
影响范围:根据未转储的数据不同,而造成的影响也不一样。
预防措施:1.通常是ZXJ10V4.X交换机有此问题,ZXJ10 A型交换机数据配置后,数据存于内存中,必须进行转储才能将数据保存到硬盘文件中,因此,进行数据修改后,需要及时进行数据转储。