中国电信无线网络应急指导手册中国电信股份有限公司网络运营部二零一二年十一月1概述应急处理是一种突发性情况下实施的维护工作,是在网络或设备发生紧急事故、严重影响用户使用时为迅速恢复业务、排除故障而进行的一系列故障处理措施。
本手册为应急处理框架,以设备故障、应急容灾、信令拥塞三类场景为例,提出三类事件发生时的处理原则,为各省编制本省应急预案提供参考。
各省在制定省应急预案时应充分考虑本省实际情况,在本指导手册中三类场景基础上进行适度扩展,以应对可能发生的突发性网络问题。
本文同时提供华为、中兴、阿朗设备厂家的设备紧急故障处理指导手册及部分省份应急预案作为参考。
2无线网络紧急故障定义紧急故障是指发生突然、影响面广、涉及范围大,严重影响用户使用感知并可对网络的安全运行与服务质量造成严重后果的设备或网络事故。
根据紧急故障影响范围,无线网络紧急故障(简称“紧急故障”)可分为3个级别:3应急处理预案要求各省应针对不同的场景分别制定相应的无线网络应急处理预案(简称“应急预案”),以指导紧急故障发生时的应急处理工作。
紧急故障处理时应遵循应急处理预案的各项要求。
应急预案包括应急处理组织结构、应急处理上报流程、应急处理方法等。
4应急处理组织及流程应急通信处理工作坚持统一指挥、分级负责、严密组织、密切协同、快速反应、保障有力的原则。
4.1.1应急处理小组组织架构根据紧急故障影响范围、发生原因、处理流程、分公司组织结构等,应急处理小组可包括责任单位、协作单位、支撑单位、设备厂家成员等多方,其中责任单位为无线维护相关部门,协作单位为核心网(含电路域和/或分组域)、业务平台、传输、动力等相关维护专业以及客服、网监等相关部门。
应急处理小组中各单位、部门应职责明确,参与应急处理小组的单位及部门均应指定负责人和接口人,以确保应急处理过程中各环节工作的落实。
4.1.2紧急故障上报要求故障发生时,应根据故障影响程度范围将故障上报至相关单位和部门的负责人,上报的方式包括短信、邮件、电话等,上报的内容包括故障发生点、故障发生时间、故障影响范围、预计修复时间等内容。
上报要求如下:●达到B级故障时,故障发现部门或人员以电话方式通知故障处理值班人员及其维护主管。
并通过短信方式通知应急处理小组各成员。
●达到A级故障时,故障发现部门或人员以电话方式通知故障处理值班人员及其维护主管,由维护主管通过电话方式通知客服部门,并协助客服部门进行客户投诉拦截及安抚工作。
●达到A+级故障时,除以上上报要求外,还应在故障发生时,立即上报集团网运部,并在故障处理过程中及时汇报处理进展情况,故障处理完成一周内向集团网运部提交故障处理报告。
4.1.3应急处理流程流程中各环节的职责部门由各省根据实际组织架构确定,以下流程供参考。
中国电信无线网络应急恢复处理流程1、目的明确中国电信无线网络紧急重大故障的应急恢复处理流程,界定部门职责,规范处理,缩小影响范围及时长,提高处理效率。
2、适用范围中国电信各级分公司无线网络紧急重大故障的应急恢复处理。
3、流程/流程说明5应急处理方法以下以设备故障,应急容灾,信令拥塞三个场景为例,介绍应急处理的过程和方法。
场景一、设备故障,是指无线网络设备的单板、背板机框等故障,以及附属设备动力、传输、电源等原因引起设备无法正常运行的故障。
场景二、应急容灾,主要针对自然灾害(冰灾,台风,火灾,地震,洪灾)、战争、突发事件等应急情况下造成的主设备故障且短期内无法恢复时的应急处理。
场景三、信令拥塞,是指由于突发的不可预知的事件引发的信令冲击,引起的全局或者局部的话务、信令拥塞,设备部分资源如信令处理板件、背板带宽资源、声码器资源无法正常运行,主要体现为相关处理板件CPU占用率过高、业务接通率下降、用户感知明显变差、甚至可能引发大面积网络瘫痪的情况。
应急处理包括日常准备、应急处理、处理评估三部分内容。
●日常准备包括备品备件、应急工具、应急资料、应急设备数据等的准备。
●应急处理包括针对不同场景启动相应预案的条件、实施方法步骤。
●处理评估包括故障原因的分析、故障影响范围、影响程度、故障恢复情况的评估等。
5.1 应急日常准备日常准备工作的好坏是应急处理成功的关键,日常工作中,应注意以下工作内容:●做好应急预案中所涉及资源的配备,应急资料及时更新●每年应不定期进行应急处理演练,以确保应急处理流程畅通,应急维护人员操作熟练。
根据不同场景预案,日常准备的应急资源、资料也不同,本文列举上述三个场景中重要的应急资源及资料的准备。
5.1.1设备故障应急处理日常准备5.1.1.1 备品备件备品备件用于运营设备发生故障时故障部件的更换,包括主设备单板板件、机框等备件,主设备硬件板件应注明型号、版本情况、数量、存放地点等信息。
备品备件应定期进行测试,确保备件的完好。
5.1.1.2 维护检查工具维护检查工具是故障设备检修中需要使用的工具,分为通用工具和厂家专用工具,通用工具主要有扳手、十字起、梅花起等,厂家专用工具指厂家设备维护专有的硬、软件工具。
5.1.2应急容灾处理日常准备应急容灾应提前做好容灾组网规划,包括VIP站点信息、应急专用传输通道的规划以及应急容灾方案实施时需要启用的数据配置脚本的预制作等。
5.1.2.1 容灾组网规划容灾组网是指主设备(主要指BSC/PCF/AN等)发生重大的、短期内不可恢复故障时,紧急将主设备管理下的VIP站点割接到其它主设备时的组网情况。
容灾组网规划时应以当前地市无线网络组网结构为基础,建立容灾主设备的组网备份关系。
容灾组网要求如下:●优先考虑异地异机房异楼层的设备灾备。
●根据每个主设备下VIP站点数量、容灾资源(如板卡、传输)冗余情况建立灾备关系。
5.1.2.2 VIP站点信息VIP站点是应急处理时优先保障的站点。
日常工作中应建立VIP站点信息库,信息库包括本省地市所有主设备所包含VIP站点数、覆盖区域、等级批次等信息。
VIP站点覆盖范围应达到原覆盖区域的80%左右,VIP站点占原总基站数的15%以上VIP站点的等级规划原则:●一级,党政军所在区域的覆盖站点●二级,广覆盖站点●三级,高话务站点●四级,传输节点站点5.1.2.3 应急专用通道应急专用通道是原主设备发生重大灾害后,VIP基站割接到灾备主设备时在灾备主设备上需要启用的应急通道,包括传输通道及相关板件。
在应急事件发生时,为了使应急恢复尽可能的快速、涉及操作部门人员最少、涉及数据量最小,日常应在灾备主设备上预留机框、板卡、传输等相关冗余资源,该部分资源日常不承载业务,只应用于应急事件发生后承载VIP站点业务。
在条件允许情况下,建议应急专用通道配备如下:●灾备主设备业务框每框配备1对固定槽位及相应板件作为应急专用●为每个一至三级VIP基站配置应至少保证2个2M的传输资源,四级站点可视传输情况配置1个2M资源。
5.1.2.4 应急数据应急数据是指在应急方案实施中需要启用的数据配置、参数等,本文所涉及场景的应急数据包括传输端口数据、VIP站点的CI数据,邻区数据,计费数据等。
为减少应急方案实施时参与人员、参与部门的沟通协调时间以及处理时间,相关数据尽可能提前规划,动态更新,并在日常业务中不被占用。
应急数据配置要求如下:1.传输端口数据提前规划并预留。
2.提前规划应急专有的CI段,提交至核心网侧提前做好相关数据。
3.确定VIP基站站点后,做好邻区数据,方案实施后,要及时进行路测优化邻区数据。
4. 按照VIP站点规划,应考虑分时分区计费用户的计费优惠,核心侧做好相关计费数据脚本。
5.1.3信令拥塞处理日常准备主设备发生信令拥塞时,要最快最有效减少主设备的业务冲击。
减轻业务冲击可以在业务平台、核心网(包括电路域和分组域)、无线侧入手,可视引起信令拥塞的具体原因确定有效的方法。
无线侧最直接有效的手段是对选定的基站进行关闭,减少接入业务量,以缓解主设备的信令拥塞状况。
关闭基站操作对用户的影响较大,因此应优先考虑关闭BSC/PCF/AN边界区域基站,边界区域基站关闭后仍不能有效降低话务时,再逐批关闭高话务站点。
日常工作中应及时维护边界区域站点信息以及高话务站点信息,高话务站点按照TOP列表进行排序并定期更新。
5.1.3.1 BSC/PCF/AN边界区域基站信息根据BSC区域地理位置选择BSC/PCF/AN边界区域站点,该部分站点覆盖区域应能被相邻BSC站点覆盖,在边界区域基站关闭后,相邻BSC/PCF/AN站点能够有效吸收话务。
5.1.3.2 TOP站点针对每个BSC/PCF/AN,应根据近三个月话务情况确定筛选出TOP站点,并制作关闭基站的批处理脚本。
当信令拥塞事件发生时,视信令拥塞紧急程度情况确定采用提前制作的脚本还是另选择当前时间TOP10站点。
当信令处理单元均值处于80%以下、持续时间在10分钟以内,可以重选确定当前TOP10站点当信令处理单元均值达到80%、且持续时间超过10分钟,则启用提前准备的高话务TOP10站点。
5.2 应急故障处理应急处理过程中,应严格按照“先抢通、后分析、三不离(故障未处理完成不离开现场;故障处理完成后,没有验证完全修复不离开现场;故障未查清原因不离开现场。
)”的原则进行故障处理。
对于重大灾害、网络或设备等原因造成的通信阻断,处理过程中应注意优先保障重点基站和/或重要区域,遵循先语音后数据、先2G业务后3G业务、先信令后话务的处理原则。
对于信令拥塞类紧急故障或者事件,应在保证设备安全稳定运行的前提下尽可能保证业务的畅通性,在保证业务畅通的基础上提高业务质量。
在处理时应优先考虑“控”,即先将故障网元部分部分或全部关闭,再逐步逐批的有步骤的放开话务,在业务疏通过程中实时进行业务测试,同时在业务完全恢复后及时组织力量分析问题原因,提出改进方案,完善相关预案。
5.2.1设备故障的应急处理5.2.1.1 设备故障应急触发条件主设备故障影响用户使用,或者大面积基站故障、达到B级及以上紧急故障,应启动设备故障应急处理流程。
5.2.1.2 设备故障处理及保障原则发生设备故障时可以按照设备厂家提供的技术手册进行修复,采用的方法主要包括更换硬件、倒换主备用板、硬件复位重启、恢复备份数据等方法。
良好的日常维护管理是设备应急故障处理的基础,日常要注意以下几方面:●按要求配备备板备件,专人负责管理,保证故障发生时备件的快速到位●定期进行关键数据的备份工作,并做好备份数据的验证●割接、数据更改等网络调整工作后要及时更新备份数据●定期进行主备用倒换测试●重大活动、节假日等来临前,要进行设备重要板件的例测及倒换测试。
5.2.2应急容灾处理原则5.2.2.1 触发条件由于自然灾害,设备自身故障等原因,造成主设备发生故障,或故障影响达到A+级时、预计白天(7~12时)5小时以内或夜间(0~7时)8小时以内无法恢复时,应启动应急容灾预案。