当前位置:文档之家› 线上事件或故障处理流程规范

线上事件或故障处理流程规范

线上事件处理规定
编制:
审核:
批准:
发布日期:201X 年X 月
修订历史记录
目录
1. 线上问题管理流程 (2)
. 线上事件处理流程图 (2)
. 目的 (3)
. 线上问题定义 (3)
. 问题处理 (4)
2. 事故培训流程 (6)
3. 处罚规则 (6)
1.线上问题管理流程1.1.线上事件处理流程图
1.2.目的
为了明确线上事件的报告、应急响应、处理、复盘机制,确保能以快速、高效、准确的应急处理能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的时间内恢复系统的正常运转,将因此带来的损失控制到最低限度,特制定此流程。

1.3.线上问题定义
1、线上事件:包括线上故障和需求。

2、线上故障:包括线上故障(A级、B级)和一般故障(C级)。

3、线上故障的等级定义如下:
1.4.问题处理
1、报告问题
发现线上事件的人员,包括用户、业务方、运维监控、测试人员等发现线上事件的人员。

报告人发现线上事件后,需要第一时间报告给运营经理、项目经理。

2、受理问题
事件发生时:
1)接受线上事件报告;
2)判断线上事故是否是故障:接到线上事件报告后,首先判断线上事故的性质;
3)对外报告事故处理进展:如果是故障,立刻按照流程要求通知相关负责人。

运营经理或者想经理随时将处理情况上报给受影响的部门和相关管理人员。

如果是非事故,需要协助解决或者引导用户找到解决方法。

3、处理问题
1)线上故障为A级,需要立即通知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。

由各部门领导协调事故处理,10分钟内响应事故,2小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。

2)线上故障为B级,需要立即通知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。

由各部门领导协调事故处理,10分钟内响应事故,1小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。

3)线上故障为C级,需要尽快将问题录入工单系统,通知产品部门产品经理或技术经理以及测试经理,并告知部门部长。

由产品/技术经理协调处理线上事故,保证系统在最短时间内恢复正常,最长不得超过48小时。

4、验证问题
线上故障受理后都需要测试人员实时跟进,协助技术人员分析定位问题。

如果是A级或者B级故障,问题修复后第一时间验证并告知运营经理或者项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并通知测试人员验证,并评估是否需要发布。

1)需要发布。

问题处理人员需要按照上线管理流程进行程序发布。

2)不需要发布。

测试人员直接验证问题是否已解决:如果验证通过,需要在工单系统中关闭问题单。

如果验证不通过,则将问题单重新打开并提醒问题处理人员需要重新进行问题修复。

5、通知业务方
1)线上故障为A级或者B级,故障恢复前,由运营经理或者项目经理跟踪处理进展、每隔15分钟告知业务方。

直至故障恢复正常
2)线上故障为C级,由运营经理或者项目经理跟踪问题状态、问题单关闭后实时通知
业务方。

2.事故培训流程
线上重大事故解决之后,需要召开线上事件的事故培训会议,对事故进行详细分析并给出规避措施以及潜在风险评估,从而避免同种重大事故再次出现。

QA问题记录:
1)收集和维护各部门线上事件处理人员清单和通讯录,以便事故协调小组及时联系到相关的处理人员
2)收集线上故障实例,对事故等级定义提出优化建议,以便更快更准识别事故,做到及时响应和解决事故。

3)收集和维护各部门事故应急预案。

3.处罚规则
操作者:相关开发人员
主管:团队产品经理、技术经理、开发经理、组长部长:部门(副)部长。

相关主题