运维工作简介
系统简介
一、服务器数量与用途
二、运维管理范围与职责
管理范围
本平台内所有架构,运维部负责公司业务系统运行维护工作。
职责
保障公司游戏服务器的正常运行、网络的畅通。
严格岗位制度、明确工作职责,规范工作流程。
工作规范化,制度化,加强文档管理力度。
三、组织结构
根据运维工作的范围和性质,下设三个小组:
系统维护组
应用维护组
技术值班组
四、服务维护
系统维护
1.检查安全日志
2.检查系统日志
3.检查应用日志
4.记录并核对各系统磁盘容量
5.记录并核对各磁盘文件数量
6.记录并核对系统账户
7.记录并核对系统服务
8.记录并核对系统进程CPU内存PID 线程数
9.查询系统更新
应用维护
1.检查各应用程序状态
2.记录并核对各应用程序配置
3.记录并核对应用系统文件
4.记录并核对应用系统文件MD5
5.测试各应用系统功能
6.记录并核对各应用系统CPU内存PID 线程数
7.检查应用程序更新
网络维护
1.检查服务器连接数量
2.检查上行下行带宽记录值
3.检查网络损耗峰值
4.检查并记录各服务通信端口
5.检查并记录通信延迟
6.分析带宽负荷
7.分析访问量
硬件维护
1.检测并记录各硬件温度
2.检查驱动状态
3.检查各硬件状态
数据库维护
1.检查备份文件
2.核对备份时间
3.核对备份内容
4.查询并记录锁定
5.查询并记录SQL效率
6.对比数据内容
7.交接班进行日志数据库备份
8.实时检查日志数据库
五、服务器实时监控
1.磁盘文件增减监控
2.通信效率监控
3.服务器使用率监控
4.服务器性能监控
5.网络上行下行带宽监控
6.数据库操作监控
7.硬件温度监控
六、工作内容
1.设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理。
2.应用/服务管理:对各种应用支持软件如数据库、中继、CDN以及各种通信或特定
服务的监控管理,如DNS、Web 等的监控与管理。
3.数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复。
4.数据管理:包含对公司自身核心数据系统的运行情况的监控与管理,对于数据的管
理,主要关注该数据系统的消耗与增长。
5.内部系统管理:该部分主要对于本公司需要统一发布或因人定制的内容管理和对
公共信息的管理,如客服系统、推广系统。
6.资产管理:管理本公司服务系统的资产情况,是逻辑存在的,并能够与本公司财务部
门进行数据核对。
7.信息安全管理:目前信息安全管理主要依据的是企业安全组织方式、资产控制、人
员安全、物理与环境安全、通信与运营安全、访问控制、数据连续性管理等。
8.日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供
运维日志报表、提供解决经验与知识的积累与共享手段。
应急预案
一、预警机制
二、预警上报处理流程
运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。
在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:
一级预警
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析
故障原因。
2.运维工程师在排查出故障后,立即着手解决。
3.在故障排除后,通知组长并对所发生故障的设备进行事后跟踪。
4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
二级预警
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析
故障原因。
2.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技
术人员到现场,应立即拨打技术工程师联系电话,请求立即到现场进行故障排除。
3.立即报告运维中心主管人员,主管人员应通过电话或当面把故障报告给相关技术
部门。
4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
三级预警
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析
故障原因。
2.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技
术人员到现场,应立即拨打技术工程师或第三方技术部门联系电话,请求立即协调进行故障排除。
3.立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关领
导部门,在故障完全排查清楚后以书面形式递交“故障报告单”。
4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
四级预警
1.当通过监控或得知系统出现故障时,重复分析并确认故障原因。
2.立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关领。
3.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。