项目维护平台简介
编写人:杨伟
编写日期:2011-11-21
1背景
随着IT项目增多且越来越复杂,给项目维护带来一定难度。
IT系统出现故障后,通常先有了客户投诉,维护人员才知道故障,然后进行排查。
本平台的服务探测,在系统出现故障的第一时间通知相应人员,并运行事先配置的角本以恢复服务。
维护人员收到告警短信后,可人工检查服务运行状态,保障系统稳定运行,从而提高客户满意度。
在节假日、凌晨,维护人员不在现场时,系统出现宕机等重大故障,维护人员赶到现场、或者通过VPN 进入专网处理,不仅给维护人员带来一定的工作压力,并且不能在重大故障出现的第一时间处理问题。
本平台将自动处理并通知相应人员。
从此客户项目经理、厂家项目经理、维护人员外出时也不用担心系统故障当您的系统承载了公司核心业务,微小故障也会带来重大损失时,请您使用本平台的资源管理。
资源管理对主机性能、应用状态、数据库三个层次巡检,在系统出现异常或即将出现异常前通知您。
当您的系统在测试环境运行正常,而生产环境却变得缓慢;新上线系统运行不稳定;系统运行时间较长后变得缓慢等情况,本平台的性能分析将帮助您查找原因,分析线程、CPU、内存、每个方法占用的CPU资源等。
当您的系统部署到多台主机,每次升级时,是否感觉在多台主机上备份文件、升级文件、重启服务非常繁琐。
如果您遇到这种情况,请使用本平台的升级管理,只需鼠标轻轻一点,将对各台主机自动升级,并且可根据备份文件回退。
2适用范围
适用于运行在unix、aix、solaris、linux、windows等环境上的IT系统。
通过使用本平台,可将日常维护工作流程化、自动化。
有经验的维护人员在本平台上配置的维护内容,可供后来者学习,成为维护经验,新手可根据前辈配置的维护内容,快速入门。
也有助于AB角的推行。
本平台中的主机性能监控和BOMC有一定重叠,但绝大部分功能是不一样的,并且使用对象、应用场景均不同。
本平台是提供给每个项目的维护人员使用。
3工作原理
本平台与管理的IT系统在同一网络中,通过自定义socket或telnet、SSH、FTP与管理的IT系统服务器交互。
采用自定义socket时,需要在IT系统服务器上部署一个IPM_CLIENT客户端。
维护人员通过web方式接入本平台。
图3.1
4功能介绍
4.1资源管理
资源管理可手动、自动采集主机性能指标、角本运行指标、数据库指标、业务办理指标,根据配置的阀值发送短信、邮件告警。
主机性能指标
包括磁盘空间使用率、CPU使用率、内存使用率、磁盘IO等待、Page Space等。
如:除了告警,还可比较各时间段采集的性能指标,帮助发现系统存在的问题。
角本运行指标
运行配置的角本,根据执行结果判断是否异常。
如:判断应用的进程是否存在。
数据库指标
运行SQL查看数据库运行状态。
如:查看表空间使用率、会话数、锁表时长。
若锁表时间过长,则说明程序可能出现异常。
业务办理指标
运行SQL查看业务办理是否正常。
如:查看某段时间内缴费成功数、开户数、业务办理成功率等。
若某段时间没有成功缴费,则说明系统可能出异常。
采集结果截图如下:
图4.1.1
4.2服务探测
可定时探测http服务、socket服务的运行状态,检测到异常时发送短信、邮件告警,并执行配置的角本,如:重启命令。
服务探测配置截图如下:
图4.2.1
4.3定时任务
根据配置,定时执行角本命令。
如:日志文件压缩、过期文件删除等,避免磁盘空闲空间不足而频繁告警、频繁手动删除文件。
4.4性能分析(只支持JAVA)
查看应用所占主机资源情况
图4.4.1
查看应用中各方法占用CPU情况
图4.4.2
4.5升级管理
在本地PC上将升级文件按工程目录结构打包,上传到本平台中。
本平台根据事先配置的角本,生成升级包并将其上传到各主机上,然后运行停止服务命令、备份文件命令、覆盖文件命令、启动服务命令、下载升级结果等。
升级结果截图如下:
图4.5.1
5其它文档
用户使用指南:《项目维护平台使用手册.doc》
接口开发手册:《项目维护平台接口文档.doc》
数据库设计:《项目维护平台数据库设计.doc》。