当前位置:文档之家› 运维支撑平台功能需求V0.4

运维支撑平台功能需求V0.4

运维支撑平台功能需求
1、功能总览
运维平台由六部分组成,性能监控、故障管理、流程管理、知识库、账户管理及平台总体展现:
简要概述:
●性能监控:主要是对服务器CPU、内存及Apache、Nginx、Mysql等服务的监控,并通
过阈值进行邮件告警,并将报警记录进行周期性存档;
●故障管理:主要来源有3部分,一为性能监控的报警记录来源、二是人工作业维护计划
的问题发现,或者来自内部反馈或者用户反馈,一可以自动记录,二可以手工填报,然后进行汇总,并以图形或者报表的形式直观化反映出故障的来源及状况;
●流程管理:根据ITIL规范,有问题管理、发布管理(部署支持)、变更管理、配置管理
流程。

但是结合我们现状分析如下:
1. 问题管理:由于有QONE的介入,不便引入;
2. 发布管理:建议将测试环节加入,通过测试加强发布的控制,并细化发布的内容;
3. 变更管理:是项目经理及主要项目干系人都可以发起的流程。

目前我们在系统中一
般是通过任务的形式发起,而且很多环节项目经理要求开发人员更改功能口头通知比较
灵活,此流程不好介入;
4. 配置管理:由于配置需要由项目经理确认是否发布新版本后针对svn打版本,我们
现在处于频繁发布的阶段,配置版本可能是一个旧版本,在项目稳定期以前,发布管理应该更符合我们的运作方式。

当项目稳定后不会频繁,为了统一更新,再采取配置管理的方式;
●知识库:根据故障处理的内容和运维中发现的问题,统一进行知识总结并存档;
●账户管理:对该系统的用户和管理权限进行分配;
●平台总体展现:将运维月报进行拆分性总体总结,对系统现状做总体展现;或者将运维
月报和作业维护计划都作为附件放置在文件列表。

2、功能需求
2.1 性能监控
主要是对服务器CPU、内存及Apache、Nginx、Mysql等服务的监控,并通过阈值进行邮件告警,并将报警记录进行周期性存档。

包括资源监控、邮件告警、报警记录查询等功能。

2.1.1 资源监控
对企业社交化平台相关系统资源进行监控。

该功能分为前端、控制端和受控端三部分。

●前端:目前使用finereport破解版实现,但finereport破解版无法用于商用,所以
需改用php实现。

样式可参考finereport已实现的页面。

●控制端:使用python开发,目前部署在157服务器。

●受控端:使用python开发受控端代理,并以后台进程方式部署到每一台受控端。

2.1.1 邮件告警
当出现系统故障或性能瓶颈时,需要通过邮件(或短信)方式将信息告警给相应的负责人。

该功能分为告警探测、告警表、告警推送三部分。

●告警探测:当出现系统故障,或性能达到阈值时,触发告警,并保存到告警表中。

●告警表:用于存储告警信息,及告警推送结果。

●告警推送:当发现告警表中存在需要告警信息时,将信息推送给指定的负责人。

2.1.1 报警记录查询
对告警历史记录进行查询,支持按负责人、时间段查询,并支持告警内容的模糊查询。

2.2故障管理
2.2.1 故障巡检
针对不同的巡检任务,自动按天、周、月的作业维护计划报告,并邮件(或短信)通知相应的负责人进行巡检,巡检完毕后,填写巡检结果。

对于巡检异常的任务,可手工将异常任务流转到下面的故障处理流程。

2.2.2 故障处理
故障的主要来源有三部分:
● 1. 自动监控产生的报警;
● 2. 人工巡检发现的故障;
● 3. 内部反馈或者用户反馈;
其中1可以自动记录,2需要手工流转,3需要手工填报,然后进行故障的流转、处理
和汇总。

需要以图形或者报表的形式直观化反映出故障的来源、当前处理状况及处理结果。

故障处理流程如下图所示:
2.3流程管理
2.3.1 发布管理
发布管理负责将新的或变更的组件迁移到运行环境中。

主要目标是保证运行环境的完整性以及正确的组件被发布。

企业社交平台的发布管理流程如下:
2.4知识库
根据故障处理的内容和运维中发现的问题,统一进行知识总结并存档。

主要包括两部分:知识库生成和知识库查询。

2.4.1 知识库生成
知识库的来源包括两部分:
●自动生成:可以根据需要,将故障处理的结果自动生成到知识库中。

●手工填写知识库:可以在界面上进行知识库的填写,并支持附件上传功能。

2.4.2知识库查询
支持在知识库中按照类别、内容的模糊查询。

2.5账户管理
对该系统的用户和管理权限进行分配。

2.6平台总体展现
将性能监控、故障管理、流程管理和知识库中保存的记录进行汇总,展示指定时间段内的系统运维总览,并支持填写备注及上传附件。

运维人员据此每月生成运维月报。

3、难点
作为非开发设计人员,目前想到以下两点需要可能较消耗资源
3.1 报表展现
目前的曲线图或表格等前台报表展现均是通过FineReport工具进行无编码操作的,会根据查询出数据库中表的字段进行自行分布,该软件是一款需要授权收费的;
如果要开发平台上面的应用
一是前台开发人员针对现有的完成的监控指标做具体分析并作相应开发;
二是利用一些免费开源的报表工具,而且不需要开发人员参与的,而且可以用作商业用途的,满足所有目的较困难,主要以下两种情况:
1、非开源的,比较成熟的工具,类似FineReport,不需要开发人员的参与即可,也有部分
是需要二次开发的,各有特色;
2、开源的,大部分是java程序开发的工具,绝大需要前台开发人员二次开发,是基于XML
格式的文件的,而且报表工具本身也需要做相应的研究;
PS:我们正在做相应的了解,尽力看看有没有既不用开发人员的也可直接开源免费拿来用的报表工具;
3.2 流程的自动运转及框架的动态生成
类似于平台页面的首页总体汇总、知识库的生产等,需要自动根据前面填写的结果进行汇总展示。

相关主题