(项目管理)系统运行维护手册项目XXX项目系统运行维护手册安徽科大讯飞信息科技股份有限公司修订文档历史记录目录1.前言 (3)2.系统运行监控 (3)2.1服务器运行状态监控 (3)2.1.1监控内容 (3)2.1.2监控要求 (3)2.1.3监控产物 (4)2.1.4操作说明 (4)2.1.5邮件系统可用性验证 (8)2.1.6SAN磁盘状态检查 (8)2.2平台可用性检查 (9)2.2.1监控内容 (9)2.2.2监控要求 (10)2.2.3监控产物 (10)2.3补丁与病毒定义更新检查 (10)2.3.1补丁检查与升级 (10)2.3.2病毒检测及病毒定义更新检查 (10)2.4垃圾邮件维护 (11)2.4.1维护垃圾邮件地址列表 (11)2.4.2定期清理垃圾邮件 (12)2.5系统备份检查 (12)2.6服务器硬件状态检查 (12)3.1收集用户信息 (13)3.2在AD中添加用户 (13)3.3为用户开通邮箱 (15)3.4为用户开通LCS功能 (16)3.5为用户开通U SER S ERVICE服务 (17)3.6在U SER S ERVICE中为用户配置角色 (18)4.平台访问安全控制 (19)5.平台系统开、关机 (19)5.1系统关机 (19)5.2系统开机 (20)6.基础架构信息维护 (20)7.系统运行维护报告 (21)8.附件 (21)8.1服务器监控范围 (21)8.2系统运行监测记录表 (22)8.3平台功能模块监测记录表 (24)8.4服务器补丁升级检查表 (27)8.5服务器病毒定义升级及病毒检查表 (28)8.6服务器巡检记录表 (30)8.7系统运行维护日报 (31)8.9系统运行维护月报 (33)8.10系统运行维护日程表 (34)1.前言此文档为统一政务项目实例,在编写其他项目运维手册时可根据项目实际情况参照此模板编写。
内容不必完全相同,取决于实际需要。
统一政务平台系统运行在一个复杂、综合的IT环境中,为了保证平台系统的稳定、持续运行,应当对此环境中相关的软、硬件系统进行监控、维护。
本文档描述了在平台运行中应当关注哪些重要的系统、设备,以及如何对这些设备进行监控与维护。
主要包括以下几个方面:●服务器监控●平台系统可用性检查●操作系统补丁升级与病毒定义升级●垃圾邮件控制●全系统备份●用户信息维护●全系统开、关机●服务器访问控制一旦系统发生变更,则文档所描述的措施与要求也应当根据实际情况进行调整。
维护相关的管理工作,如报告等,根据实际管理需要进行。
2.系统运行监控2.1服务器运行状态监控2.1.1监控内容通过Microsoft Operation Manager(以下简称MOM)对服务器运行状态进行监测。
主要监测服务的运行状态、CPU使用情况、内存使用情况、逻辑磁盘可用空间、网络连通性。
需要监控的服务器根据实际运行情况确定,目前监控范围见“8.1服务器监控范围”。
2.1.2监控要求MOM会实时监控服务器状态,维护人员需定时检查MOM控制台,并对控制台中生成的信息进行处理。
维护人员实时接收MOM的报警邮件,对其中的警报信息进行处理。
监控中如果发现异常,根据实际情况分析处理。
2.1.3监控产物每日下午下班前取当时检测到的服务器运行状态数据填写“系统运行监测记录表”,并根据管理要求提交相关涉众。
2.1.4操作说明2.1.4.1通过MOM控制台查看服务器运行状态进入MOM控制台以MOM操作员帐号或域管理员、本地管理员等具有相应权限的帐号登录hf-mom-01服务器(或者通过MOM的WEB控制台进行管理,从能够连接hf-mom-01服务器的任何终端访问http://hf-mom-01:1272,然后以hefei\hf-mom-user帐号登录);从windows开始菜单运行“Microsoft Operation Manager 2005 操作员控制台”程序(以下描述均基于MOM程序控制台);●选择要通过MOM查看的计算机进入MOM程序界面后,将工具栏上“组”设置为“MOM管理员作用域”(根据登录的帐户不同,可能此处显示为MOM用户作用域等其他文字)。
也可选择其他作用域,以在随后的操作中只显示该作用域内的计算机信息(请选择MOM管理员作用域,这将显示所有计算机,其他域可能不包括任何计算机或仅包括该域内的计算机)。
●查看服务器运行状态在程序窗口的左侧下方,单击“状态”按钮,此时视图切换为“状态视图”。
再单击左侧上方的“状态”文字链接,此时程序窗口的中部上方即显示所有管理员作用域内的计算机状态;检查状态窗口中第一列“状态”,此列显示服务器的综合状态,如果为绿色的对号,则说明服务器运行正常。
如果为红色的叉或其他符号,则说明存在异常情况,此时可检查其他列状态(分别显示服务器中程序、磁盘、群集等的状态),以定位是服务器的哪个环节出现异常。
或者,也可进入“警报”视图,以检查是否有相应的报警信息。
注:服务器状态显示正常则说明其网络连通性也正常。
●查看报警信息在程序窗口的左侧下方,单击“警报”按钮,此时视图切换为“警报视图”。
再单击左侧上方的“警报”文字链接,此时程序窗口的中部上方即显示所有管理员作用域内的计算机所生成的报警信息;如果在警报中视图中发现有服务器生成的报警信息,则需根据实际情况处理。
●查看CPU、内存与磁盘空间使用情况在程序窗口的左侧下方,单击“我的视图”按钮,此处显示的是维护人员自己定义的视图。
目前根据实际需要,分别定义了收集CPU、内存与磁盘空间使用情况的视图。
分别检查此三个视图,注意CPU不得持续高于90%,若持续高于95%时就需要检查服务器以确定是否正常;可用内存不得持续低于10%,若低于2%则需要检查是否异常;磁盘剩余空间不得低于20%,若低于15%则必须进行清理(一般在可用磁盘空间低于40%时就可以检查并判断是否有异常情况存在)。
2.1.4.2生成监控报表●登录MOM报表控制台访问http://hf-mom-02/reports,如果需要登录,以hf-mom-user或其他管理员级帐号进行登录。
●生成报表打开MOM报表控制台主页面后,单击页面中的“Microsoft Operations Manager Reporting”,然后在打开的页面中单击“Microsoft Windows 基本操作系统”,然后在打开的页面中单击“操作系统性能”,再选择“Daily Monitor”计算机组,然后选择生成数据的日期范围,再单击“查看报表”,MOM即生成所需的报表。
●导出报表在前一页面,“选择格式”处选择需要导出的报表格式,例如excel表格,然后单击“导出”,即可将报表导出。
2.1.4.3接收MOM报警邮件●设置操作员以MOM管理员帐号或域管理员、本地管理员帐号登录hf-mom-01服务器。
从windows开始菜单运行“Microsoft Operation Manager 2005 管理员控制台”程序。
在程序窗口中,依次展开“控制台根→Microsoft Operation Manager(hf-mom-01) →管理包→通知”,然后在“操作员”上单击右键,再选择“创建操作员”,然后依照屏幕提示逐步完成操作员创建。
注意:在创建操作员时,选中“向此操作员发送电子邮件”选项并输入操作员的电子邮箱地址。
操作员创建好后,在屏幕右侧的操作员列表中双击此操作员名称,然后单击“通知组”,单击“添加”,再将系统中所有的通知组逐个添加给此操作员。
●设置邮件发送在MOM管理员控制台中,依次展开“控制台根→Microsoft Operation Manager(hf-mom-01) →管理”,然后单击“全局设置”,然后在屏幕右侧的列表中双击“电子邮件服务器”,在此面板中设置邮件服务器地址、端口信息。
完成上述两项设置后,操作员就可以接收MOM发送的报警邮件了。
注:可以使用移动或联通的手机邮箱作为接收报警邮件的邮箱,再开通该邮箱的来信通知功能,则可以通过手机短信接收MOM发送的报警信息了。
2.1.5邮件系统可用性验证每日通过OWA方式(通过浏览器访问https://)与客户端程序方式(outlook)验证邮件系统可用性。
检查内容包括登录邮箱、收邮件、发邮件。
检查结果填写到“系统运行监测记录表”中。
检查如果发现问题,则需根据实际情况进行分析处理。
2.1.6SAN磁盘状态检查每日检查所有10台群集服务器的SAN磁盘状态。
分别登录每台服务器,然后从开始菜单运行SAN磁盘管理程序,如下图所示:进入管理程序界面后,查看所有磁盘是否状态正常,如下图所示:如果发现某个或某组磁盘上显示红色斜线,则说明磁盘状态异常。
需要联系服务商处理。
SAN磁盘状态检查结果填写到“系统运行监测记录表”中。
2.2平台可用性检查2.2.1监控内容检查平台能否正常登录,各模块功能是否可以正常使用,各模块的页面打开时间是否在5秒内。
详细检查项见“8.3 平台功能模块监测记录表”2.2.2监控要求每日执行一次,上班后即执行。
监控结果于当日发送给运维管理部门或其指定人员;按照“8.3 平台功能模块监测记录表”中的内容执行;2.2.3监控产物每日填写“平台功能模块监测记录表”,并在下班前提交相关涉众。
2.3补丁与病毒定义更新检查2.3.1补丁检查与升级每周五进行补丁检查与升级工作。
检查“服务器补丁升级检查表”中所列出的全部服务器,检查是否有新的操作系统补丁需要更新,如果有则进行安装,并根据实际情况重启服务器。
补丁升级完成后,需要执行一次“平台可用性检查”,检查要求参照前文章节的描述。
补丁检查、升级结果写入周报。
如果微软推出重大安全公告,并要求进行相应的补丁升级的,应根据实际情况立即升级或确定其他升级时间。
2.3.2病毒检测及病毒定义更新检查每周五进行病毒检测及病毒定义更新检查工作。
检查“服务器病毒定义升级及病毒检查表”中所列出的全部服务器,检查KILL是否有发现病毒的信息,检查KILL的病毒定义库是否当前最新版本(注,平台所有服务器的KILL客户端均受专网KILL服务器管理,也可直接在KILL服务器上进行此检查工作,效率及效果比逐个服务器检查更好)。
如果发现病毒,应当根据实际情况立即处理。
病毒检测及病毒定义更新检查结果写入周报。
如果防病毒软件厂商或相关权威机构发布了重大病毒通告,则应根据实际情况立即升级病毒定义库或采取其他防范措施。
2.4垃圾邮件维护2.4.1维护垃圾邮件地址列表维护人员定期从平台用户收集垃圾邮件地址,并添加到邮件服务器的过虑器中。
以域管理员帐号登录hf-owa-01/hf-owa-02/hf-exh-01/hf-exh-02任一台服务器,从开始菜单打开“Exchange系统管理器”,展开“全局设置”,右键选择“邮件传递”,“属性”,“发件人筛选”单击“添加”,然后将收集的垃圾邮件地址逐个添加进去。