青岛金欧利营销有限公司操作手册文件名称:服务器系统维护操作手册编号: G-WI/630-06-020 版本号: 1/0编制人:刘鹏审核人:季忠凯批准人:生效日期:4.2 修改页:如下所示修改记录流程图无1. 目的通过规范服务器系统维护操作,降低服务器系统维护过程中可能带来的业务风险。
2. 适用范围本文件适用于青岛金欧利营销有限公司信息部。
3. 术语3.1 服务器系统:公司各服务器及与服务器相连的外设和存储设备。
3.2 主服务器系统:指小型机服务器及与其相连的外设和存储设备。
3.3 次服务器系统:指除小型机外其它的服务器及与其相连的外设和存储设备。
4.职责4.1信息部负责服务器系统的日常维护和管理。
5.管理内容:5.1主服务器系统维护手册5.1.1CRM服务器维护手册5.1.1.1文件系统检查# df -kFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 10485760 5143096 51%9495 1% //dev/hd2 10485760 8014948 24%49885 3% /usr/dev/hd9var 10485760 9975400 5%9787 1% /var/dev/hd3 10485760 8773232 17%973 1% /tmp/dev/hd1 10485760 10478148 1%22 1% /home/proc - - - - - /proc/dev/hd10opt 5242880 4929636 6%10244 1% /opt/dev/fslv01 1569718272 1450676488 8%69989 1% /bi/dev/fslv00 941621248 858313640 9%57596 1% /crm检查内容:红色字体Used部分,如果有超过85%,说明文件系统需要扩容或者检查为什么超出。
5.1.1.2查看系统故障记录收集# errptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONB6267342 0709235512 P H hdisk10 DISK OPERATION ERRORB6267342 0708235512 P H hdisk10 DISK OPERATION ERRORB6267342 0707235512 P H hdisk10 DISK OPERATION ERRORB6267342 0706235512 P H hdisk10 DISK OPERATION ERRORB6267342 0705235512 P H hdisk10 DISK OPERATION ERROR 检查内容:如果有错误内容将会显示出来,例如B6267342就是一个错误(此错误可以不考虑,其一直存在)。
5.1.1.3检查有无发给root的mail# mailNo mail for root检查内容:查看发给Root的mail中有无错误信息。
检查mail中的error和warning关键字。
5.1.1.4系统性能检查5.1.1.4.1通过topas查看系统总体性能概况:察看cpu 使用的wait 值不能超过40% ,Pagingspace使用%Used值不能超过70%。
5.1.1.4.2使用vmstat来检查内存及CPU使用情况:其中r列为正在运行的,b列为等待运行的,并查看page中有无较大的pi和po。
5.1.1.4.3使用iostat来检查IO平衡使用情况:察看有无较大流量的I/O读写,如没有进行数据备份,不会有持续较大数值的IO出现,如有需进一步检查。
5.1.1.4.4查看交换空间paging space使用情况:使用lsps -s来检查使用率是否超过70%5.1.1.5检查HACMP状态运行:# lssrc -g clusterSubsystem Group PID StatusclstrmgrES cluster 115192 activeclinfoES cluster 160048 active检查内容:Status 状态为active。
5.1.1.6TSM备份检查5.1.1.6.1CRM系统备份日志检查运行:# cd /crm/scripts/log# more bkdb_sprod.log检查内容:如果bkdb_sprod.log中最后显示为complete则备份成功,否则备份失败。
5.1.1.6.2 BI系统备份日志检查运行:#cd /bi/scripts/log#more bkdb_bprod.log检查内容:如果bkdb_sprod.log中最后显示为complete则备份成功,否则备份失败。
5.2 存储检查手册5.2.1 IBM DS5020存储检查需要安装IBM System Storage manager工具登录manager工具后,输入密码:passw0rd检查status状态:如果有异常,其图标将变为非绿色。
5.3 带库Ts3200检查手册登录http://172.16.0.45/login.ssi选择用户及输入密码:用户名为admin,密码为:secure检查system status状态:Drive1和Driver2都应该为ready状态5.4光纤交换机检查手册5.4.1光纤交换机A检查手册登录: http://172.16.0.48输入用户名和密码用户名:admin密码:passw0rd检查内容:Status / Temp/ Power/ Fan指示灯是否为绿色。
5.4.2光纤交换机B检查手册登录http://172.16.0.49其他检查步骤与5.1.4.1的检查手册相同5.5虚拟化检查手册虚拟化设备为2台服务器,IP地址分别为172.16.0.31和172.16.0.325.5.1 登录172.16.0.47服务器:开始-运行mstsc /console 输入用户名和密码。
5.5.2 运行“VMware vSphere Client”。
5.5.3 在登录界面输入需要登录设备的IP及用户名和密码5.5.4 虚拟化检查内容:5.5.4.1 虚拟化操作系统运行情况5.5.4.2 虚拟化CPU、内存、存储使用情况5.5.4.3 虚拟化事件重点检查是否有警告提示5.6数据库检查手册5.6.1登录CRM数据库步骤:# su - crm$ sqlplus /nologSQL*Plus: Release 11.2.0.1.0 Production on Tue Jul 10 18:03:20 2012Copyright (c) 1982, 2009, Oracle. All rights reserved.SQL> conn /as sysdbaConnected.5.6.2登录BI数据库步骤:# su - bi$ sqlplus /nologSQL*Plus: Release 11.2.0.1.0 Production on Tue Jul 10 18:03:20 2012Copyright (c) 1982, 2009, Oracle. All rights reserved.SQL> conn /as sysdbaConnected.5.6.3在登录数据库后执行以下2-7操作5.6.3.1 手动检查alert_log中有没有报错检查CRM:#cat /crm/app/oracle/diag/sprod/sprod/trace/alert* |grep -i ora-检查BI:#cat /bi/app/oracle/diag/bprod/bprod/trace/alert* |grep -i ora-5.6.3.2 表空间检查期望值:使用超过95%,报警SELECT a.tablespace_name,round(((a.bytes - b.bytes) * 100) / a.maxbytes, 2) "% USED",round(((a.maxbytes - a.bytes + b.bytes) * 100) / a.maxbytes, 2) "% FREE",round(a.maxbytes / 1024 / 1024 / 1024, 2) "TOTAL(G)",round((a.bytes - b.bytes) / 1024 / 1024 / 1024, 2) "USED(G)",round((a.maxbytes - a.bytes + b.bytes) / 1024 / 1024 / 1024, 2) "FREE(G)",round(a.maxbytes / 1024 / 1024, 2) "TOTAL(M)",round((a.bytes - b.bytes) / 1024 / 1024, 2) "USED(M)",round((a.maxbytes - a.bytes + b.bytes) / 1024 / 1024, 2) "FREE(M)",a.maxbytes / 1024 "TOTAL(K)",(a.bytes - b.bytes) / 1024 "USED(K)",(a.maxbytes - a.bytes + b.bytes) / 1024 "FREE(K)",a.maxbytes "TOTAL(B)",a.bytes -b.bytes "USED(B)",(a.maxbytes - a.bytes + b.bytes) "FREE(B)"FROM (SELECT ddf.tablespace_name,SUM(decode(ddf.autoextensible, 'NO', ddf.bytes, ddf.maxbytes)) maxbytes,SUM(ddf.bytes) bytesFROM dba_data_files ddfGROUP BY ddf.tablespace_name) a,(SELECT dfs.tablespace_name, SUM(dfs.bytes) bytes FROM dba_free_space dfs GROUP BY dfs.tablespace_name) bWHERE a.tablespace_name = b.tablespace_nameORDER BY round(((a.bytes - b.bytes) * 100) / a.maxbytes, 2) DESC;5.6.3.3 死锁检查期望值:不存在数据SELECT vs.sid,vs.serial#,vs.audsid,'alter system kill session ' || '''' || vs.sid || ',' || vs.serial# || '''' || ';',ername db_user,vs.status,vs.osuser client_os_user,vs.process,vs.machine client_machine,vs.terminal,vs.program,vs.module,vs.action,vs.logon_time,vp.spid,ername dbserver_os_user,vp.programFROM v$session vs, v$process vpWHERE vs.paddr = vp.addr-- AND vp.SPID = '1451322'AND vs.sid IN (SELECT vl.sid FROM v$lock vl WHERE vl.BLOCK = 1);-- AND vs.PROCESS = '2961502'5.6.3.4 无效对象检查期望值:不存在数据select *from dba_objectswhere status = 'INVALID'and owner not in ('SYS', 'SYSTEM');5.6.3.5 数据文件属性检查期望值:不存在数据SELECT ddf.file_name, ddf.tablespace_name, ddf.bytes / 1024 / 1024 "M", ddf.statusFROM dba_data_files ddfWHERE ddf.status <> 'AVAILABLE';5.6.3.6 数据文件状态检查期望值:不存在数据SELECT , ddf.checkpoint_change#, ddf.checkpoint_time, ddf.bytes / 1024 / 1024 "M", ddf.status, ddf.enabledFROM v$datafile ddfWHERE (ddf.status NOT IN ('ONLINE', 'SYSTEM') OR ddf.enabled <> 'READ WRITE');5.7 CRM&BI 应用服务器CPU、内存检查手册5.7.1 应用服务器列表CRM应用服务器列表:Crmapp2 :172.16.0.113Crmapp3:172.16.0.108Gateway:172.16.0.109Ldapprod:172.16.0.118BI应用服务器列表BIapp:172.16.0.105ETL:172.16.0.1075.7.2 检查内存操作手册# freetotal used free shared buffers cached Mem: 2075424 1041976 1033448 0 192036 646980-/+ buffers/cache: 2029601872464Swap: 4096564 0 4096564将红色数字记录到《应用内存&CPU性能》表格中5.7.3 检查CPU操作手册#toptop - 11:43:20 up 468 days, 21:40, 3 users, load average: 0.08, 0.03, 0.01Tasks: 130 total, 1 running, 129 sleeping, 0 stopped, 0 zombieCpu(s): 0.0%us, 0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%stMem: 2075424k total, 1042100k used, 1033324k free, 192036k buffers Swap: 4096564k total, 0k used, 4096564k free, 646992k cached将红色数字记录到《应用内存&CPU性能》表格中6. 相关文件:无7. 相关表格《应用内存&CPU性能》。