IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。
主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l (检查dump是否设置为always allow sysdump)执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df –k (检查文件系统的分配状况,一般不要超过80%)执行lsdev –Cc disk (检查硬盘状态为available)执行lsdev –Cc adapter (检查PCI卡状态为available)执行lsdev –Cc tape (检查磁带机状态为available)执行lsdev – Cc processor (检查CPU状态为available)执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr –El mem0 (检查内存状态正常size=goodsize)执行vmstat 2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat –in和netstat –rn (观察网络状态)执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。
更改网卡速率后需要在系统中执行smitty route 操作重新激活缺省路由。
如果进行网卡速率的调整,请务必小心。
)执行ping命令(检查网络连接状况)执行lsdev –C|grep aio (检查异步IO是否可用)执行lssrc –g cluster (查看是否有三个进程均为active状态)(这个主要看起了几个HA的进程了,有的时候是一个或两个)执行/usr/sbin/cluster/clstat –a (查看cluster状态是否正常)检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)执行#more /usr/es/adm/cluster.log #more /usr/es/sbin/cluster/history/*#cat /tmp/hacmp.out (检查这三个日志中是否有error或者fail.)检查7133面板上的指示灯,如果黄灯亮则需要诊断问题HOTspare 磁盘检测1、检查是否有raid保护# smitty ssaraid--->List All Defined SSA RAID Arrays2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool对于7133,执行Smitty ssaraid? List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。
对于7133,执行Smitty ssaraid?Change/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。
记录检查结果cpu (主频*数量)#lsattr -El proc0内置磁盘个数:#lsdev -Cc disk网卡信息:#lsdev -Cc adapter系统属性:#lsattr -E -l sys01.系统错误报告(Error Log)的检查:硬件故障检测命令:# errpt -d H -T PERM若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:# errpt -d S -T PERM若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户2.有否发给root用户的错误报告(mail):#mail (1).观察所有未读消息,注意有关diagela的消息。
(2).常用命令:h [] Display headings of group containing messaget [] Display messages in or current message.n Display next message.q Quit (3).对发现的问题详细分析,结果报告给客户3.文件系统的检查:命令:# df k %Used为文件系统的使用率。
所有文件系统的使用率不能大于80%4.通信系统的检测:(1).网卡的状态命令:#ifconfig a输出判断:en0: flags=e080863inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255en1: flags=e080863inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255主备网卡的flag为UP属正常。
同时检查ip地址和netmask是否正确。
(2).路由的检测命令:#lsattr El inet0authm 65536 Authentication Methods Truehostname h24 Host Name Truegateway Gateway Trueroute net,,0,172.16.23.81 Route Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface True(3).网络的检测命令:#ping [ip address]输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
5.系统DUMP设置的检查命令:#sysdumdev l输出判断:结果应为primary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression OFF若不正确请用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull6.系统硬件诊断:命令顺序为:(1).#diag (2).Enter (3).Diagnostic Routines (4).System Verification (5).All Resources (6).F7输出判断:结果应为No trouble was found.7.补丁程序(PTF)的检查(1).系统维护补丁版本为ML09,检查命令为:#instfix i |grep ML8.系统参数的检查(1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True(2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'(3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot(4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart Truefastpath enable State of fast path True更改命令为:#smitty aio(5).Limits文件的设置:#ulimit a输出判断:结果应为time(seconds) unlimitedfile(blocks) 2097151data(kbytes) 262144 //尤其是这项参数stack(kbytes) 32768memory(kbytes) 32768coredump(blocks) 2097151nofiles(descriptors) 2000更改命令为:#vi /etc/security/limits 更改data为5242889.集群状态检查smitty ssaraid →List All Defined SSA RAID Arrayshdisk1 40263B2E0DF74CK system good 91.1GB RAID-5 array(如果是good就正常)IBM巡检流程1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)3、有否发给root用户的错误报告(mail)4、检查hacmp.out,smit.log,boot.log5、关键系统的文件使用率不大于80%6、逻辑卷有否stale7、内存交换区使用率是否超过70% 8、内存交换区的大小是否为物理内存的1.5倍9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)10、通信(网卡、IP、路由表、ping、etchosts、DNS设置等)11、是否有数据保护方式如RAID10RAID5,是否有Hot spare 12、系统DUMP设置是否正确13、检查系统参数是否正确1)etcenviroment中的TZ不能有夏时制2)如有数据库:Aioavailable3)HACMP中IO pacingHigh Water MarkLow Water MArk33244)HACMP中Syncd105)HACMP中Power Monitoroff14、检查rootvg是否有镜象15、检查errdemon,srcmstr是否正常运行16、机房环境(电压、湿度)17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)19、HACMP测试:Cluster Verification20、系统硬件诊断21、运行#snap -ac,生成文件snap+sn.pax.Z22、机器清洁注1~15为A类维护(季度维护),16~18为B类维护(半年维护),19~22为C类维护(年度维护)1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog) errpt -d H -T PERM对有怀疑的进一步errpt -aj 错误代码more3、有否发给root用户的错误报告(mail) mail4、检查hacmp.out,smit.log,boot.log #cd tmp ls hacmp.out找到时间最近的字节不为零的文件,vi查看如果怀疑系统曾经有调整操作,检查smit.logalog -ot boot5、关键系统的文件使用率不大于80% #df –k (查看%Used)6、逻辑卷有否stale #lsvg -l 卷组名称(查看状态是否有stale的逻辑卷)7、内存交换区使用率是否超过70% #lsps –a(查看占用率是否超过70%)8、内存交换区的大小是否为物理内存的1.5倍命令同上现在原则有所改变,2G内存以下可按照1.5倍的标准,2G内存以上如果交换区占用率不高,可用2GB标准9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)口头询问:系统备份、数据备份检查磁带机面板,提醒用户清洗10、通信(网卡、IP、路由表、ping、etchosts、DNS设置等)#netstat –in #netstat –rn #netstat –I #vi etchosts (检查DNS相关文件内容)11、是否有数据保护方式如RAID10RAID5,是否有Hot spare如果是7133,diag→Task Selection→SSA Service Aids→Link Verification,smitty ssaraidFAStT产品使用其管理软件Storage Manager查看ESS使用ESS控制台查看12、系统DUMP设置是否正确sysdumpdev -l13、检查系统参数是否正确1)etcenvironment中的TZ不能有夏时制#vi etcenvironment检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式2)如有数据库:Aioavailable #lsdev -Cgrep aio (查看其状态是否available)如不是:smitty chgaio,将状态修改为available,重启系统3)HACMP中IO pacingHigh Water MarkLow Water MArk3324如果系统中运行了HACMP #smitty chgsysy,将HighLow water mark从00修改为33244)HACMP中Syncd10 如果系统运行了HACMP查看etcinittab,将syncd后次参数修改为10,然后telinit q,kill -9 syncd's PID5)HACMP中Power Monitor off14、检查rootvg是否有镜象lsvg -l rootvg查看镜像15、检查errdaemon,srcmstr是否正常运行#ps -efgrep err#ps -efgrep src16、机房环境(电压、湿度)基本要求:零地电位差不得大于1V;严格要求:零地电阻=1Ω(国内没几个能做到,〈=3Ω就差不多了)湿度:45%—70%17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)#instfix -igrep ML 查看补丁级别及是否完整;#lscfg –vp 检查所有硬件设备微码19、HACMP测试:Cluster Verification (smitty hacmp→Cluster Configuration→Cluster Verification)20、系统硬件诊断diag→Advanced Diagnos...→Problem Determination21、运行#snap -ac,生成文件snap+sn.pax.Z22、机器清洁。