当前位置:文档之家› 主机及存储设备性能监控方案

主机及存储设备性能监控方案

主机及存储设备性能监控方案一背景和目标目前,为各省配备的小型机和存储设备都已进入稳定运行阶段,总局信息中心决定在各省开展小型机和存储设备的性能监控工作,对小型机和存储设备的主要性能数据进行定期采集,了解和掌握当前设备的性能和压力状况,为基础设施的运行维护、资源优化和建设规划工作积累经验和提供依据。

二监控范围主机及存储设备性能监控的范围主要包括总局统一为各省配备的HP小型机(superdome)、IBM小型机(P595,P570)和EMC磁盘阵列设备。

三监控时间主机及存储设备性能监控工作将对连续3个月内的关键时间点对HP 小型机、IBM小型机和EMC磁盘阵列设备的关键性能指标进行数据采集,建议在系统忙时和闲时分别进行检测。

一般建议每月至少监控4天,其中征期至少两天,非征期至少两天;每天监控至少4次,其中忙时至少两次,闲时至少两次。

具体监控时间和详细的监控次数,各省可根据本省的业务特点进行确定和调整。

四监控方式主机及存储设备性能监控通过运行小型机及存储设备自带的命令对关键性能指标进行查看,并进行数据采集。

技术方案第五部分详细介绍了HP小型机、IBM小型机和EMC磁盘阵列性能监控命令的操作指南。

数据采集工作可直接按照操作指南运行命令进行,也可以通过运行命令脚本(详见附件三)进行。

五操作指南5.1 IBM小型机性能监控方案5.1.1系统性能检查方式及说明:(一)IBM小型机性能监控均通过IBM AIX系统自带命令,非第三方软件。

IBM AIX系统安装后,无需额外安装任何软件包即可使用。

(二)IBM小型机性能监控的命令,均不额外增加系统负荷。

即是说当系统繁忙度较高时,仍可执行下列命令,且不对系统造成影响。

(三)采样数据的保存。

通过执行IBM小型机性能监控命令,输出结果的保存办法,一般常用以下几种:1、使用专业的telnet工具登录到主机上。

专业telnet工具均会含有“捕获输出文字”的功能,只要打开捕获输出文字功能,所有的输出均会记录到文件中。

(推荐,不影响系统)2、使用AIX系统的输出重定向功能。

命令格式:# 命令> 文件名上面的方式是将命令的输出结果直接输出到一个文件中。

例如:# vmstat 2 10 > /tmp/vm_output这个命令会将命令vmstat 2 10 的输出结果放在/tmp 目录下的vm_output文件中。

5.1.2 IBM 小型机性能监控方案IBM小型机性能监控方案主要对IBM小型机的CPU状况、磁盘I/O 吞吐状况、内存及虚拟内存使用率和硬盘空间状况等关键指标进行性能监控,具体操作如下:CPU状况监控方式:通过vmstat命令检查系统CPU使用情况操作示例:#vmstat 2 10参数说明:2表示每隔2秒取样一次,10表示共取样10次。

这2个参数的具体值可以根据需要自由定义。

输出示例:# vmstat 2 10System configuration: lcpu=2 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa0 0 229367 332745 0 0 0 0 0 0 3 198 69 0 0 99 00 0 229367 332745 0 0 0 0 0 0 3 33 66 0 0 99 00 0 229367 332745 0 0 0 0 0 0 2 33 68 0 0 99 00 0 229367 332745 0 0 0 0 0 0 80 306 100 0 1 97 10 0 229367 332745 0 0 0 0 0 0 1 20 68 0 0 99 00 0 229367 332745 0 0 0 0 0 0 2 36 64 0 0 99 00 0 229367 332745 0 0 0 0 0 0 2 33 66 0 0 99 00 0 229367 332745 0 0 0 0 0 0 2 21 66 0 0 99 00 0 229367 332745 0 0 0 0 0 0 1 237 64 0 0 99 00 0 229367 332745 0 0 0 0 0 0 2 19 66 0 0 99 00 0 229367 332745 0 0 0 0 0 0 6 37 76 0 0 99 0输出说明:(1)'page'部分'pi'列表示page in;'po'列表示page out。

'pi'和'po'的数值一般为0。

如果长期不为0,说明系统需要频繁的进行从硬盘上的虚拟内存部分进行页的交换,物理内存不足。

(2)'cpu'部分:'us'列表示用户进程占用的CPU的百分比;'sy'列表示系统进程占用的CPU的百分比;'id'列表示空闲的CPU的百分比;'wa'表示CPU处于等待IO状态的百分比.;一般如果id项的值长期低于20%说明系统CPU不足,须考虑增加CPU或优化程序;如果wa的值长期高于us和sy,说明系统IO存在瓶颈.须用topas,iostat等命令确定瓶颈所在并增加IO吞吐量。

磁盘IO吞吐监控方式:通过iostat命令检查磁盘IO状况操作示例: #iostat 2 10参数说明:2表示每隔2秒取样一次,10表示共取样10次。

这2个参数的数值可以根据需要自由定义。

输出示例:# iostat 2 10System configuration: lcpu=16 drives=108 ent=8.00 paths=3 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait physc % entc0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.1----- ----------- ------------------------ ------------ -----------Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.0 0.0 0.0 0 0hdisk1 0.0 0.0 0.0 0 0hdisk2 0.0 0.0 0.0 0 0hdisk4 0.0 0.0 0.0 0 0hdisk3 0.0 0.0 0.0 0 0cd0 0.0 0.0 0.0 0 0输出说明:输出结果输出结果会按照每个磁盘进行排列, 主要观察的参数如下:(1)% tm_act 说明该磁盘处于活动状态的时间比率。

(2)Kbps 说明该磁盘每秒的读写数据量。

如果tm_act长期处于90%以上的状态,且Kbps数据量很大,则说明该磁盘繁忙程度过高,需要通过增加磁盘或者更改应用来将数据量平均分配到其他磁盘。

内存及虚拟内存使用率监控方式:通过lsps –a命令查看交换分区状况来了解系统内存及虚拟内存使用情况。

操作示例:#lsps –a输出示例:#lsps –aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 6144MB 1 yes yes lv输出说明:(1)Page Space:列出该交换分区的逻辑卷名称。

(2)Physical V olume:列出该交换分区位于那个物理卷,在有条件的情况下建议交换分区分散分布在不同的物理卷上以提高性能。

(3)Size:该交换分区的大小。

一般交换分区的大小不应小于物理内存的大小,对于硬盘空间紧张的系统,至少也要保证物理内存的一半大小。

(4)%Used :交换空间的使用率。

如果使用率长期高于80%,需要增加交换分区的大小(该操作可在线完成)。

(5)Active:表示该分区是否已经激活。

(6)Auto:表示该分区是否在每次重启后自动激活.。

硬盘空间监控方式:通过#lsvg rootvg命令查看卷组信息来了解硬盘空间分配情况。

操作示例: #lsvg rootvg输出示例:VOLUME GROUP: rootvg VG IDENTIFIER:000bc6fd00004c00000000fda469279d VG STA TE: active PP SIZE: 16 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 542 (8672 megabytes)MAX Lvs: 256 FREE PPs: 431 (6896 Megabytes)LVs: 9 USED PPs: 111 (1776 megabytes)OPEN LVs: 8 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per VG: 32512MAX PPs per PV: 1016 MAX PVs: 32LTG size (Dynamic): 256 kilobyte(s) AUTO SYNC: noHOT SPARE: no BB POLICY: relocatable输出说明:(1)主要指标为PP size 和Free PPs 。

(2)通过查看Free PPs项可以了解该VG还有多少空间可以使用。

Free PPs×PP size就是VG剩余空间的大小。

如果Free的PP个数与Total PP个数相比已经非常小,说明空间已经不足,如果该VG内容会不断增长,请及时增加VG的大小综合监视命令topas监控方式:通过topas 命令报告选定的本地系统活动的统计信息。

该命令使用curses 库以合适的格式来显示其输出,该格式适合于在一个80x25 基于字符的显示器上或至少同样大小的图形显示器的窗口中进行查看。

操作示例: #topas输出示例:输出说明:使用topas命令可以对CPU,网络,IO,进程等很多方面进行监控,并输出到屏幕上。

输出结果只能通过显示屏实时显示,无法导出。

(1)CPU。

最左上显示CPU的使用情况,User:显示以用户方式执行的程序所使用的CPU 的百分比。

(缺省按用户百分比排序)Kernel:显示以内核方式执行的程序所使用的CPU 的百分比。

相关主题