图5-2集群资源使用总统概况
图-3表示集群中节点数和CPU核心数,绿色的直线表示集群中有15个节点(1理节点和14个计算节点),红色的直线表示整个集群一共有64个CPU核心。
图5-3上一个小时集群活动进程数
表示用户占用CPU时间,以百分比表示,蓝色填充图部分表示这段时间左右,表示集群资源当前比较空闲。
图图-4上一个小时集群处理器资源占用情况
表示集群的内存和交换内存(swap)使用情况,红色的直线表示集群一共有
内存,紫色的直线表示集群一共有16GB交换内存,青色表示内存Bufer,深青色表示在中已命中的情况,蓝色表示用户进程占用内存情况。
图图-5上一个小时集群内存资源占用情况
表示集群网络资源占用情况,绿色的曲线表示数据流向集群,蓝色曲线表示从集群流出的数据。
图图-6上一个小时集群内存资源占用情况
图-7表示集群中每个节点(包括管理节点)资源占用情况,白色表示集群空闲,绿色表示集群节点正在被使用,橙色和红色表示集群的资源负载比较大。
管理员可以根据这个监控图查看集群中哪些节点空闲哪些节点负载较高,以方便将空闲的资源提供给用户和减轻高负载节点的负荷。
图图-7集群计算节点资源使用情况
图图-8节点硬件与系统配置实验六Nagios
图6-1 Nagios主监控界面
图-2监控集群中所有节点的服务运行状况,根据图-1中显示的集群中有14个关键(Critical)错误,图-2可以详细的显示这14个关键错误的信息,这里是因为节点bc1n1-bc1n14均没有安装d服务无法提供服务,Nagios检测到服务没有启动报警。
图6-2节点服务故障
如图-2,Nagios还可以检测报警错误,如图-3中节点Manager中的服务存在着一定问题,虽然开启了服务,但是用户没有权限访问该服务器,Nagios
给出了Waring信息。
图6-3节点服务警告
图-4列举了所有节点上的运行情况,例如图中bc1n1,Nagios分别检测了其当前用户,、SSH服务开启情况,根目录、交换分区使用情况,以及系统全部进程运行情况,绿色表示运行正常,红色表示运行一场,如bc1n1的服务没有启动,则用红色的图标记该服务。
图6-4节点服务监控
图-5展示了节点的状态信息,从该图可以看出,节点bc1n1当前状态为正在运行(UP),PING的状态为OK,说明网络连接正常,绿色的ENABLED表示这些服务都将被允许。
图6-5 单个节点状态信息监控
图-6是集群运行状态概况图,可以根据改图查看集群中所有节点的运行概况,包括集群节点运行状态(UP或者是DOWN),节点服务状态(OK,Waring,Critical)。
图6-6组状态监控
图6-7监控集群中所有节点运行状态,状态UP表示集群节点正在运行,Last Check表示上一次检测时间,Duration表示运行正常情况持续时间。
图6-7节点运行状态监控
图-8显示了集群组LinuxServer的总体运行情况,绿色的状态表示运行正常,橙色表示有警告,红色表示有错误。
图6-8集群组总体监控信息
图-9展示集群全部节点的服务运行情况,从图中可以看出节点bc1n1-bc1n14的均未开启,节点Manager的服务开启,但是仍然存在警告。
其他SSH服务、用户状态、分区状态等均正常。
图6-9 全部节点服务状态
图-10展示集群节点Nagios进程运行状态信息,包括Nagios版本、是否运Nagios报警通知、性能数据获取等。
图6-10 节点进程信息
图7-1 VMware工作区
图7-2 新建一个虚拟机
根据用户需要,选择典型安装还是自定义安装。
若选择自定义安装,用可以适配器类型和虚拟磁盘类型等,在这里我们选择典型安装。
图7-3 ISO镜像路径。