当前位置:文档之家› 集群系统的管理与任务实验指导书

集群系统的管理与任务实验指导书

集群系统的管理与任务实验指导书 1. XCAT简介 一个普通的小规模集群系统(节点小于10)在没有集群管理软件进行管理的情况下,通过手动安装、配置每台计算节点,其工作量的多少是可想而知的,以一个包含10个节点的集群系统为例,在每一台计算节点上安装操作系统、配置并行计算机环境、同步集群用户,在保证不出错的情况下,花费的时间大约是两个小时,10个计算节点一共需要20个小时左右,这还是一个比较小的集群系统,如果像石油勘探、天气预报等使用的动辄几百个节点的集群系统,照这种方法逐个配置计算节点,虽然耗费的时间太多,而且要重启计算节点也必须逐个进行,操作极其繁琐,因此需要集群管理软件来管理集群系统,提高工作效率。 XCAT(Extreme Cluster Administration Toolkit)是由大型计算设备提供商IBM开发的一套集群管理套件,在IBM的刀片箱上集成了一个KVM的硬件模块,该模块控制着箱内的所有刀片,包括电源开关、启动顺序等,XCAT可以控制KVM模块,用户可以通过该套件实现集群计算节点的管理,使得集群管理更容易,用户只需要安装好管理节点,配置好XCAT的相关参数,就可以通过XCAT控制计算节点的安装(使用PXE网络启动和KickStart),配置、重启等操作,特别是使用XCAT安装计算节点,在管理节点上设置安装源以后,运行发送命令,计算节点就会自动从管理节点同步安装文件,自动将管理员设置好的软件包等安装到计算节点上,无需管理员诸葛安装和配置每台计算节点,为集群管理员节省了大量时间。

2. XCAT的配置 XCAT能帮助管理员有效地管理集群,避免了手动管理每一个集群计算节点的麻烦。只需要载管理节点上安装和配置好XCAT的运行环境,就能使集群的管理更加简单,接下来介绍XCAT的安装与配置。 1) XCAT安装的前提条件 管理节点上至少要有两个网卡,一个对内部的计算节点进行管理,一个对外提供计算应用。除此之外,还需要如下4个XCAT的软件包。 xcat-dist-core-1 . 2 . 0-RC3.tgz xcat-dist-doc-1 . 2 . 0-RC3.tgz xcat-dist-ibm-1 . 2 . 0-RC3.tgz xcat-dist-oss-1 . 2 . 0-RC3.tgz 2) 安装XCAT ① 解压缩前面列出的XCAT必须的4个软件包,如果将这4个软件包解压到/opt/xcat 目录下则运行如下命令。 [root@manager]#tar-xzvpf xcat-dist-core-1 .2 .0-RC2.tgz-C /opt/xcat [root@manager]#tar-xzvpf xcat-dist-oss-1 . 2 . 0-RC2.tgz-C /opt/xcat [root@manager]#tar-xzvpf xcat-dist-ibm-1 . 2 . 0-RC2.tgz-C /opt/xcat [root@manager]#tar-xzvpf xcat-dist-doc-1 . 2 . 0-RC2.tgz-C /opt/xcat ② 安装包解压完成后,会在/opt/xcat 中生成安装脚本setupxcat,载生成的文件夹中进行XCAT的首次安装。 [root@manager]#./setupxcat ③ 配置网络时间同步服务器(NTP)。设置NTP的目的是为了使集群中的计算节点能自动管理节点上同步时间,避免了手动修改每台计算节点造成的时间不统一的问题,首先我们载管理节点上设置好NTP服务器端,编辑/etc/ntp.conf配置文件,载文件中输入如下内容。 #vi /etc/ntp.conf server master.sample.net server 127.127.1.0 fudge 127.127.1.0 stratum 10 driftfile /var/lib/ntp/drift 编辑ntp.conf完成后,需要载服务器开启NTP服务,使系统自动的时候自动加载NTP服务,命令如下。 #chkconfig --level 345 ntpd on ④ 定义集群 XCAT对计算节点的管理主要依靠集群设备中硬件的定义信息表,这个表由管理员载集群管理节点上配置,表2-1列出了常用的几个表名及用途。 表2-1 XCAT中的表 表 名 用 途

site.tab xCAT住配置表,集群的全局定义表,是整个XCAT中最重要的一个表,它定义了rsh路径、rcp路径、安装计算节点需要的tftp目录、集群的域名解析服务器地址、管理节点的名称、使用的作业管理系统名称、资源调度器名称等 nodehm.tab XCAT的计算节点硬件管理表,记录了节

点名称、高级系统管理适配器、电源类型、终端类型等硬件信息 Nodelist.tab 定义集群中多有节点的名称、节点从属组、

运行状态等 Nodepos.t记录了每个节点所安放的物理位置 ab noderes.tab 定义节点组名称、节点的启动方式、tftp

服务器IP地址、nfs服务器IP地址、安装启动的网卡设备名称等 Nodetype.tab 定义节点的系统类型、构架,使用的镜像

类型及从属的组名称 passwd.tab 定义各种管理设备使用的用户及密码

postscripts.tab 定义kickstar等安装结束后配置节点的相

关脚本 Postdeps.tab 定义postscripts中脚本的相互依存关系

Networks.tab 定义节点所使用的网段、掩码、网关、DNS

信息 conserver.tab 定义节点通过何种方式转发console信息

mp.tab 定义节点的管理设备及在插槽的位置

mpa.tab 定义管理设置的类型及使用何种方式进行

管理等 定义好XCAT 管理集群的表以后,就可以在系统管理节点上创建DNS服务、收集计算节点的MAC地址、创建DHCP服务等,按照传统的方式配置这些服务,不仅需要管理员非常熟悉DNS、DHCP服务器等的配置,还非常容易载配置中出现错误。XCAT已经为管理员简化了这方面的配置,剩下的事情就交由XCAT自动执行安装配置,不仅简化了操作,还节约了时间,同时在保证所有表配置信息不出错的情况下,XCAT能将这些服务器安装、配置正确。下面分别给出了创建DNS、收集MAC地址信息、创建DHCP服务的命令。 ⑤ 创建DNS服务。 #makedns ⑥ 收集所有计算节点的MAC地址信息至mac.tab。 #getmacs compute ⑦ 创建DHCP服务。 #makedhcp --new --allmac ⑧ 第二次运行setupxcat,完成CAT的安装。 #. /setupxcat\

3. 使用XCAT安装计算节点 XCAT配置完成后,就可以通过XCAT安装计算节点了,在安装计算节点前,还需要设置系统安装镜像及NFS、TFTP服务等。 首先要利用Linux的安装光盘建立安装计算节点需要的操纵系统下载源,这样当所有的计算节点来时安装系统时会自动到管理节点上下载安装包到本地执行安装。这需要在管理节点上打开TFTP服务,XCAT整合了这些繁琐的操作,只需要运行一个命令copycds就可以实现,运行完这个命令后,会在根目录下生成install文件夹,在这个文件夹下生成系统的安装源文件,以64位的Red Hat Enterprise Linux 为例,生成目录为/install/rhel-SERVER5.3/x86_64,拷贝安装源文件这个过程会耗费约10分钟,具体时间根据管理节点的性能而有差异。拷贝完安装源文件,接下来再复制XCAT 目录下保存的系统安装完成后额外需要安装的软件,命令如下。 #cd /opt/xcat #find post -print | cpio -dump /install 安装源和额外安装的软件配置完成后,需要建立计算节点启动的镜像文件,以便于计算节点从网卡启动时,自动从管理节点上下载启动镜像文件,命令如下。 #cd /opt/xcat/stage #./mkstage 完成上面的设置以后,为确保XCAT正常控制计算节点,可以先进行电源管理命令的测试,以查看XCAT是否正常检测计算节点的状态,在管理节点的终端输入如下命令。 #rpower compute stat 若返回如下计算节点的状态信息,则表示XCAT已能正常控制计算节点,否则应根据错误提示,重新配置XCAT。 Bc1n1: on Bc1n2: on Bc1n3: on Bc1n4: on ...... Bc1n12: on Bc1n13: on Bc1n14: on 当XCAT所有的配置完成以后,接下来要进行计算节点的系统安装,采用XCAT来安装计算节点不仅能节省大量的时间,而且所有的计算节点的环境都是一样的,XCAT安装计算节点非常简单,只需要运行几个命令即可。剩下的事缴费XCAT处理就可以了,首先要通过XCAT设置计算节点的启动顺序,由于计算节点是采用网卡引导安装的,因此需要将网卡的启动顺序设置在最前面,命令如下。 #rbootseq compute n,c,f,h 该命令的作用是设置计算节点的启动顺序为network、cdrom、floppy、harddisk。 接下来执行节点的安装命令。 #nodeset blade install 其中blade为计算节点所属的组,安装的目标为blade组中所有的计算节点,也可以用范围来表示,如要安装bc1n1

相关主题