当前位置:文档之家› Torque在Linux集群上的安装配置

Torque在Linux集群上的安装配置

服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。

操作系统为CentOS 5.3 x86_64版本的Linux系统。

NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。

所有的应用软件都安装在此共享磁盘上。

1.ssh免密码登录.对每个用户都要设置。

2.下载Torque,解压缩,编译。

目前,torque 2.3是稳定版本,2.4是beta版本。

为了稳定,我下载的是2.3.9版本。

下载地址:/downloads/torque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。

将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。

或者手工写一个脚本来完成这些工作。

3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。

写脚本来完成吧!比如for i in `seq 1 9`doecho tccl0$issh tccl0$i "some command"done4.配置torque1)ldconfig2) Specify Compute Nodes编辑文件/var/spool/torque/server_priv/nodes内容如下(注意,这里使用的都是机器的简称,与使用免密码登录时的机器名称相同):tccl01 np=8 smallmemtccl02 np=8 smallmemtccl03 np=8 bigmemtccl04 np=8 bigmemtccl05 np=8 bigmemtccl06 np=8 24G_Mem fastcputccl07 np=8 24G_Mem fastcputccl08 np=8 20G_Mem fastcputccl09 np=8 24G_Mem fastcpu3)Configure TORQUE on the Compute Nodes按照系统的情况,配置如下:在计算节点上编辑文件/var/spool/torque/mom_priv/config内容如下:$pbsserver tccl_frontarch x86_64opsys RHEL$logevent 255$ideal_load 4.0$max_load 8.0$tmpdir /tmp4)初始化torque.setup root这会生成最基本的一个设置,有一个batch队列。

如果需要比较复杂的队列,建议自己写一个配置文件,比如queue.conf文件。

下面是一个有short,medium,long 共3个队列的配置文件:## Create queues and set their attributes.### Create and define queue batch##create queue batch#set queue batch queue_type = Execution#set queue batch resources_default.nodes = 1#set queue batch resources_default.walltime = 01:00:00#set queue batch enabled = True#set queue batch started = True#Short queuecreate queue shortset queue short queue_type = Executionset queue short resources_default.nodes=1set queue short Priority = 1000set queue short max_running=20set queue short max_queuable=40set queue short max_user_run=10set queue short max_user_queuable=20set queue short resources_min.walltime=00:00:10set queue short resources_max.walltime=12:00:00set queue short resources_default.walltime = 12:00:00 set queue short resources_default.neednodes = smallmem set queue short enabled = Trueset queue short started = True#Medium queuecreate queue mediumset queue medium queue_type = Executionset queue medium resources_default.nodes=1set queue medium Priority = 100set queue medium max_running=12set queue medium max_queuable=20set queue medium max_user_run=4set queue medium max_user_queuable=8set queue medium resources_min.walltime=12:00:10set queue medium resources_max.walltime=48:00:00set queue medium resources_default.walltime = 24:00:00 set queue medium enabled = Trueset queue medium started = Trueset queue medium resources_default.neednodes = fastcpu #Long queuecreate queue longset queue long queue_type = Executionset queue long resources_default.nodes=1set queue long Priority = 10set queue long max_running=10set queue long max_queuable=12set queue long max_user_run=3set queue long max_user_queuable=6set queue long resources_min.walltime=48:00:00set queue long resources_max.walltime=480:00:00set queue long resources_default.walltime = 72:00:00set queue long resources_default.neednodes = bigmem set queue long enabled = Trueset queue long started = True## Set server attributes.#set server scheduling = Trueset server acl_hosts = tccl_frontset server acl_hosts += tccl_front.tccl_groupset server acl_hosts += "tccl01,tccl02,tccl03,tccl04,tccl05,tccl06,tccl07,tccl08,tccl09"set server acl_host_enable = trueset server managers = root@tccl_front.tccl_groupset server operators = root@tccl_front.tccl_groupset server default_queue = shortset server log_events = 511set server mail_from = admset server scheduler_iteration = 10set server node_check_rate = 120set server tcp_timeout = 6set server mom_job_sync = Trueset server keep_completed = 120#set server next_job_number = 0set server query_other_jobs = True运行qmgr <queue.conf即可完成两个队列(long,short)的基本设置。

需要注意的问题:/etc/hosts设置# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1 localhost localhost::1 tccl_front6.tccl_group localhost6192.168.1.218 tccl_front.tccl_group tccl_front192.168.1.3 tccl01.tccl_group tccl01192.168.1.2 tccl02.tccl_group tccl02192.168.1.4 tccl03.tccl_group tccl03192.168.1.5 tccl04.tccl_group tccl04192.168.1.6 tccl05.tccl_group tccl05192.168.1.7 tccl06.tccl_group tccl06192.168.1.8 tccl07.tccl_group tccl07192.168.1.9 tccl08.tccl_group tccl08192.168.1.10 tccl09.tccl_group tccl09包含tccl_front的应该是192.168.*.*的IP,而不能是外网IP或者127.0.0.1的IP,切记!5.安装mpiexec,这个是为了方便运行nwchem等程序。

相关主题