Materials Studio Linux集群安装手册一、安装Linux操作系统,进行系统配置一般都建议最小化安装,不用安装图形界面。
下面我以red hat enterprise linux 6.0 x86-64在AMD Athlon(tm)64 X2 Dual Core Processor 4400+ 电脑上的安装为例。
rhel6.0的安装过程和windows差不多,一路下一步(或Next)基本就ok了,在您要进行哪种类型的安装?你如果是第一次安装,是新硬盘的话可以选使用所有空间,并勾选下边的查看并修改分区布局,然后下一步,你可以看下大概的分区情况,在Red Hat Enterprise Linux 的默认安装是基本服务器安装。
如果对Linux不太熟的话,最好选择软件开发工作站(或Software Development Workstation),这样基本上把要用的软件都安装上了,然后再选上下边的现在自定义(或 Customize now),再下一步,然后把所有能选上的软件都选上,再一路下一步。
安装完以后,创建一个非root用户,比如创建一个msi用户,root和msi用户密码设的简单一些比较好,别一会儿你自己都忘了,我是root和msi用的一个密码,当然将来你自己真正组建集群用于计算的时候再设置复杂一些,这样课题提高系统的安全性。
gccglibc-2.3.4-2.43 (32-bit and 64-bit)libgcc-3.4.6-11 (32-bit and 64-bit)libstdc++-33-3.4.6-11 (32-bit and 64-bit)compat-libstdc++-33-3.2.3-47.3 (32-bit)hpmpi-2.03.01.00-20090402r.x86_64这几个补丁,好像除了hpmpi-2.03.01.00-20090402r.x86_64和libstdc++-33-3.4.6-11 (32-bit)没有装上之外,别的都给你装好了。
这里要说的是,这些补丁每个节点都要装,千万记住。
你可以用命令: rpm -qa|grep gcc 查询,当然你要查libstdc++就要用命令:rpm -qa|grep libstdc++了。
对于hpmpi-2.03.01.00-20090402r.x86_64和libstdc++-33-3.4.6-11 (32-bit)的安装可以用命令rpm安装,首先切换到这两个软件包所在的目录下,执行下列命令,格式如下:rpm -ivh libstdc++-33-3.4.6-11.i386.rpmrpm -ivh hpmpi-2.03.01.00-20090402r.x86_64.rpm注意,这里都是在root 用户执行的操作,二. 为msi 用户添加sudo 命令使用权限,运行命令 su root ,输入root 用户的登录密码后,使用vi 命令进行下面的修改: 在root 权限下,运行命令:vi /etc/sudoers#在root ALL=(ALL) ALL 这一行下面添加一行msi ALL=(ALL) ALL 然后运行命令::wq !#在命令模式下,强制执行存盘退出操作注:修改后,则成功添加msi 用户使用sudo 命令的权限,在往后的安装中可方便进行提权操作。
三. 于各节点安装HP-MPI ,安装方法:a. 挂载MS 安装光盘,对应系统版本进入下列相应目录进行安装,下面是版本信息:1 2 3 :UNIX/Linux/hpmpi/ for older IA32 Linux:UNIX/Linux_x86_64/hpmpi/ for IA32 Linux systems with x86_64:UNIX/Linux_IA64/hpmpi/ for IA64 Linux.b. 安装时需要使用root 用户进行安装,终端运行su root 后输入密码登录为root ,使用下面安装命令:1 :rpm -ivh /UNIX/Linux_x86_64/hpmpi/hpmpi-2.03.01.00-20090402r.x86_64.rpm c. 安装后出现下面提示即成功安装四.查看各节点网络状态,修改主机名可以使用ifconfig命令,查看各个节点的网络状态。
rhel6.0开机后网络是处于禁用状态,要激活网络接口,可以使用命令:ifcf g eth0 start或ifup eth0。
一般情况下rhel6.0在安装的过程中都可以认出主机的网卡,如果由于网卡太新没有认出来,那就需要到网卡官方网站下载Linux网卡驱动程序进行安装了,网上教程很多很容易掌握。
使用hostname指令设置主机名。
在命令行中输入下面的命令:hostname msinode1注意:使用hostname指令设置的主机名称仅在系统重新启动前起效,重启系统后将使用原来的主机名称。
如果希望启动系统后生效,则需要修改文件“/etc/hosts”。
五. 配置SSH免认证登录,配置过程:a. SSH免认证登录的配置:i. 测试是否已经安装SSH,于终端(Terminal)中输入ssh local host后回车,若出现下面提示:则表示已经安装SSH。
若提示失败,则需要放入安装光盘进行安装。
ii. 于终端中输入ssh-keygen -t rsa,此时它会提示你生成SSH的密钥。
iii. 此时无须设置密码,你只需要点击回车就可以了,生成的公钥和私钥会保存~/.ssh/目录下。
iv. 进入目录~/.ssh/(命令:cd ~/.ssh/),运行命令:1 :cp id_rsa.pub authorized_keys,将公钥进行复制。
v. 同样地,在其他节点上运行上面的命令,将各节点中得到的autho rized_key中的内容复制出来,汇总到一个文件中,命名为authorized _key,并放置于各节点的~/.ssh/目录下(覆盖原有文件)。
#可以在xp下使用WinSCP软件进行管理,就像处理word文档一样复制粘贴就行了,每个节点的authorized_key内容在汇总的authorized_key里各占一行。
vi. 修改.ssh/目录下的文件权限以及目录权限,运行命令: 1 2 :chmod 600 *:chmod 700 .vii. 再修改home 目录的权限为只读,运行命令:1 2 :cd ~:chmod 755 .viii. 在各节点的对应目录重复以上命令,如成功的话,对localh ost (或者其他节点机器名)进行ssh 连接则不会再出现密码提示,如图:ix. 为加快SSH 连接速度,使用 vi 命令(需要root 权限)修改各个节点的 /etc/hosts 文件,运行下列命令:1 :sudo vi /etc/hosts显示如下:1 2 3 4 5 :# Do not remove the following line, or various programs :# that require network functionality will fail.:127.0.0.1 localhost.localdomain localhost:::1 localhost6.localdomain6 localhost6:192.168.2.160 mscnode16 :192.168.2.161 mscnode2x. 将127.0.0.1后对应的主机名删除,添加集群中各节点的IP地址和机器名,保存后退出即可,示例如下所示:1 2 3 4 5 6 7 8 :# Do not remove the following line, or various programs:# that require network functionality will fail.:#127.0.0.1 localhost.localdomain localhost::192.168.128.160 mscnode1:192.168.128.161 mscnode2::w #保存,如果显示无法保存可以在w后加!强制执行::q #退出xi. SSH免认证登录可使用WinSCP软件进行简化。
六. 以集群模式安装MS1. 先将MS文件上传到主节点。
可以以打包的形式上传,也可以先做成ISO,我一般是习惯先做成ISO上传,以免出现权限不够的问题,遇到权限不够的时候改变文件属性,加上执行权限就可以了。
2. 上传后将ISO文件挂载到某一目录下,如果想挂到根目录下mnt目录下的iso目录中,命令示例如下:1 2 :mkdir /mnt/iso:mount -o loop -t iso9660 ms50_unix.iso /mnt/iso3. 在主节点上切换到MS 安装用户,这里用的是hope ,然后到换到/mnt/iso/UNIX 下执行1 2 :./Install --type cluster:或是直接./mnt/iso/UNIX/Install --type cluster--type cluster 这个参数是并行时必须加的参数,另一个要注意的就是要用非root 用户安装。
4. 如果执行上述命令后出现无法安装的提示,可使用下列命令进行提权:1 :chmod 777 /mnt/iso/ -R5. 安装过程中其他基本上用默认的就可以,但有一个临时文件夹建议不要放在共享目录下,每个节点放一个tmp ,这样可以减少节点间的通信量,提高性能。
比如说我的安装目录是/home/hope/Accelrys/MaterialsStudio50,Accelrys 是我要共享给其他节点的目录,那tmp 我就放在/home/hope/下,用MS 的用户创建,保证可写入。
其他每个节点的用户目录下都创建一个tmp 目录。
6. 安装完成后将Accelrys目录共享给其他节点,方法如下:1 2 :vi /etc/exports #加入下面一行内容::/home/msi/Accelrys *(rw,no_root_squash)7. 然后重启nfs服务,service nfs restart。
如出现错误提示,则参考《Linux下配置安装NFS》文章中检查portmap服务是否已经启动或者运行命令是否有root权限。
1)NFS服务所需的套件(1)portmap运行命令查询portmap是否安装:rpm –qa |grep portmap#显示portmap-4.0-65.2.2.1表示已正确安装(2)nfs-utils运行命令查询nfs-utils是否安装:rpm –qa |grep nfs-utils#显示一下内容表示已正确安装nfs-utils-lib-1.0.8-7.2.22nfs-utils-1.0.9-33.el52)启动NFS服务NFS服务要正常运行,必须先启动portmap服务。