当前位置:
文档之家› 北工大高性能计算暨云计算平台简介-青岛报告
北工大高性能计算暨云计算平台简介-青岛报告
计算资源 存储资源 网络资源
10TB 1套千兆以太网 SAN存储、 2台I/O服务器 1套万兆以太网
企业云应用、开 84台 发测试云 刀片服务器 数据密集型高性 70台 能应用 刀片服务器 通信密集型高性 98台 能应用 刀片服务器
C区
D区
1套Infiniband 高 30TB SAN存 性能通信网络 储、 6台I/O服务器 内存密集型高性 3台大内存机 1套Infiniband 高 能应用 架服务器 性能通信网络、 1套万兆以太网
◦ 用户可以通过资源模板,定制所需的软件环境,实现自动部署
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
实践1:第二届北京工业大学IBM杯并行计算大赛 ◦ 共10个学院,29个参赛小组 ◦ 自选课题, 86%来源于实际项目需求 ◦ 应用类型多样,并行环境需求异构
√
√
From first principles!
第一性原理计算
在节点数目大于4 后,其并行效率会剧烈下降。 主要是由第一性原理计算密集型、通信密集型的 计算特点导致,而云平台的虚拟化技术会增加了 计算任务和底层的额外时间,特别是当节点数较 多时,浪费在程序与底层之间、多节点之间的网 络交换的时间将增加导致整体效率非常低。 由于第一性原理计算VASP程序在每一步并行之后 虚拟集群环境配置: 需要互相对比数据进行自洽,随着节点数的增加, 70个节点(单核CPU 2.83GHz,内存 各个节点之间的网络交换时间和穿越虚拟层的时 间都将大大增加,导致了系统时间的增加,同时 Redhat Linux 5.5 影响运算时间,最终导致了云平台多节点并行效 率的低下。 千兆以太网
◦ MPI并行程序库
用于MPI并行作业运行时环境
◦ OpenMP并行程序库
用于OpenMP并行作业运行时环境
◦ 作业管理软件---LSF
用于机群作业管理,资源监控,计费管理,可支持多机群协同管 理
可提供多类高性能作业(如MPI作业等)的全生命周期管理 机群使用情况的报表生成和智能化分析 多分区、多机群协同管理 多种形式的计费管理 提供基于web、命令行等多种形式的用户界面 降低用户的使用门 槛,提供系统好用性。
计算机
虚 单个虚拟机硬件配置 拟 机 CPU 内存 硬盘 个 数
单个虚拟机软件配置 操作系统 集群配 置 并行环 境 监控 作业调 度
头节点
1
1*2.83 GHz
2GB
30 GB
Windows xp/ Windows 2003/ RHEL 5.4-32bit/ RHEL 5.4-64bit/ RHEL 5.2-32bit
◦ 部署时间:2小时;运行时间:超过3个月
◦ 师生反响
任课教师:“基于云平台提供虚拟试验环境,是一种全新的
教学手段。基于北工大云计算平台为本科/研究生《并行计算 》课程的实践环节自动部署所需的并行计算基础环境,有助 于教师在有限的学时内,将教学内容集中于并行计算环境之 上的并行算法设计和并行编程技术,贯彻了该门课程的教学 宗旨,提升了教学效率;同时,基于统一的平台环境,对学 生的课程设计进行检测,有助于优化该门课程的考核评价体 系。” 学生代表:“云平台提供的虚拟机集群为我们提供了很好的 软硬件环境,避免了我们在硬件准备、集群搭建和并行环境 配置方面耗费过多时间和精力,使我们能集中精力进行并行 程序的开发和调试。同时,通过无线校园网接入,我们可以 在学校任何地方随时访问云平台,提高了我们的学习效率。
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
高性能计算平台和云计算平台的硬件遵循分区规划、 统一管理的建设思路
以机群为主体架构
总计算能力达到23TFlops,总存储能力达到40TB, 目前规模位居全国高校前列
计算资源 ◦ 252台IBM HS21刀片服务器
◦ 通信密集型 ◦ 内存密集型
针对不同类型的高性能应用的计算需求,在B、C、 D区分别定制不同的软硬件配置方案
利用高性能作业调度和管理技术,为应用合理分配 计算资源,提高应用运行效率。
高性能计算服务门户 高性能计算门户 典型高性能应用门户 高性能应用软件(Anasys, Nastran)
门户层
◦ 为门户网站、企业信息系统等提供托管运行环境
利用虚拟化技术,以虚拟机的形式为用户动态提供 计算资源服务
利用自动部署技术,构建用户所需的软件运行环境
◦ 在2个管理服务器上安装IBM BlueCloud,管理范围覆盖A区. ◦ 目前,基于xen虚拟机管理器,可提供的软件环境
操作系统:Windows XP/Windows 2003/RHEL 5.4-32bit/RHEL 5.4-64bit/RHEL 5.2-32bit 并行计算环境:MPICH1/MPICH2/OpenMP/Hadoop 监控系统:ITM Monitoring Agent 集群配置:SSH/NFS/Torque
◦ 基于A区,采用IBM云计算技术,提供并行应用 调试/运行环境
学院 电 生 激 建 机 机 机 数 材 控 命 光 工 电 电 电 理 料
应
用
软 件 环 境 Linux Hadoop + Hbase Linux + MPI + Boost_1_34_1 Linux + MPI + Pvm Linux + MPI + OpenMPI + OpenMP + Opensees Linux + MPI + Fortran90 Linux + MPI Windows XP + MPI Windows XP + MPI + Vc++6.0 Linux + MPI Linux + MPI + Opencv
安装于管理域的1台管理服务器上,管理范围覆盖B,C,D区。
◦ 文件管理软件—GPFS并行文件系统
用于对SAN存储域中所存文件数据的高效读写。 在存储域的6台I/O服务器上部署GPFS server,在B,C,D区的所有节 点上部署GPFS client,管理范围覆盖B,C,D区。
作业管理层
在2个管理服务器上安装LSF Master,在B,C,D区的所有节 点上部署LSF Slave,管理范围覆盖B,C,D区,实现多分区 计算资源的统一调度管理。
高性能应用层
◦ 目前安装Anasys, Nastran等高性能应用商业软件
◦ 最终将实现与作业管理系统LSF的集成,通过LSF实现应用 软件运行时的资源分配和作业调度
CPU:2路,4核,主频2.83GHZ;内存:16GB;硬盘:146GB
CPU: 16颗,4核,主频2.13GHZ;内存:512GB;硬盘:3*146GB
◦ 3台IBM X3950M2大内存机架服务器
存储资源 ◦ 4台IBM TotalStorage DS4700-70A磁盘阵列 ◦ 基于SAN架构的存储网络系统
◦ 在线同时管理虚拟机群数最大为32个
◦ 虚拟机群平均部署时间约为30分钟
◦ 通过蓝云提供的细粒度资源供给功能,仅使用
了50-65%的硬件资源,满足所有29个参赛小组 的高性能资源需求。
实践2: 《并行计算》本科/研究生课程虚拟教学 试验环境
◦ 学生总人数64人
◦ 部署环境
4个虚拟计算节点(0.5core,1GB内存,15GB硬盘) 本科:windows+MPICHI2 研究生:linux+MPICHI2
北京工业大学网格中心 2011-6-9
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
服务教学科研 开展科学研究 支撑服务北京
ssh/nfs
Mpich2 / ITM OpenMP Monitori /Hadoop ng Agent
Torque-client
0
15分钟
30分钟
high-resolutioned Mandelbrot set and Julia set parallel volume rendering
◦ 共计部署于84个刀片服务器 ◦ 虚拟机群规模8-100个节点
服务目标及建设情况 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
以服务的形式,面向用户多样化的应用需求,提供 定制的、个性化运行环境。
典型应用场景
◦ 为高性能计算相关课程教学提供试验环境 ◦ 为并行编程用户提供调试环境
◦ 为规模较小的计算密集型高性能应用提供运行环境
高性能应用层 作业管理层 基础管理层
作业管理(LSF)
并行编译器及并行库(MPI)
系统管理(Xcat)
文件管理(GPFS)
硬件资源(计算、存储、网络)
节点操作系统层
◦ 目前安装RadHat Enterprise Linux 5.5
基础管理层
◦ 系统管理软件---xcat
用于高性能机群的系统管理和配置,可通过网络实现机群系统软件 的自动部署以及节点的远程启动/关闭。