当前位置:文档之家› 集群部署解决方案实例分析

集群部署解决方案实例分析


©2012 AMAX Information Technologies Confidential
Appliance Manufacturing
团队概述
• 销售负责人: • 项目经理: • IT 经理: • 项目负责人: • 软件: • 工程师: • 生产部门: • 采购部门: • 客服部门:
©2012 AMAX Information Technologies Confidential
集群项目实施情况跟踪表1 / 2
优秀 – 4 很满意– 3 一般 – 2 有待改善– 1 差-0
Appliance Manufacturing
安装过程中,进度安排及协调是否恰当? 4 设备是否完好无损并按时进场? 4 是否按计划完成安装进度? 4 安装过程是否专业? 4 您对于此次安装的总体评价如何? 4 基于本次服务,您日后有集群需求,是否会考虑选择 AMAX作为您的供应商? Yes 您是否会向他人推荐我们的产品及服务? Yes
Appliance Manufacturing
©2012 AMAX Information Technologies Confidential
©2012 AMAX Information Technologies Confidential
后期跟踪检查 2 / 3
Appliance Manufacturing
工作中的重难点 • IBM 平台 – 寻求解决方案/检修故障 • 电缆美化 • 将 Intel IB 卡 换成 Mellanox 卡 (增加成本)
布线
Appliance Manufacturing
©2012 AMAX Information Technologies Confidential
线缆标签
Appliance Manufacturing
©2012 AMAX Information Technologies Confidential
“IPMI 接口相关的配置,如远程访问、主要组件(风扇、电源、 磁盘等)的硬件监控服务。另外,Infiniband 驱动因为内核依赖导 致的不能升级操作系统降低了安全性。”
©2012 AMAX Information Technologies Confidential
Appliance Manufacturing
后期跟踪检查1 / 3
已进行的工作 • 项目规划 • 项目启动会 • 与IBM 团队合作,及时解决故障问题 • 每天提供项目进展状况 需要改进的地方 • 系统/机架组装进程 – 比较缓慢 • ETA 持续变更 • IBM Platform 软件Bug • Intel IB卡 货期长
Appliance Manufacturing
软件
操作系统 • Redhat 6.2 – 主节点和计算节点 • Redhat 6.4 – 数据库节点和存储节点 集群管理软件 • IBM Platform HPC v3.2 版本 其他 • CUDA 5 • 其他 IBM 软件
Appliance Manufacturing
©2012 AMAX Information Technologies Confidential
©2012 AMAX Information Technologies Confidential
集群项目实施情况跟踪表2 / 2
Appliance Manufacturing
在具体安装过场中,有哪些地方,您认为AMAX做的很 好? “细节沟通,现场安装灵活专业” 在具体安装过场中,有哪些地方,您认为AMAX还有待 改善?
©2012 AMAX Information Technologies Confidential
Appliance Manufacturing
项目安排
• • • • • • • • • 接单: 系统组建: 机架准备: 准备电: 集群测试: 关机打包: 出货: 现场实施: IBM 软件Bug: 1/14/13 (第1周) 1/28/13 (第3周) 1/30/13 (第3周) 2/1/13 (第3周) 2/5/13 (第4周) 2/21/13(第6周) 2/22/13(第6周) 3/3/13 (第8周) 后续跟进中
Appliance Manufacturing
集群部署实施实例
Lincoln 金融事业部
AMAX HPC 工程部
©2012 AMAX Information Technologies Confidential
概况
2 个机柜配置
• 共计23 个节点 • 18个系统使用IBM Platform HPC
Appliance Manufacturing
系统:
• • • • 2个 主节点 16 个GPU 节点 3个数据库节点 2个 存储节点
机架:
• 交换机:1个 36 口IB 和 2个 48 端 1G • 4个 60A 智能配电器
挑战:
• 从接单到部署,要在6周内完成 • IBM平台HA bug修复
在未来的集群订单执行中,需要做哪些工作? • 优化的新系统/机架搭建流程 • 通过网站每日发布现场安装报告 • 项目实施情况通过网站进行跟踪调查 • 设计可重复利用的运输木箱或环保型包装 • 系统序列号位置调整 • 系统序列号加入到DMIDECODE中
©2012 AMAX Information Technologies Confidential
©2012 AMAX Information Technologies Confidential
AMAX 集群服务提供
制作房间整体和每个机架的布局细节图 电缆标签 • 来源地至目的地 • 旗式标签 提供每个机柜可支持的电源的理论值 基于理论功耗,提供 BTU/hr 基于BTU/hr,推荐降温空调规格需求 布线 • 布线方式依项目而异 软件安装 以整个集群为单位做整体测试 专业的现场安装团队
体会 • IBM 平台并非100% 稳定 • 系统搭建环环相扣 • 实施情况跟踪调查表 • 机柜运输一次性使用木箱贵 • 用户反映运输木箱不好拆卸
©2012 AMAX Information Technologies Confidential
Appliance Manufacturing• • • • • • • • • • • • 当前流程 物料进场 装配 安全测试(Hipot) 完成前最终测试 最终测试 节点压力测试 FQA 最终配件检查 最终 QAI 机柜安装 集群测试 集群整合 包装 • • • • • • • • • • • • • 新流程 物料进场 装配 完成前最终测试 安全测试(Hipot) 最终测试 FQA 最终配件检查 最终QAI 机柜安装 集群整体压力测试 集群整体功能测试 集群整合 包装
©2012 AMAX Information Technologies Confidential
Appliance Manufacturing
Appliance Manufacturing
房间布局图
©2012 AMAX Information Technologies Confidential
机架布局
David Byars Dustin Lei Jason Yuan John Leung Ace Ponce De Leon Dong Wang Risa Aprilria Jocelyn Chen Joyce Lee
前视图
Appliance Manufacturing
©2012 AMAX Information Technologies Confidential
相关主题