当前位置:文档之家› 高性能计算云平台解决方案

高性能计算云平台解决方案

高性能计算云平台解决方案目录1概述 (3)1.1建设背景 (3)1.2设计范围 (3)1.3总体设计原则 (3)2系统平台设计 (4)2.1项目需求 (4)2.2设计思想 (5)2.3云存储系统方案 (6)2.4系统优势和特点 (6)2.5作业调度系统方案 (8)3系统架构 (9)3.1cStor系统基本组成 (9)3.2cStor系统功能描述 (10)3.3Jobkeeper系统基本组成 (17)4系统安全性设计 (20)4.1安全保障体系框架 (20)4.2云计算平台的多级信任保护 (21)4.3基于多级信任保护的访问控制 (25)4.4云平台安全审计 (28)5工作机制 (31)5.1数据写入机制 (31)5.2数据读出机制 (32)6关键技术 (33)6.1负载自动均衡技术 (33)6.2高速并发访问技术 (33)6.3高可靠性保证技术 (33)6.4高可用技术 (34)6.5故障恢复技术 (34)7接口描述 (35)7.1POSIX通用文件系统接口访问 (35)7.2应用程序API接口调用 (35)8本地容错与诊断技术 (36)8.1 cStor高可靠性 (36)8.2 cStor数据完整性 (36)8.3 cStor快照技术 (37)8.4 Jopkeeper故障处理技术 (37)9异地容灾与恢复技术 (39)9.1cStor数据备份与恢复系统功能 (39)9.2cStor异地文件恢复 (40)1概述1.1建设背景云存储平台与作业调度为本次高性能计算总体解决方案的一部分。

主要针对海量的数据的集中存储、共享、计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,满足高吞吐量并发访问需求的云存储与计算平台。

为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。

1.2设计范围本技术解决方案针对海量数据集中存储、共享与计算,提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。

1.3总体设计原则针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。

1.3.1先进性原则在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。

选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。

1.3.2安全性原则数据是业务系统核心应用的最终保障,不但要保证整套系统能够7X24运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。

同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。

在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管理和监控平台,进行有效的故障定位、预警。

1.3.3成熟性原则为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。

1.3.4开放性原则系统建设具有开放性的标准体系,提供符合POSIX标准的通用文件系统访问接口,开放的应用API编程接口,提供人性化的应用和管理界面,以满足用户需求。

遵循规范的通用接口标准,使全系统中的硬件、通信、软件、操作平台之间的互联共享。

充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。

系统的维护和升级操作由系统管理员即可完成。

1.3.5经济性原则现有业务系统存储数据量较大,且数据的增长速度较快。

因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。

结合先进的云平台技术架构优势,根据本次项目建设的实际容量需求设计,同时充分考虑应用发展需求,实现系统可弹性在线平滑升级。

通过软件实现在较廉价普通服务器上实现高度容错,同时能够在较低冗余度的情况下实现高度可靠容错,大大节约和降低系统建设的硬件成本。

2系统平台设计2.1项目需求2.1.1容量需求针对本次建设实际数据容量,一期拟建设48TB裸容量数据存储平台,主要存储数据。

2.1.2吞吐量需求为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,系统需提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。

2.1.3扩展性需求未来根据业务应用的变化和发展,需要快速实施系统资源的升级,可以在业务服务不间断的状态下平滑扩展,不会导致架构发生根本性变化,为不断产生和变化的业务需求提供持续的支持,支持业务系统的快速整合和部署对核心系统基础架构的特别要求。

2.1.4低成本需求要求系统能够以低硬件成本、低维护成本实现高可靠高性能应用要求,充分提高资源利用率,简化管理,并能灵活、可持续扩展。

2.1.5可维护性需求要求系统具有自适应管理能力,安装、维护、升级简易方便,提供统一易用的WEB 配置管理监控平台,实现智能化管理。

2.1.6接口需求要求能够提供通用的文件系统接口,方便用户及应用系统访问,减少与应用集成或开发工作量,实现系统快速部署与集成。

2.2设计思想采用业界成熟先进的云平台架构思想,采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,将系统控制流与数据流分离,同时使得数据在逻辑上集中、物理上分散,每台服务器同时对外提供服务,以达到多并发高吞吐量的性能要求,采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展,系统服务7×24小时不间断。

系统采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错。

2.3云存储系统方案采用业界已经成熟的cStor云存储资源管理系统,在多台普通商用服务器上构建高性能高可靠云存储系统,作为本次云媒资系统云数据中心存储平台,其应用部署示意图如下图所示。

存储节点/服务节点 1存储节点/服务节点 2存储节点/服务节点 3存储节点/服务节点 ncStor云存储资源管理系统部署示意图2.4系统优势和特点cStor云存储系统是一套软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要存储大量数据的应用场合(如安防、广电、电信、互联网、银行等领域)。

该系统相比传统存储系统有如下技术优势:2.4.1高度可靠存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。

云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的7×24小时不间断服务。

2.4.2优异性能cStor采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着存储节点数目的增多,整个系统的吞吐量和IO性能将呈线性增长。

同时,cStor采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。

2.4.3无限容量系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为1024×1024×1024 PB (1G个PB容量)。

2.4.4在线伸缩cStor云存储资源管理系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。

2.4.5通用易用cStor云存储系统提供符合POSIX标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。

同时,也提供专用的API接口,供开发人员调用。

2.4.6智能管理提供基于WEB的管理控制平台,所有的管理工作均由cStor管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。

通过管理平台,可以对cStor中的所有节点实行实时监控,用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。

系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。

2.5作业调度系统方案采用业界已经成熟的Jobkeeper多任务调度系统,在多台普通商用服务器上构建高性能高可靠的任务调度平台。

2.5.1高度可靠性Jobkeeper采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处理节点都不存在任何单点故障问题。

2.5.2低依赖性Jobkeeper采用模块化设计思想,通过统一化配置和API接口的方式向用户提供服务。

2.5.3低干预性Jobkeeper采用基于事件化的统一管理模式。

在系统无人值守的情况下自动完成故障处理等功能。

2.5.4高实时性Jobkeeper在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有前所未有的高效性。

3系统架构在本次高性能计算系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。

将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈,任务调度则基于云存储进行大规模的高性能的并发计算。

下面具体说明cStor云存储资源管理系统和Jobkeeper任务调度系统的基本组成和主要功能。

3.1cStor系统基本组成cStor云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。

它采用包括卷管理服务器、元数据管理服务器(Master Server)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。

在每个服务器节点上运行cStor云存储资源管理系统的相应的软件服务程序模块。

系统架构框图如下图所示。

cStor云存储资源管理系统架构其中,Master Server保存系统的元数据,负责对整个文件系统的管理,Master Server 在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;Chunk Server 负责具体的数据存储工作,数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了cStor云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在Chunk Server上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。

相关主题