当前位置:文档之家› 项目服务投标文件方案(海量数据处理平台建设方案)

项目服务投标文件方案(海量数据处理平台建设方案)

海量数据处理平台建设方案 海量数据处理平台通过虚拟化技术对服务器、存储、网络的池化和有效管理,为整个项目提供按需获得、即时可取的计算、存储、网络、操作系统及基础应用软件等资源。可实现网络资源的综合监控、管理,实现对外提供虚拟主机资源、存储资源,达到提高服务器存储利用率、运行维护效率和业务系统可靠性,降低整体建设与整合成本。 海量数据处理平台在高效率并行分布式软件的支撑下,可以实时完成数据存储、数据处理和分析工作,如数据存储、数据处理、数据查询、和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。 海量数据处理平台采用统一计算资源、存储资源、数据库集群资源、负载均衡资源进行支撑,后续扩展方案变得非常简单,只需要根据需要向对应的资源区增加硬件即可。

1.海量数据处理平台逻辑架构图 海量数据处理平台整体架构采用虚拟化云计算及分布式计算架构设计,主要分基础设施层、支撑软件层、安全保障体系、服务保障体系组成。 基础设施层通过虚拟化以及分布计算技术啊对基础设施进行云化并统一管理,实现硬件设备(计算设备、存储设备、网络设备)的池化并充分利用,同时实现资源的动态扩容等功能。基础设施服务对上层应用提供基础的云计算服务。 支撑软件层提供分布式数据库服务,分布式处理框架以及数据访问机制,并通过协调调度机制进行协调处理。支撑软件层主要提供大数据处理服务,并对应用软件的数据操作提供相应的处理框架支持。 安全保障体系对基础支撑提供的服务进行整体安全保障措施,提供安全保障。 服务保障体系通过数据资源共享交换平台的日常运维管理对服务提供的可靠性、标准性进行保障。 海量数据处理平台逻辑架构 2.海量数据处理平台搭建 云计算平台通过虚拟化软件和云计算资源调度管理平台提供虚拟主机资源、存储资源,以及网络资源。 虚拟主机资源池提供两路或四路服务器的压力支持,同时存储可以提供结构化(数据块级)和非结构化(应用级)数据的支持,并充分考虑IO压力、存储容量。 未来数据资源共享交换平台将具有相关性的业务进行整理、合并,将传统分散数据整合为统一的数据库架构,以便应用系统的管理和效率提升。 推荐在虚拟化部署的应用: ➢ 基础设施应用(比如: Email服务, Blackberry服务, 域服务, 文件或者打印服务器, 防病毒等)。

➢ 开发或者测试应用服务。 ➢ 数据库系统:建立完善的管理和运维流程,才推荐迁移到虚拟化平台)。 ➢ 关键业务系统,比如ERP,CRM等:自动化运维管理工具建立并熟练掌握的情况下进行虚拟化迁移工作。

不适合在虚拟化平台运行的应用: ➢ 应用程序需要超强的计算能力,超过虚拟化环境限制 (比如. 8路 SMP, 255G内存, 10NICs, 等.),计算能力和IO需求强烈的应用,当前最强PC服务器都无法满足需求的;数据仓库;大规模使用的数据库,比如10万人同时在线访问。

➢ 应用程序需要用到特殊的外围设备的,比如传真,调制解调器等。 ➢ 任何需要客户端特殊配置或者需求的应用,特殊安全策略的 (比如 DMZ) ,例如数据管理区和数据交换区的平台和存储建议采用分布式。

大数据虚拟化架构 大数据虚拟化架构,主要采用多台高性能x86架构PC Serve,采用高性能统一存储系统整合原有存储构建存储系统层,采用高性能网络系统配合计算和存储建构LAN和SAN。随以上各物理设备配备虚拟化模组,由此构建架构虚拟资源层。应用在资源池中会根据其服务等级需求按需获得资源并均衡化部署,当某一台物理主机出现故障,部署在此物理服务器上的所有虚拟机都将自动重启到其它同一资源池中的主机上。应用迁移方式有多种,包括在线的迁移到其他主机或在线的迁移存储位置,以及迁移到其他虚拟数据资源共享交换平台等。配备虚拟化平台一系列管理应用构成虚拟架构管理层,进行虚拟数据资源共享交换平台资源和应用的管理及优化调整。

3.海量数据清洗整合 云存储系统(分布式存储系统)采用通用X86架构或ARM架构存储服务器作为硬件载体,而非自身定制化硬件实体,通过在其上部署自身的分布式软件以实现分布式云存储的功能。所有硬件设备,如存储服务器、交换机、磁盘以及相应的附件,均可在市场上采购,且不限于特定厂家或必须使用某种特定专有设备。分布式存储软件支持通过X86架构或者ARM架构的硬件,但又独立于特定的硬件,而不是和特定硬件平台或者设备绑定。 云存储系统具有高度可靠、性能优异、无限容量、在线伸缩等特点。  高度可用 云存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的容错机制进行容错,可在任意损坏1或多个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。 云存储系统的管理节点采用主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的7×24小时不间断服务。管理节点的元数据保存在磁盘上,具备持久性,即使两个双击镜像管理节点同时损坏,也可通过磁盘上保存的元数据,恢复到发生故障时的系统状态。  优异性能 云存储系统采用先进的控制流与数据流分离的技术,数据的存储或读取可在各个存储节点上并行读写。目标是随着存储节点数目的增多,整个系统的吞吐量和IO性能将呈线性增长。 同时,云存储系统采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。支持与应用服务器等客户端的连接均衡功能,提供轮循、按连接数等策略的自动连接均衡。为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,云存储平台软件提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。 云存储系统支持SSD Flash卡和SSD硬盘等先进硬件,提供更佳的海量小文件访问IOPS。

 无限容量 分布式存储服务的一个目标就是提供近乎无限容量的云存储资源,或者说支持管理几乎无限的存储资源。 云存储系统的目标之一,就是支持的系统容量仅受限于硬件限制,如卷管理服务器内存。如果使用SSD卡对内存进行扩容,可支撑的存储容量就接近无限,经推算,理论容量为1024×1024×1024 PB (1G个PB容量)。 支持的文件数目不低于10亿个,支持百亿级别扩展。最大存储容量支持超过1000PB,满足大文件系统容量要求;单个目录可以有效支持千万级的文件数量。

 在线伸缩 分布式存储服务的特点是支持横向扩展(SCALE-OUT)功能,存储容量可以在线伸缩。云存储资源管理系统的横向扩展,指可以添加若干并行工作的节点并作为一个节点进行管理,从而实现吞吐量和容量的线性扩展。横向扩展存储池可对底层存储进行虚拟化,创建可随业务需求变化而动态调整的资源,带宽、处理能力和存储容量可以单独调整和实时扩展。横向扩展存储有利于最大程度地降低管理成本、数据资源共享交换平台空间、电源和冷却需求。共享资源池可提供更高的利用率,极大地减少浪费。横向扩展存储的经济价值体现在改进扩展能力、加速配置、提升性能和简化管理、提高存储利用率等方面。 云存储系统的目标之一,就是支持横向扩展,在线伸缩。可以根据用户的投资需要,逐步弹性的扩展云存储系统中的存储服务器数量,实现存储容量弹性扩展。在容量扩展时不需要停止服务或者停止应用的运行。通过在线扩展,能更有效的保护用户投资,使得用户资金利用率最大化。 同样的道理,如果用户需要缩减云存储的规模,也是可以在线收缩的。用户只需要逐步撤出存储服务器即可,不需要停止系统或者业务的运行。每次撤出一批存储服务器后,系统都会自动缩减规模,将数据收缩回减小的存储容量中,而不会丢失数据。 云存储系统的开发目标之一,就是使得存储服务扩容非常方便。目标是支持存储服务不停止服务的情况下,动态加入新的存储节点,无需任何操作,即可实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。 分布式存储服务在性能和容量上需具备具有高扩展性和线性增长能力。系统在扩容过程中服务不中断,并且扩容后,系统具有将原系统的工作负载分配到新增容量上来的能力。通过增加存储服务器的数量,系统在性能和容量上获得近乎线性的增长。支持多种扩容方式,可通过增加磁盘、服务节点以及磁盘柜等多种灵活的方式,实时对云存储容量进行扩充,并且在动态扩容期间服务不中断。支持磁盘扩容,支持磁盘的热插拔,新增的任何存储资源可以立即被系统识别、管理和分配。

 通用易用 分布式存储一般会提供标准的文件接口,即提供符合POSIX标准的通用文件系统接口,无论是哪种操作系统下的应用程序,都可以不经修改将分布式存储当成自己的海量磁盘来使用。此外,也提供标准的NFS、CIFS、FTP等文件接口,以及基于Http REST/SOAP的web服务接口。同时也要提供专用的API接口,供开发人员调用。 4.海量数据自助建模 海量数据处理平台建成后具备如下功能或特点:  安全、灵活、高效、稳定的数据处理系统;

 可对不同数据源进行抽取、转换、加载操作;  可对海量数据展开清洗,整合等操作;  处理流程自动化,智能化;  能依托用户现有数据源,简单拖拽建模,无需编码;  具有以绘制流程图的方式构建数据分析模型功能;  数据分析模型可发布为功能模块、程序接口或定时任务。

相关主题