科研大数据平台项目技术建议书目录1. 概述 (1)1.1.项目背景 (1)1.2.需求分析 (1)1.3.方案简述 (1)1.4.方案价值 (2)2. 设计方案 (4)2.1.设计原则 (4)2.2.系统架构 (5)2.3.分布式数据库系统 (5)2.3.1. MPP + Share Nothing架构 (5)2.3.2. 核心组件 (5)2.3.3. 高可用 (6)2.3.4. 高性能在线扩展 (7)2.3.5. 高性能数据加载 (8)2.3.6. OLAP函数 (8)2.4.H ADOOP集群 (9)2.4.1. Hadoop企业版 (9)2.4.2. HIVE分布式内存分析引擎 (9)2.4.3. HBASE分布式实时在线数据处理引擎 (10)2.4.4. Stream流处理引擎 (11)2.5.服务器虚拟化 (11)2.5.1. 设计理念 (11)2.5.2. 系统结构 (13)2.5.3. 服务器虚拟化系统组成 (14)2.6.云管理平台 (14)2.6.1. 浪潮云海OS架构图 (15)2.6.2. 浪潮云海OS实现的功能 (15)2.7.爬虫软件 (18)2.7.1. 建设网络爬虫私有云 (18)2.7.2. 高效的分布式、协同化数据采集模式 (19)2.7.3. 爬虫路线规划能力 (20)2.7.4. 爬虫调度和负荷规划能力 (20)2.7.5. 极致的开放兼容平台 (21)2.7.5.1. 为什么需要开放的可集成的网页抓取软件 (21)2.7.5.2. 集搜客网络爬虫的开放接口 (21)3. 方案优势 (22)3.1.浪潮MPP数据库优势 (22)3.1.1. 高性能 (22)3.1.2. 高性价比 (22)3.1.3. 高易用性 (22)3.2.浪潮H ADOOP优势 (22)3.3.浪潮云计算优势 (22)3.3.1. 运营效率提升 (22)3.3.2. 服务水平提高 (23)3.3.3. 实现数据中心的绿色节能 (23)3.3.4. 分工细化使得终端用户只需专注自身业务 (23)3.3.5. 降低总体拥有成本(TCO) (23)3.3.6. 可靠性提高 (24)3.3.7. 性能强大 (24)3.3.8. 扩展性好 (24)3.3.9. 可管理性 (24)4. 推荐配置 (25)1.概述1.1.项目背景通过本项目的实施与建设,在以服务科研工作为主导的原则下,基于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据服务应用平台。
利用大数据技术,满足不同层级用户的需求,达到改善我校的科学研究环境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。
本项目分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。
1.2.需求分析要构建多样化、专业化、柔性化的科研数据服务应用平台,现有架构很难承担日益增长的数据分析需求。
迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。
并有效利用数据的价值,提高系统安全、系统高可用等。
需求分析如下:寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。
从全局及用户长远利益考虑,规划先进的大数据平台底层架构,满足大数据时代的业务需求。
保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。
系统多平台整合,建设统一的底层平台,提高系统安全等保级别,规避系统单点风险。
1.3.方案简述根据对背景及需求的分析,为了帮助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。
物理架构:采用虚拟化技术,为客户打造IaaS底层系统架构。
数据架构:采用与客户习惯使用的SQL这种更易于理解的、交互性更好的访问接口,架构需要以MPP数据库及计算框架为核心,将MPP运算调度引擎完全融入非关系型运算调度框架,实现可以同时调度关系运算和非关系运算的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现MPP数据库和Hadoop的统一调度和处理,为新型的基础软件平台和上层应用提供数据服务。
1.4.方案价值弹性扩展采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供基础计算、存储、网络资源,同时运用云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性服务、流转和管理。
动态资源分配云计算被认为是分布式处理、并行处理以及网络计算的进一步发展,其使用虚拟机力度方式,根据应用的动态对资源进行增删。
快速响应以并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用API等完整的数据处理服务。
高可用采用分布式存储系统,数据互备,快速备份和恢复。
支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。
多副本容错,数据安全无忧。
数据分析构建大数据存储应用平台,围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。
单一的MPP数据库或Hadoop产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。
应用云云计算并不是一个突兀全新的理念,云计算的快速发展,是需求驱动、技术进步和商业模式转变共同发展和促进的结果。
随着我校大规模计算和海量数据存储需求的出现,使得科研大数据平台对IT 基础设施的需求也随之增长。
云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮助。
因此,本方案的核心价值在于将这两种方式的界限在实际应用部署中打破,形成以全数据处理为核心,垂直整合操作系统、MPP数据库、Hadoop、统一数据服务的基础软件平台解决方案。
2.设计方案2.1.设计原则为保证科研大数据平台项目建设的成功,在技术方案中我们主要遵循了以下几个原则:先进性与成熟技术的集合:在设备选型设计中,我们要考虑采用当今业界的主流技术,同时要选用在众多关键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;高效的可管理性:对于日益复杂的IT系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;性能价格比:保证充分满足用户的性能的同时,考虑最优的性价比;坚持系统建设投资经济合理性的原则;高可靠性:全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;高安全性:保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;平滑扩展性:基于统一标准设计的硬件平台架构,具有平滑扩展的能力,可在未来方便的根据客户需求增添新的硬件;开放性与标准化:采用标准的技术以保证与其他厂家的产品相兼容;产品利用率:考虑现有设备的使用情况,提高产品的利用率。
降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。
本次设计满足当前阶段应用需求的同时,具备升级扩容能力,继续满足下一阶段的应用需求。
2.2.系统架构2.3.分布式数据库系统2.3.1.MPP + Share Nothing架构分布式数据库采用完全并行的MPP + Share Nothing 的分布式扁平架构,这种架构中的每一个节点(Node )都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。
2.3.2.核心组件分布式数据库产品总共包含三大核心组件,即GCluster、GCware和GNode。
GCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。
GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。
GCWare:GCWare用于各节点GCluster和GNode实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。
GCWare对于集群的管理工作是以节点为基本单位的。
GNode:GNode是GCluster中最基本的存储和计算单元。
GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。
GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。
数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。
2.3.3.高可用分布式数据库通过SafeGroup组内冗余机制来保证集群的高可用特性:每个SafeGroup可提供1个或2个副本数据冗余;SafeGroup 内数据副本自动同步;复制引擎自动管理数据同步;采用扁平架构,每一个节点都可以充当主控节点,避免了Master节点产生的瓶颈以及当Master与Stand-by宕机产生的整个集群不可用。
2.3.4.高性能在线扩展分布式数据库具备在线扩展技术:通过SafeGroup 动态扩展集群节点,实际可扩展到64 × 3(192)个节点;每个节点可以处理100 TB有效数据,同时提供计算和存储能力;GCware 负责新节点的数据同步。
因为浪潮分布式数据库采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。
2.3.5.高性能数据加载数据加载功能作为浪潮分布式数据库的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。
分布式数据库支持数据高效并行加载,数据加载速度随节点的扩展而呈现线性增加。
集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。
数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。
2.3.6.OLAP函数分布式数据库提供OLAP函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。
2.4.Hadoop集群Hadoop技术给客户提供稳定的、可靠的、易用的大数据设计架构,其组件包括::Hadoop企业版,HIVE分布式内存分析引擎,HBASE分布式实时在线数据处理引擎和Stream流处理引擎。