当前位置:
文档之家› 云计算中心建设方案(完整版)
云计算中心建设方案(完整版)
数量
system X3650M5
Hadoop 存 储集群 system X3650M5
M5210 1GB cache 支持 Raid 0,1,5 , 2*550W 白 金, DVD-RW ,四口千兆网卡, 2 个双口万兆网 卡含模块,3 年服务 联想 LEAP 数据集群平台软件套件,包含 Hadoop 2.x , HDFS , MapReduce/YARN,HBase,
12
Hadoop 数据存储 集群软件
联想 LEAP 数据 分析平台
Zookeeper , Hive , Impala , HUE , Oozie , Spark , Inceptor 计 算 引 擎 , 4 SolrSentry , Sqoop , Flume , Kafka , kudu 等 组 件 , 支 持 SQL2003 引 擎 , JDBC/ODBC 连接,基于角色的数据权限控 制组件,原厂支持服务。
联想大数据平台产品包括:数据采集( Euclid ) 、数据计算与存储( Descartes) 、 数据能力开放(Gauss) 、大数据分析应用套件( Nash) 、数据资产管理(Euler) 、系 统运维管控(Shannon )等多个产品。
采集(Euclid)功能具备批量、实时、结构化、非结构化等多样化的采集功能。可 提供图形化的操作配置,统一的调度和监控,结合其良好的分布式并行处理架构, 具 备动态的横向扩展能力。批量数据采集作为大数据体系的核心功能组件,既可以基于 SMP 单机处理,也可以基于低成本的 X86 分布式平台展开系统设计,支持库外预处理, 基于 HADOOP 组件实现批量数据的并行数据处理。其核心功能紧紧围绕构建大数据系
1. 索引 2. 分组 3. 数据导入导出 4. 数据移动和转换 下面是更多 CPU 受限的工作负载的例子: 1. 聚类/分类 2. 复杂文本挖掘 3. 自然语言处理 4. 特征提取
4济
云计算中心建设方案
根据大致了解,初步采用负载均衡方式的配置 Hadoop 集群硬件, 建议 Hadoop 分布式数据存储集群配置如下:
云计算中心建设方案
2017 年 5 月
云计算中心建设方案
目录
第 1 章、建设方案 .......................................................................................3 1.1 方案架构图 ........................................................................... 3 1.2HADOOP 数据存储集群方案 .................................................... 4 第 2 章、方案总配置及预算 ................................................................... 18 第 3 章、 Lenovo X3650M5 服务器简介……………………………17
-2-
云计算中心建设方案
第 1 章、 建设方案
1.1 方案架构图
图 1:方案逻辑拓扑图
3
云计算中心建设方案
1.2Hadoop 数据存储集群方案
1.2.1.1 方案建议配置
Hadoop 是基于新的实现方法,来存储和处理复杂数据,并伴随着数据迁移的减少。相对于依赖 SAN 来满足大容量存储和可靠性,Hadoop 在软件层次处理大数据和可靠性。 Hadoop 在一簇平衡的节点间分派数据并使用同步复制来保证数据可用性和容错性。因为数据被分 发到有计算能力的节点,数据的处理可以被直接发送到存储有数据的节点。由于 Hadoop 集群中的每一 台节点都存储并处理数据,这些节点都需要配置来满足数据存储和运算的要求。在几乎所有情形下, MapReduce 要么会在从硬盘或者网络读取数据时遇到瓶颈(称为 IO 受限的应用) ,要么在处理数据时 遇到瓶颈(CPU 受限) 。排序是一个 IO 受限的例子,它需要很少的 CPU 处理(仅仅是简单的比较操作) , 但是需要大量的从硬盘 读写数据。模式分类是一个 CPU 受限的例子,它对数据进行复杂的处理,用来判定本体。 下面是更多 IO 受限的工作负载的例子:
5济
云计算中心建设方案
1数据分析与存储平台,实现跨专业、跨层级、跨主体、全过程的数据 呈现、敏捷开发与能力嵌入,充分发挥大数据的核心资产能力与价值能力。 平台层面:主要提供数据存储和数据处理能力,提供统一的集成平台环境,将硬件和平 台软件做有效的集成。搭建 Hadoop 和 SPARK 等计算框架,实现海量数据的分布式处理; 通过新技术,降低系统总体拥有成本。 功能层面:主要提供数据整合、数据清洗&转换&加载、数据共享、数据分析与查询、 数据挖掘、数据管理能力;提供新的 IT 功能架构,提供多租户的 ETL、统一的数据计算与 存储、数据共享、多租户的应用开发、数据平台管控。
类型
型号
配置 2xE5-2630v4,2.2GHZ,10 核,8x16GB DDR4,8x2.5" 盘 位 , 8x600G 10K SAS, M5210 1GB cache 支持 Raid 0,1,5 , 2*550W 白 8 金, DVD-RW ,四口千兆网卡, 2 个双口万兆网 卡含模块,3 年服务 2xE5-2630v4,2.2GHZ,10 核,8x16GB DDR4,12x3.5"盘位,2x2.5"盘位,12x4T SATA,2 个 240G SATA G3HS 2.5" SSD,
6济
云计算中心建设方案
统在数据处理层面上涉及到的数据采集、清洗、转换、加载及交换的核心数据加工流程 展开。 数据抽取功能具备从不同数据源(RDBMS、Hadoop、MPP 等)进行指定规则的数据 提取作业,抽取后的数据存储支持落地与不落地两大类进行,抽取后的数据可以为数据转换 环节进行处理提供输入,也可以直接进行处理或者加载支持主流数据库接口。数据采集采用 多样性的接口方式,除了支持传统的 JDBC/ODBC 接口、FTP 文件接口, 还支持目前主流 的流数据采集的 Socket 接口及 Webservice 接口,同时扩展支持了 Hadoop 生态圈的 Flume 日志系统采集接口等,提供完善的图形化可拖拽的操作管理界面提供良好的用户体 验降低产品使用难度,可以根据实际业务需求选择相应的配置也可以统一使用。