xxxx大数据实验室建设方案1目录1建设目标 (3)2配置方案 (3)2.1已有资源 (3)2.2扩容资源需求 (4)2.3物理服务器扩容配置 (4)2.4磁盘阵列扩容配置 (5)2.5FC SAN网络扩容配置 (6)2.6IP网络扩容配置 (6)2.7扩容配置清单 (7)3部署方案 (8)3.1系统架构 (8)3.2IP网络部署 (9)3.3Hadoop集群部署 (9)3.4部署计划 (10)4Hadoop教学培训方案 (11)4.1Hadoop教学优势 (11)4.2课程以及考核安排 (11)4.2.1相关教材 (11)4.2.2课程大纲 (13)4.2.3考核安排 (16)4.2.4证书认证 (16)1建设目标xxxx软件学院已经建设了云实验平台,在该平台上实现了编程教学实验、数据库实验以及网盘应用系统;该平台技术上采用服务器虚拟化技术通过云管理平台实现了实验环境的快速部署;虚拟化平台基于磁盘阵列集中存储,采用FC SAN 网络架构。
现规划建设一个Hadoop 大数据实验室,使用已经建设好的平台,通过扩展资源池的方式部署,利用现有服务器虚拟化平台虚拟出大量虚拟机用于构建Hadoop 集群,主要用于学生实验以及科研用途。
假定建设目标和规模如下:建设目标:建设成校级实验室,满足学生做大数据实验和教师大数据科研。
建设规模:系统支持100个左右的虚机同时运行,性能满足学生大数据实验需求。
扩展性需求:系统需具备良好扩展能力,可以方便扩展系统容量和性能,以满足更多实验和科研需求。
2配置方案本章节对构建大数据实验室所需要的硬件资源进行配置,从大数据实验资源需求出发来分析构建大数据实验室需要对现有物理服务器、磁盘阵列、FC交换机、IP网络交换机的资源做哪些扩容。
2.1 已有资源云实验平台已经部署了10多台2路物理服务器,通过1台FC交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU、4GB内存、30GB虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。
2.2 扩容资源需求对资源需求进行估算是虚拟化系统硬件配置的基本依据。
在大数据实验室中,资源可分为两大类:一类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内存资源和磁盘阵列的IOPS 资源,磁盘IOPS资源在大数据实验中需求相对较高;另一类是系统可以“存放”多少个虚机,这主要关注磁盘阵列的存储容量。
运行资源假定虚机规格如下表中所示,该规格满足大数据实验环境下对性能的需求;则200个虚机同时运行,需提供下表中所需资源。
当然,对于Hadoop集群中的Master虚机应当配置大些内存,比如8GB。
存储容量磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要存放500个虚机,总共需要约210TB的存储空间。
2.3 物理服务器扩容配置作为虚拟化主机的物理服务器,目前可选择的配置主要有2路和4路,综合考虑CPU利用率、网络成本等因素,我们建议选择2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。
首先计算总共需要多少物理的CPU资源和内存资源,计算以上述“运行资源”为基本依据,并考虑物理资源的80%用作运行虚拟机。
物理服务器规格和所需数量如下表所示。
根据估算,需要新增7台2路物理服务器即可满足计算性能需求,本项目中我们实际配置上述规格的物理服务器8台。
2.4 磁盘阵列扩容配置磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS性能和存储空间的要求。
存储空间显然容易配置,而IOPS存在诸多变数,这是个无法准确估算的指标,为了使系统具备较好的性能,我们进行了仔细考量。
依据2.2节所估算的IOPS性能要求和存储空间要求,估算系统需要多少块SAS磁盘。
同时满足IOPS性能和容量需求需要新增约120块SAS盘,这个投资显得过高。
为了降低存储上的投资,我们采取如下配置和部署的策略:第1:使用高性能SSD盘结合SAS盘,提供较SAS盘更好的性能;该部分的空间主要用于虚机的系统盘。
第2:使用高性能SSD盘结合大容量SATA盘,主要满足系统容量的需求,并提供了接近SAS盘的性能;此部分存储空间主要用于虚机的数据盘。
现有磁盘阵列扩容配置配置如下表:2.5 FC SAN网络扩容配置由于新增加了8台物理服务器,FC交换机需要新增加激活端口和相应模块,数量为8个。
2.6 IP网络扩容配置原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数据实验环境中,虚机之间存在大量的东西向数据流量,因此我们设计增加一台24口的千兆交换机用于大数据集群后端网络流量通道。
2.7 扩容配置清单构建满足100个虚机同时运行的大数据实验平台,需要对现有云实验平台物理资源进行扩容,扩容包括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA 盘、FC交换机增加激活端口、新增1台24口IP交换机,详细扩容配置清单如下表:3部署方案3.1 系统架构系统架构在扩容前后基本没有变化,扩容后的整个虚拟化系统部署架构如下图所示。
与原先区别主要是资源池扩充了,新增的物理服务器构成一个新的集群,并且通过新增加一台千兆交换机构成大数据实验虚机后端网络流量通道。
3.2 IP网络部署本项目中对于IP网络的部署设计,除了考虑vSphere环境下一般性的部署注意事项外,还需要注意由虚机构成的Hadoop集群对IP网络的需求。
上图是一台物理服务器的虚拟网络和物理网络连接示意图。
每个虚机配置2个虚拟千兆网口,一个用于虚机前端业务流量,一个用于Hadoop集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用一台、可以配置为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配置为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。
这种部署设计实现了IP网络全冗余,提供了故障切换和网络负载均衡功能。
3.3 Hadoop集群部署通过虚机部署Hadoop集群,当然需要评估虚机资源的需求,即使评估有误也无关系,虚拟化的一大好处就在于资源可以灵活调整。
在部署和使用虚机时,我们可以结合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实验环境提供便利。
Hadoop集群包含了Master节点和Slave节点,可以进行Hadoop部署实验、HDFS实验、MapReduce实验、HBase实验、Hive实验等。
下表是节点虚机配置参考。
本项目部署时,需要注意一个细节点是:我们应该尽量将一个Hadoop集群内的所有虚机运行在一台物理服务器上,避免IP流量流出物理服务器。
3.4 部署计划下表给出本项目部署实施的一些主要任务和时间预估。
4Hadoop教学培训方案云创大数据科技股份有限公司为了帮助高校/高职培养Hadoop人才,提供Hadoop培训解决方案。
为高校实现信息化教学和科研管理奠定良性基础,增加高校学生就业机会和薪资水平,逐步培养当今互联网时代IT行业的Hadoop人才。
云创针对高校Hadoop培训提供了一揽子解决方案,该解决方案主要包含Hadoop培训课程、培训教材、考核认证、Hadoop教学实验平台等。
本章节是对云创的Hadoop教学培训的介绍。
4.1 Hadoop教学优势为什么要选择我们呢?第一点:国内最畅销的云计算教材和第一本Hadoo 编程书籍由我们出版发行。
第二点:国内排名第一的云计算和大数据网站由我们创办经营。
第三点:南京航空航天大学、北方工业大学、南京农业大学等众多名校都在使用我们的产品,并且广受好评。
第四点:作为国内云计算、大数据领域的领军企业,是国家工信部推荐的高科技企业之一。
4.2 课程以及考核安排4.2.1相关教材4.2.2课程大纲4.2.3考核安排完成所有课时将参加考试。
通过考试的学员可以获得中国云计算协会颁发的中国云计算协会认证证书。
4.2.4证书认证完成所有课程及所有考核的学员将颁发中国云计算协会认证证书。
中国云计算协会简介中国计算机行业协会云计算专业委员会于2011年6月9日,在江苏省镇江市举行的2011中国云计算产业发展高峰论坛暨云计算专业委员会成立大会上正式成立。
中国计算机行业协会云计算专业委员会由云计算领域中“产学研用”群体自愿组成,是自律性民间社团组织,其主要职能体现在开展调查研究及咨询工作,为云计算产业发展提供策略、规划及政策建议;积极维护会员合法权益,引领行业自律发展;组织并开展有利于行业健康发展的技术标准规范交流及互助合作活动等。
中国计算机行业协会云计算专业委员会2011年主要工作在以下几个方面重点推进:在产业高端平台搭建方面,积极筹备成立“中国云计算基地(中心)联盟”,推动地方云计算基础设施科学规划、建设和有效利用,以联盟活动为载体,增强产业园区、云计算基地、(中心)、行业企业、云计算用户的互动、交流,提升云计算基地(中心)服务能力和应用层次。
另外,每年定期举办“中国云计算产业发展高峰论坛”,搭建主管部门、会员企业、行业用户交流沟通平台;开展中国云计算“十佳创新企业”、“十佳应用示范工程”、“十佳基地(中心)”评选活动以及组织与地方政府对接的云计算解决方案巡展等。