浪潮云海大数据一体机解决方案高端服务器研发部高端容错计算机产品部2013.1目录一.产品简介 (4)1.1浪潮云海大数据一体机总体架构 (4)1.2系列化产品 (4)二.关键模块介绍 (5)2.1Hadoop分布式文件系统: (5)2.2Hadoop MapReduce计算框架: (6)2.3HBase 分布式数据库 (6)2.4Hive数据仓库 (7)三.浪潮云海大数据一体机解决方案优势 (7)3.1高性能 (7)3.2高可靠性 (8)3.3高性价比 (9)3.4易管理 (9)3.5专业化服务 (11)四.竞争性分析 (11)4.1跟传统关系型数据库对比分析 (11)4.2跟开源Hadoop对比分析 (13)五.成功案例 (15)5.1某城市智能交通系统 (15)5.2某省级运营商清帐单查询系统 (18)六.浪潮云海大数据一体机配置 (19)一.产品简介为应对大数据时代的到来,浪潮集团适时推出浪潮云海大数据一体机,重点面向行业大数据应用,是一体化数据处理的解决方案。
采用新型技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据呈现等全环节。
浪潮云海大数据一体机是公安、金融、电信、交通、医疗、企业等各个行业用户的大数据解决方案理想之选。
1.1浪潮云海大数据一体机总体架构1.2系列化产品SDA-1:●满配:CPU:480Core;内存:12TB;存储容量:144TB;网络:1Gbps、10Gbps或者40Gbps●支持线性扩展●适合数据处理应用:模式计算,商业智能,医疗数据挖掘等。
计算能力、I/O能力、存储能力均衡。
SDA-2:●满配:CPU:288Core;内存:6912GB;存储容量:540TB;网络:1Gbps、10Gbps或者40Gbps●支持线性扩展●适合处理密集型的重载应用:视频处理,图片处理分析,图像渲染,在线交易等。
可重构加速器件或众核处理器,硬件加速。
二.关键模块介绍HDFS分布式存储解决数据如何存储的问题,Map/Reduce解决数据如何处理问题,HBase解决实时数据库问题,Hive解决基于SQL的数据分析和挖掘。
2.1Hadoop分布式文件系统:–使用低成本存储和服务器构建–存放PB级别的海量数据–高可扩展性,实际生产环境扩展至4000个节点–高可靠性和容错性,数据自动复制,可自我修复–高带宽,高并发访问2.2Hadoop MapReduce计算框架:为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。
通用的计算框架,松耦合,非常利于线性扩展。
与HDFS一起使用,具有容错特性,数据本地化处理,通过移动计算,而非移动数据来实现高效数据处理。
•分析问题能够被并行化,且输入数据集可以被切分•一个Map函数,在第一阶段计算<Key,Value>对•一个Reduce函数,在第二阶段用于汇总Map函数的结果2.3HBase 分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库, 为高速在线数据服务而设计–NoSQL•面向列、可压缩,有效降低磁盘I/O,提高利用率。
•多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。
•灵活的表结构,可动态改变和增加(包括行、列和时间戳)。
•支持单行的ACID事务处理–分布式系统•高性能,支持高速并发写入和高并发查询;•可扩展,数据自动切分和分布,可动态扩容,无需停机;•高可用性,建立在HDFS分布式文件系统之上。
2.4Hive数据仓库Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据–采用HDFS进行数据存储–采用Map/Reduce进行数据操作基本特点:–提供类似于SQL的查询语言–高扩展性(scale-out),动态扩容无须停机–针对海量数据的高性能查询和分析系统–提供灵活的扩展性•复杂数据类型,扩展函数和脚本等三.浪潮云海大数据一体机解决方案优势3.1高性能●专用的大数据存储服务器:针对大数据的应用特点,浪潮凭借在服务器及存储方面的领先优势,自主开发了大数据存储服务器,具备高密度、大容量存储特性。
●胖节点加速方案:胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS特性保障。
●闪存加速技术:将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类型,实现全局的算法,降低冗余率,使整个平台的计算节点、存储节点大大提高运行效率。
●高速通信网络:通信网络选用性能领先的万兆网络或者IB网络,实现一体机内部的高速互联,消除网络瓶颈。
●软件性能优化✓IO瓶颈易于解决✓可以发挥大规模并行运算优势✓支持大规模并行装载,装载前无需数据格式化,节点越多装载速度越快✓优化系统任务调度策略,对任务实现实时监控,✓动态调整任务执行资源,减少慢任务数量,提高整体性能3.2高可靠性●服务器本身冗余特性:节点的硬盘、风扇、电源等关键部件都是冗余设计,保障了节点本身的可靠性。
●链路冗余:网络可实现物理冗余设计,避免单点故障对系统的影响。
●采用Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度。
采用两副本加编码的方式相对三副本最大可实现30%空间节省。
●智能失败任务识别:自动将任务转移到备份数据节点执行,单个节点的故障不影响整个任务的执行,有效应对计算单元失效。
3.3高性价比●Hadoop的诞生本身就是为了在低成本的通用硬件集群上运行分布式计算框架。
●浪潮云海大数据一体机具备优异的线性可扩展,满足了未来业务量增长的需求,有效保护了现有投资,降低总体CTO。
3.4易管理●本地管理平台:每套大数据一体机中都配有本地管理平台,使系统管理人员方便集中控管一体机。
远程集中管理平台:HDFS配置界面HBase配置界面监控管理界面3.5专业化服务●实施服务:云海大数据一体机会在出厂前进行产品预装及严格的可靠性测试,保障产品的品质。
产品实施实现客户现场的一体化交付,真正做到插电即用,极大地降低了客户利用大数据的门槛。
●售后服务:浪潮建立了以山东济南客户服务总部为中心、其他各省、直辖市设立服务分中心的覆盖全国的完备售后体系,所有客服工程师都是原厂经验丰富的服务工程师。
浪潮已经连续九年获得售后服务满意度金奖。
四.竞争性分析4.1跟传统关系型数据库对比分析4.2跟开源Hadoop对比分析五.成功案例5.1某城市智能交通系统项目背景●年过车信息数据量达数百亿级记录规模●市局和区县的数据中心两级架构,分布式存储,集中管理。
●支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。
●支持海量过车信息的模糊匹配检索。
●支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等系统需求●数据量(过车记录+违章图片+数据冗余+异地容灾):~6PB●数据采集终端:12000个,写入性能>24000记录/秒●用户数:>1000难点分析传统数据库方案潜在问题:●初始投入和后期维护,扩展成本巨大●人为分库,灵活性差。
●混合数据类型支持●规模仅能支持单个区域中心●应用可靠性差,难以保证业务连续性●代码复杂●系统可维护性浪潮云海大数据一体机解决方案拓扑图智能交通应用技术方案规模、指标、特点●该方案使用SDA-1、SDA-2,共计580节点●集群性能:写入100000条记录/秒,20000主键查询/秒●系统特点:✓解决了海量过车信息(结构文本+图片)存储问题✓解决了分布式数据查询问题,应用系统可以接入任何一个本地数据中心,并访问全库数据✓系统提供了易于使用的API,方便进行二次开发✓系统做了较多优化,性能很好的满足了项目的实时性要求✓系统稳定性强,建立在X86服务器平台,自动进行数据迁移和数据恢复5.2某省级运营商清帐单查询系统原有方案:小型机+存储+Oracle●成本高、扩展性差✓服务器采用P595的两个分区(48CPU),部署不同的地市,互为主备;存储使用2台DS8300,RAID5方式,有效容量54TB✓数据量大,增长迅速,但数据库的扩容工程施工风险高●数据风险高✓灾难恢复依赖磁带,业务中断时间长●效率低✓关系数据库处理困难,查询慢(超过15秒)✓关系数据库入库慢,常有清单文件积压,不能实时入库,从而不能实时查询新清账单中心方案●底层为浪潮提供的大数据解决方案平台,上层由应用开发商开发业务程序,对入库和查询进行业务处理。
●这种架构有效的屏蔽了底层的功能,对上层来说,只需要调研相关接口即可。
数据的分发、复制、任务调度、容错都是由系统软件来控制。
大规模的PC具备强大的处理能力和网络带宽,同时具备线性的横向扩展能力。
3份冗余的数据保证对硬件的容错和读处理的支持。
●存储使用69台PC机身硬盘作分布式存储DataNode,每台PC配置6TB磁盘容量,按每份数据存放3份计算,有效容量138TB,保存6+1个月数据,压缩比1:5六.浪潮云海大数据一体机配置系统平台●根据客户实际应用容量需求,用SDA-1、SDA-2进行灵活线性扩展。
●操作系统:✓Red Hat Enterprise Linux for Servers或CentOS,64位系统,版本6以上。
✓SUSE Linux 11 SP1●Hadoop平台:✓HDFS/MapReduce✓HIVE✓HBASE✓Hadoop Manager✓Zookeeper。