当前位置:文档之家› HP服务器技术白皮书1

HP服务器技术白皮书1

惠普ProLiant服务器技术白皮书随着关键业务应用对系统资源提出了越来越高的要求,提高系统带宽已经成为一个至关重要的问题。

在分析和评估了现有的系统结构之后,惠普公司确定了一种新的系统结构,它具有更好的性能、较高的处理器、高效的内存技术和 I/O 扩展性及更高的带宽,能够满足日益复杂的事务处理、数据库、互联网/企业内部互联网和文件/打印应用的要求。

HP最新的内存保护技术由于互联网在诸如电信、金融等对存储要求非常高的行业上的应用越来越广泛,增大服务器容量已经成为必需满足的要求。

未来,互联网的使用将渗透到各个行业,因此提高数据中心(data center)的计算能力成了生产商和服务商都关心的问题。

目前,服务器厂商在他们生产的服务器上采用了更快的处理器和更大的内存,这带动了相关技术的不断发展变化。

当前有很多企业都通过裁减IT部门职员的办法来缩减开支。

在此情况下,服务器必须具备更高的容错能力,以减少设备检修所需的时间和花费。

要满足大规模应用的要求,服务器的制造商面临的问题就是在扩展内存的密度、增大内存的容量的同时,保证系统内存的可靠性。

惠普也面临同样的问题,解决的办法是利用3种容错内存保护技术(fault-tolerant memory protection technologies):在线备份内存、热插拔镜像内存和热插拔RAID内存。

以上提到的惠普AMP技术是系统可靠性的保证,用户可以根据自己对内存可靠性的要求自由选择系统配置,这将为其工作取得成功提供必要的基础。

介绍目前运行在工业标准服务器上的重要的商用软件所需的内存空间越来越大。

从趋势上看,新的操作系统可以支持更大的内存,同时服务器内存的容量也在不断扩大。

这些年来系统内存的可靠性越来越高,主要原因是有了更好的制作工艺和更新的内存保护技术例如ECC -它是由惠普首先在工业标准的服务器上采用的一项技术。

然而,随着存储元件密度的增加、服务器容量的加大,内存发生错误的几率也跟着增大了。

而内存一旦出现错误会导致数据无法使用,甚至系统死机,这会给商业活动带来很大损失。

为了确保内存的可靠性,惠普开发了3级AMP技术,它能够增加内存的容错能力,能够满足那些对实效性要求很高的应用软件的要求:用户可以根据自己对内存可靠性的要求自由选择系统配置-在线备份内存、热插拔镜像内存和惠普热插拔RAID内存(工业标准DIMM的冗余阵列)。

在这篇文章中,首先解释服务器发生内存错误的原因并说明为什么出现内存错误的可能性会增加。

接着详细介绍惠普采用的检查内存错误的方法的原理和局限性。

最后,介绍惠普ProLiant 300, 500和 700 系列服务器采用的容错AMP技术。

内存错误服务器中使用的内存模块是电子存储设备;因此很容易出现存储错误。

计算机中使用的存储设备有两种类型- 静态随机存储器(SRAM) 和动态RAM (DRAM)。

其中SRAM 做为缓存使用,这是因为它的速度快并且可以在关闭电源前一直保存其中的数据。

DRAM 芯片装在168脚的DIMM( dual inline memory modules )上。

每一个DRAM 芯片以电容行或电容列存储数据(即存储单元),这些存储单元必须不停地进行充电或者更新,否则其中的数据会丢失。

一个充电的电容器表示数据"1",一个放电的电容器表示数据"0" 。

充电和放电是由存储设备的电压决定的。

在进行读操作的时候,电容器的电荷水平决定数据是被读出为“1”还是读出为“0”。

例如,在电压为5伏的系统中,传感器将电压为+5伏特的电容器读出为“1”,将电压为0伏特的电容器读出为“0”。

只要电压更接近+5 V 而不是0 V,传感器就可以正确读数。

然而,如果电容器中的电荷受到外界的影响发生变化的话,读数就会不准确。

当服务器上运行的是重要的商用程序时,此类内存错误将导致运行中断,商业数据的丢失。

内存错误根据被影响的比特位数不同分成单比特错误和多比特错误。

HP防止出现内存错误的方法有两条途径可以防止出现内存错误:测试(testing)和使用错误检查/纠正技术。

一直以来,惠普是工业标准服务器内存品质测试方面的专家(惠普为其产品提供质量保证就可以证明这一点),同时它还在工业标准服务器内存的错误检查/纠正技术方面处于领先地位,并在AMP技术领域继续保持了这种地位。

先进的测试方法可以提高内存的可靠性内存芯片速度更快、设计更复杂,这使得对芯片进行测试变得越来越困难,花费也跟着变大了。

内存设备的生产商在测试系统上投入了很多的资金,并不断地改进其测试的方法、步骤从而确保设备的质量。

惠普通过不断改进内存的设计和制作工艺,将发生硬错误的可能性降到最低。

除了在制作上严格把关外,惠普更是对服务器上使用的每一个内存都做了彻底的测试。

而且测试范围不仅包括目前正在惠普服务器上使用的各个生产商生产的各种型号的内存,还包括每一款惠普新研制出的服务器内存,在惠普服务器采用新的处理器时,惠普也会对原有的内存进行重新评估。

只有通过严格的测试才能保证内存可靠性的不断提高。

有了对其产品质量的信心,惠普为它生产的内存提供3年的质量保证。

有了这个保证,只要是出现问题的惠普DIMM(其错误值超过了预先设定的错误极限),用户都可以向惠普要求更换。

服务器会记录DIMM出现的错误,而且惠普的管理软件(Hp Insight Manager)和诊断程序都可以对发生的错误进行确认。

错误检查/纠正技术惠普通过严格管理内存的加工制作过程和不断地对其内存产品进行测试,最大程度地降低了由于产品质量而导致内存发生错误的可能性。

但由于内存容量的扩大,发生内存错误的几率也在增加。

错误检查/纠正技术很重要,没有它,正在运行的重要商业程序会在没有任何告警的情况下出现中断。

这虽然是偶然现象但后果却很严重。

尽管采取各种方法避免硬件出现问题,但由于一些和内存不直接相关的错误的存在,内存错误仍然不可避免。

唯一可以真正改变这一状况的方法是:使用内存检查/纠正协议。

有一些协议只可以检查到错误,另一些却可以在检查到错误的同时把错误改正过来。

ECC 内存惠普1993把带纠错编码技术(ECC)的内存首次应用到工业标准的服务器中,大大降低了内存发生“致命”错误的几率,惠普是第一个这样做的公司。

ECC内存已经成为所有惠普ProLiant系列服务器的标配。

ECC技术优于奇偶校验(parity checking)。

奇偶校验只能做到单比特错误的检查,不能对检查到的错误进行纠正,且无法处理多比特错误。

但ECC 技术不仅可以检查到单比特错误,也可以检查到发生的多比特错误并能对单比特错误进行纠正。

它的原理如下:ECC将信息进行8比特位的编码,采用这种方式可以恢复1比特的错误。

每一次数据写入内存的时候,ECC使用一种特殊的算法对数据进行计算,其结果称为校验位(check bits)。

将所有校验位加在一起的和是校验和(checksum ),校验和与数据一起存放。

当这些数据从内存中读出时,采用同一算法再次计算校验和,并和前面的计算结果相比较,如果结果相同,说明数据是正确的,反之说明有错误,ECC可以从逻辑上分离错误并通知系统。

当只出现单比特错误的时候,ECC 可以把错误改正过来不影响系统运行 (图1).图1: ECC检查并改正单比特错误的原理示意图除了能够检查到并改正单比特错误之外,ECC能检查到(但不改正)单DRAM芯片上发生的任意2个随机错误,并最多可以检查到4比特的错误。

当有多比特错误发生的时候,ECC内存会生成一个不可隐藏(non-maskable interrupt)的中断(NMI),系统会中止运行以避免出现数据恶化。

ECC技术为很多应用软件都提供了有效的保护。

但如图2所示,随着内存容量的增加,ECC的有效性在降低。

(服务器的损耗从3%上升到48%) 有两个因素促使工业标准服务器不断提高其内存的容量:操作系统可以支持更大的内存;低价、高容量的内存越来越普遍。

图2:一年内因为内存故障造成的服务器宕机故障新的ECC内存为了加强对内存数据的保护,惠普于1996年引入了新的ECC技术(Advanced ECC technology)。

目前惠普和其它的服务器制造商的生成线上生产的仍然是带有此类技术的产品。

标准的带有ECC技术的设备在从DIMM中读数据的时候可以同时纠正数据中出现的单比特错误,新的ECC技术可以纠正DRAM中发生的多比特错误,保证DRAM 芯片上的数据全部有效。

在带有新的的4-bit (X4) ECC技术的内存中,每一个芯片“贡献”4个比特的数据给数据字。

从每个芯片中出来的这4比特数据被平均分配给4个带有ECC技术的设备,每个设备一个比特,这样一来,每个芯片上发生的错误可以分解为4个独立的单比特错误。

图 3是这种技术实现的示意图。

图3:在新的ECC技术中每个 DRAM 芯片输出4比特数据分配给4个ECC驱动器。

每一个ECC设备可以纠正单比特错误,改进后的ECC设备可以纠正一个DRAM芯片中发生的多比特错误,因此新的ECC技术为整个设备提供故障保护。

(表1).表1虽然改进后的ECC可以保护数据避免出现错误,但是它只能纠正发生在单个DRAM芯片中的数据错误,而不支持故障恢复和热插拔能力,对于长时间不间断运行的商用软件而言,要实现其软件功能,就要求系统具备这两种能力。

否则,当内存出现了问题的时候,系统只能关机,等待更换新的内存。

最新一代的惠普ProLiant服务器提供3级AMP技术,拥有更强的容错能力,能够满足应用软件对高可靠性的要求。

惠普新的内存保护技术惠普致力于开发内存保护技术,并将这些技术应用到ProLiant系列服务器中,以提高系统的容错性,增加系统的可信度。

(参看图 4)。

惠普ProLiant 300, 500, 和700 系列服务器都具备一项或多项AMP 技术:在线备份内存(Online Spare Memory), 热插拔镜像内存(Hot Plug Mirrored Memory),和热插拔RAID内存(Hot Plug RAID Memory)。

图4 惠普最新一代ProLiant服务器中的高级内存保护技术惠普AMP技术支持工业标准的256-MB, 512-MB, 1-GB DIMM和 2-GB DDR DIMM 。

惠普ProLiant 300系列服务器采用的内存保护技术在线备份内存模式相对标准内存模式而言,在线备份内存模式可以提供更高级别的内存保护。

它特别适用于没有足够计算机系统维护人员或者手头没有多余的内存可以方便的替换的场所。

惠普ProLiant ML370 G2 和DL380 G2 服务器的主板上有6个DIMM插槽。

这些插槽分成3个存储区(memory banks)A、B和C。

相关主题