当前位置:文档之家› 冗余设计与容错设计

冗余设计与容错设计

冗余设计与容错设计1.冗余与容错的概念提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。

而冗余是实现产品容错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出现特定的故障情况下,能继续正确运行的能力。

“冗余(redundancy)”定义:用多于一种的途径来完成一个规定功能。

“容错”反映了产品或系统在发生故障情况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。

“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。

严格地说,冗余属于容错设计范畴。

从原理上讲,冗余作为容错设计的重要手段,其实施流程和原则也同样适用与其他容错设计活动。

2.冗余设计2.1.目的冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象(a) 通过提高质量和基本可靠性等方法不能满足任务可靠性要求的功能通道或产品组成单元;(b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元;(c)影响任务成败的可靠性关键项目和薄弱环节;(d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目;(e)其他在设计中需要采用冗余设计的功能通道或产品组成单元。

2.3 .适用时机在设计/研制阶段的初期,与其他设计工作同步开展。

2.4 . 冗余设计方法A)按照冗余使用的资源可划分为:(a)硬件冗余:通过使用外加的元器件、电路、备份部件等对硬件进行冗余;(b)数据/信息冗余:通过诸如检错及自动纠错的检校码、奇偶位等方式实现的数据和信息冗余;(c)指令/执行冗余:通过诸如重复发送、执行某些指令或程序段实现的指令/执行冗余;(d)软件冗余:通过诸如增加备用程序段、并列采用不同方式开发的程序等对软件进行冗余。

B)按照实施冗余的产品级别可划分为:部件冗余、系统冗余等。

C)按照冗余方法可划分为:(a)静态冗余:只利用冗余的资源把故障的后果屏蔽掉,而不对原来的系统结构进行重新改变。

此方法多用于电路或部件。

(b)动态冗余:在发现故障后,对有故障的部件或分系统进行切换或对系统进行重构或恢复。

此方法多用于系统。

(c)混合冗余:上述两种冗余方法的组合。

D)按照冗余系统的工作方式和各个单元的工作状态,冗余也可划分为:(a)主动冗余(热储备/热备份):冗余系统中的各个单元同时工作,以保证在有限个单元故障时,该冗余系统仍然能够完成预定任务。

主动冗余又可划分为并行冗余和表决冗余两类。

(b)备用冗余(冷储备/冷备份、温储备/温备份):执行任务时,冗余系统中只有一个单元工作,当该单元发生故障时,切换至其他的冗余单元,直至所有冗余单元都失效,该冗余系统才失效。

备用冗余可划分为冷备份和温备份。

上述冗余方式分类如图温储备/温备份图1 冗余方式分类2.4.1.主动冗余主动冗余(active redundancy)也称为工作冗余、热储备或热备份,是指:执行规定功能的所有手段同时处于工作状态的冗余。

主动冗余包括并行冗余和表决冗余两种方式。

(1)并行冗余并行冗余系统工作时,所有冗余单元均同时工作,并提供相同的输出,仅当所有冗余单元均失效时,该冗余系统才失效。

并行冗余系统中,在保证系统正常运行的前提下允许失效的单元个数称为该冗余系统的冗余度。

图2给出了一个二度冗余系统的可靠性框图示意。

(1)式中:n 为系统中单元数;Rs 为系统可靠性;R i 为第i 个单元的可靠性。

∏=--=n i i s R R 1)1(1A1A2An……k /n (G )图3 表决冗余系统可靠性框图示意当采用相同冗余单元组成表决冗余系统时,表决器完全可靠,则其可靠性数学模型可表示为:(2)式中:n 为系统中单元数;Rs 为系统可靠性;R 为单元可靠性。

∑=--=nki in i i ns R R CR )1(当采用不同冗余单元组成表决冗余系统时,其可靠性数学模型不便用单一的通用公式描述。

实际操作时可用全概率法计算系统的可靠性。

例如对于2/3(G)的表决冗余系统,其可靠性可通过下式计算:Rs=R1R2R3+(1-R1)R2R3+(1-R2)R1R3+(1-R3)R1R2从其原理可以看出,在使用相同资源的条件下,并行冗余比表决冗余提供更多的冗余度;但对于某些具有准确度、精度等要求的功能而言,表决冗余设计能够通过比较、判断,筛选掉异常或错误的输出,因而更能满足功能要求。

在主动冗余中,并行冗余通常用于保证一个功能通道的工作可靠性,而表决冗余通常用于保证多个功能通道。

A2An……切换环节图4 带切换的备用冗余系统在备用冗余系统中,根据备份冗余单元的工作情况,又可分为冷备份和温备份。

执行任务时,冗余系统的不工作单元如果处于关闭状态(不加电状态),则称该冗余系统为冷备份系统;如果处于待机预热状态,则称该冗余系统为温备份系统。

相对而言,温备份具有较快捷的启动或切换过程,切换过程对冗余系统工作的影响较小;冷备份中备份单元的工作应力更低,因此其不工作状态下的可靠性较高。

2.4.3.不同冗余类型的特点各种冗余形式具有不同的特点。

在工程应用中,应根据产品特点和可靠性要求,并在成本、重量、体积、资源消耗等方面进行权衡,最终确定应采用的冗余方式。

不同冗余类型的特点及适用性汇总见表1所示。

同冷备份同样存在切换薄弱环节。

相对冷备份,不工作冗余单元的能耗和应力较高切换过程相对冷备份冗余快捷,并可储存冗余备份单元寿命主份单元工作时,其余各冗余单元不工作但处于待机状态温备份有利于消除间歇故障,适用于允许输出间断或变化较大的功能有切换过程,需要增加切换环节,切换过程可能对系统工作产生影响,切换环节可能构成薄弱环节可储存冗余单元寿命主份单元工作时,其余各冗余单元不工作且处于关闭状态冷备份备用冗余2.6 .实施要点进行冗余设计时,应注意以下几点:(1)可以采用相同单元冗余,也可采用不同单元冗余例如用两个螺栓连接一个法兰,如果有一个螺栓失效,法兰连接就不可靠。

为了提高连接的可靠性,采用六个螺栓来连接这个法兰,即使有任何四个螺栓失效,这个法兰的连接还是可靠的。

这是一个六中取二的表决冗余,即2/6(G)系统,这里有四个螺栓是冗余单元,均相同。

载人运载火箭在起飞至二级主机关机任务时段,具备自动逃逸功能;同时还可以接受地面遥控指令实施逃逸。

这是不同功能单元冗余的例子。

(2)冗余虽然能提高任务可靠性,但降低了基本可靠性例如一个系统由三个相同单元构成可靠性并联系统,设每个单元可靠性为0.9,则并联系统的任务可靠性为0.999;而该系统基本可靠性按串联模型计算为0.729。

比较可见,任务可靠性从0.9提高至0.999,但基本可靠性则从0.9降至0.729,任务可靠性提高了,但单元从一个变为三个,成本、重量、体积、功耗等大大增加了,且基本可靠性降低了,意味着维修工作量增大了,从而维修费用负担增加了。

由此可见,是否要采用冗余,采用什么样的冗余,需要看获得的效益与付出的代价相比是否值得来定。

冗余技术是一种优化技术,它是指在费用、重量、体积、功耗等因素限制条件下,如何配置冗余单元使系统任务可靠性达到最大;或者在达到可靠性指标要求下使耗用的资源最少。

图6 二极管电路可靠性框图图7 二极管串并联方式图(a)是系统冗余,(b)是单元冗余。

可以证明,系统冗余的可靠性小于单元冗余的可靠性,即在系统中较低层次单元采用冗余的效果比层次高的地方好,因此在工程许可的条件下,单元冗余方式应用较多。

(4)冗余还应考虑共因或共模故障的影响欧空局阿丽亚娜5型火箭首飞爆炸事故,就是由于自动导航系统中用于制导和姿态控制的主、备份计算机发生共因故障所致。

2.7 .应用实例2.7.1. 工程背景为了确保航天员的安全,要求用于载人飞行的运载火箭比普通运载火箭有更高的可靠性和安全性。

运载火箭飞行控制系统是关系运载火箭飞行成败的关键系统之一,其任务是控制运载火箭按预定弹道稳定飞行,控制发动机点火、关机以及助推器、级间、整流罩、船箭等的分离,将飞船送入预定的轨道。

飞行控制系统的工作原理、组成及功能见图8和表2所示。

二次电源时序输出装置序控制对象用电负荷图8 飞行控制系统工作原理示意将全系统组成一个电磁兼容的系统整体,并为全系统供、配需要的电源由电池、配电器、二次电源和电缆网等组成电源配电分系统按要求的时序发出相应的控制指令,引爆相应的火工品,实现发动机的启动及关机、助推器的分离、整流罩的分离、火箭的级间分离、船箭的分离、抛逃逸塔、实施逃逸时关闭发动机等由时序控制装置、时序输出装置、中止飞行关机装置等组成时序控制分系统根据运载火箭飞行时间比较短和需要迅速地进行故障判别、故障隔离及系统重构的特点,适当地将系统进行划分,采用部件级、单机级及分系统级冗余结构相结合的方法,实现全系统的冗余化设计,使各冗余结构在出现一个故障的情况下,仍能保障系统实现正常功能,即具有容许一度故障的冗余能力。

为使系统设计简单和容易实现,将全系统综合划分为若干个部分进行设计。

下面以直流电源配电部分和时序控制分系统的冗余设计为例进行简要说明。

2.7.2.直流电源配电部分的冗余设计直流电源配电部分包括电池、配电器和电缆网。

(1)电池为适应不同负载的需要,飞行控制系统中使用了不同电压和输出功率的几种电池,这些电池自身都未采用冗余设计。

根据输出功率和使用特点,在系统应用中可使用直接并联和参数余量两种冗余设计方法。

1)直接并联方法利用电池开路时端电压及充电时端电压都比放电时的端电压高的特点,将两个电池直接并联起来供电,构成并联冗余结构。

这种结构的关键问题是对电池短路故障的冗余能力。

两个电池并联起来,若一个电池出现开路故障,另一个电池可正常供电。

而对电池单体短路故障的冗余能力与电池串联的单体数有关。

例如,一个由20个单体串联成的银-锌电池,荷电单体的开路电压按1.8v,放电时的电压按1.5v,则即使出现三个单体短路时,仍不会产生正常电池向故障电池充电,至少有允许3个单体出现短路故障的冗余能力;当允许有一定的充电电流时,可容许更多的故障单体。

2)参数余量方法电池的每个单体内都是由多对电池极板并联,单体与单体之间有非常牢固的连接。

因而在保证每个单体都加注了电解液后,电池开路的故障模式实际上可以不考虑,可只考虑电池单体短路、电量不够等类型的故障模式。

这类故障模式的后果是导致电池提供的供电电压降低。

相关主题