2安全控制技术【摘 要】【关键词】Abstract: In safety instrumented systems, the common cause failures which occur between redundant parts within each layer between safety layers or between safety layers and the BPCS may make the potential degrade of the effective protection higher and then affect the safety and the reliability of a system. The paper describes the de fi nition, causes, analytical approach and the quantitative methods given in the standard, and also discusses how to reduce probability of common cause failure.Key words: SIS Common Cause Failure Redundancy在安全仪表系统中,保护层的冗余部分之间、保护层之间、保护层和BPCS之间的共同原因失效(亦称共因失效)都会引起有效保护潜在的降低,从而影响系统的安全性与可靠性。
本文阐述了共因失效的定义、产生原因、分析方法、标准中的量化方法以及降低其概率的措施。
安全仪表系统 共因失效 冗余[编者按] 本刊在2007~2008的两年间,在“安全控制技术”栏目共安排了12讲功能安全技术讲座,系统介绍了功能安全的基本概念、方法与技术,并针对读者关心的一些问题进行了分析,得到广大读者的广泛关注与积极回应。
2009年,该讲座还将继续进行,主题将集中在安全相关子系统的功能安全评估与认证技术上。
本讲主讲人是刘瑶工程师。
第十八讲 安全仪表系统中的共因失效Chapter 18: The Common Cause Failure in the Safety Instrumented System刘瑶(机械工业仪器仪表综合技术经济研究所,北京市 100055)Liu Yao(Instrumentation Technology & Economy Institute, P.R.China, Beijing 100055)主讲人简介:刘瑶,女,工学学士,机械工业仪器仪表综合技术经济研究所功能安全技术研发中心工程师,参与功能安全标准I E C 61508(G B/T 20438)及I E C 61511(G B/T 21109)技术与应用研究、宣传和推广,功能安全HAZOP+SIL工程项目技术辅助与支持。
安全仪表系统(SIS)是指用来实现一个或几个仪表安全功能的仪表系统,它包括从传感器到最终元件的所有部件和子系统。
目前SIS正广泛应用于石油、化工、电力等过程工业领域,用以监测生产过程中的安全参量,以便在出现危险时及时采取有效措施从而防止人身伤害、经济损失及环境影响。
根据GB 21109(IEC 61511),SIS的其中一项设计要求就是识别和考虑共因失效。
在给保护层分配安全功能时,Control Tech of Safety & Security生地震,结果两元件都失效了。
导致此次共因失效的客观原因就是环境因素——地震,内部原因则是元件本身的抗震性能不够。
例二,某输油站场中,出站处高压报警、高压泄压、压力高高连锁保护停泵等保护措施共用一个压力变送器。
一旦压力变送器发生故障,上述三层保护会同时失效,这就产生了共因失效,如果此时管内石油压力过高则是相当危险的。
其根本原因就是保护层之间不独立,取压点未分开单独设立。
例三,为确保阀门关断时能切断管内流质,在管道中串联安装了两个阀门。
设计时这两个阀门均为带电跳闸。
若此设备附近发生火灾,则安全监控系统一旦检测到这一情况后即给两个阀门上电,但是由于两个阀门的电缆都铺设在同样的电缆槽上,而这个电缆槽恰恰就在火灾区域,其后果是电缆被毁坏,两个阀门都不能关闭。
造成此次共因失效的根本原因是冗余电缆的物理位置相同,外部因素是火灾,内部因素则是设计缺陷。
例四,检修人员打开控制机柜门检查工作状态,此时,对讲机传来另一处需要紧急检修的信息,他回应“马上到”。
由于机柜中容错系统的两个处理器安装在同一机架中,这时它们受到同样的电磁干扰因而发生故障。
这两个处理器是安全仪表系统的一部分,这就导致一个主要的过程单元立刻停止工作。
究其产生原因就是机柜门打开、对讲机传来的无线电信息产生电磁干扰。
上面的几则示例分别从环境因素、设计缺陷、电磁干扰等方面说明了共因失效的产生原因。
3 共因失效的分析方法根据GB20438(IEC 61508),共因失效的分析方法是:通用的质量控制;设计复审;由一个独立小组进行的验证和测试;根据类似系统反馈的经验分析实际的意外事故。
然而此分析范围超出了硬件范围。
即使在一个冗余系统的各通道中使用软件多样化,还是有可能在软件方法中存在一些共性,他们将引起共因失效,例如共用的规范中的错误。
当共因失效不是严格地在同一时间内发生时,可以借助多通道之间的比较方法采取预防措施。
采用这种比较方法可以在失效成为所有通道共有失效之前检测出来。
一般情况下,实际分析过程中,共因失效分析可分以下四个步骤进行:1 )建立系统逻辑模型要求对系统有一个基本的认识。
需要考虑故障模式、边界条件和逻辑模型等。
2 )识别共因事件组共因失效、共同模式失效和相关失效也是需要考虑的内容。
下面将详细介绍共因失效。
1 共因失效的定义共同原因失效(common cause failure)是指由一个或多个事件引起一个多通道系统中的两个或多个分离通道失效,从而导致系统失效的一种失效。
它是一种相关失效。
相对应的,在GB 21109(IEC 61511)中,还有一个词即共同模式失效(common modefailure)与它相似但不完全相同,共同模式失效是指两个或多个通道以同样的方式引起相同的误差结果的失效。
在此特别提请注意的是,共因失效是指多个通道失效的原因(即引发事件)相同,但它们造成的误差结果未必相同;而共模失效是说多个通道失效的方式相同,而且引起的结果亦相同。
各个通道失效与共因失效的关系见图1所示。
图1 各个通道失效与共因失效的关系2 共因失效的产生由定义可看出,共因失效发生在多通道系统中,如冗余、多数表决。
不同的设备、模块、组件都可能产生共因失效。
增加冗余可以提高系统的故障裕度,避免随机硬件失效,因此它是降低系统失效可能性的一种有效方法,但是人们常常发现冗余系统的一些可靠性指标如PFD、MTTF却比理论值低,经研究发现这是由共因失效导致的[4],它削弱了冗余的作用。
共因失效产生的原因可能是环境因素,如火、水、地震、电磁干扰、撞击等。
同时,系统也可能受与操作和维护有关的意外事故的影响,如运行期间的组态错误或错误指令、人为的误开/关行为,维护期间的升级错误和安装错误、维修程序错误、校准错误以及更换设备错误等,它们都可能对冗余系统内的多个部件造成影响。
通常,冗余系统的所有部分都使用同一个程序,这就存在发生共因失效的潜在可能性。
对此最根本的解决办法是,为操作和维护编写严格合理的规程并使相关人员得到良好的培训。
内部影响也是共因失效的一个主要原因,例如相同部件以及它们的接口的设计缺陷,或者部分部件的老化。
事实上,很多共因失效都是内外部因素共同作用的结果。
以下是几个共因失效的示例:例一,某个冗余系统中,为保证可靠性使用了两个元件使它们同时起作用,但系统所处环境忽然发安全控制技术对所有可能发生共因失效的系统单元进行检查。
考察外部因素与内部影响,进一步确定共因失效建模的先后次序。
3 )共因建模和数据分析利用经验数据选择所要使用的共因失效模型、最小割集和参数估计等。
4 )系统量化和结果的进一步解释确定系统失效的可能性和共因失效对最终结果的影响。
主要包括敏感性分析和备选后续措施的选择等。
4 共因失效的量化方法。
在GB 20438(IEC 61508)中介绍了一种在E/E/ PE系统中量化共因失效的方法。
在两个或多个系统并行操作时,采用一个共因失效因子β根据其中一个系统的随即硬件失效估算共因失效率。
此方法的应用范围局限于硬件的共因失效。
方法如下:考虑在多通道系统中的每一个通道中执行诊断测试时,共因失效对该系统的效应。
在应用β系数模型时,危险的共因失效的概率为λDβ。
其中λD为各通道随机硬件危险失效的概率,β为无诊断测试时的β系数,也就是影响所有通道的单一通道的失效分数。
假设共因失效影响所有通道,并且与连续共因失效的时间间隔相比,第一个通道被影响到所有通道被影响之间的时间间隔较小。
假设每一个通道中均执行诊断测试来检测和揭露一部分失效,则可将所有失效分为两大类:一类是在诊断测试覆盖范围之外的(不可能被检测到的),另一类是在诊断测试覆盖范围之内的(总可以被检测到的)。
则危险共因失效引起的总失效概率为:λDUβ+λDDβD式中:λDU—单一通道中未检测到的失效概率,即诊断测试覆盖范围之外的失效概率。
β—不可能检测到的危险故障的共因失效系数,它等于在没有诊断测试时应用的总β系数。
λDD—检测到单一通道的失效概率,即在诊断测试范围内单一通道的失效概率;此时,如果诊断测试的重复率高,则有一部分失效将被揭露出来,从而导致β即βD减小。
βD—可检测到危险故障的共因失效系数。
当诊断测试的重复率提高时,βD的值越来越小,并下降到 β之下。
β、βD均可从表4中获得:β计算公式为S=X+Y; βD计算公式为 S D=X(Z+1)+Y。
X、Y的确定方法如下:用户需确定系统中为避免共因失效应使用哪些措施,然后根据表1分别求出每个逻辑子系统的XLS之和、YLS之和,以及传感器和最终元件的XSF之和、YSF之和,求出它们的总和就可分别得出X、Y。
Z的值由表2、表3获得。
5 如何降低共因失效概率降低共因失效的方法主要有以下三类:a)减少随机硬件失效和系统失效的总数(即减少图1中两圆重合的部分)。
表1 可编程电子或传感器和最终元件的评分[1]项目逻辑子系统传感器和最终元件X LS YLSXSFYSF分离/隔开在所有位置,各通道的全部信号电缆布线是否都已分隔开? 1.5 1.5 1.0 2.0逻辑子系统的所有通道的印刷电路板是否是单独的? 3.0 1.0逻辑子系统通道是否在各自的框架中? 2.50.5如果传感器/最终元件拥有专用的控制电子电路,那么每个通道的电子电路是否分别位于各自的印刷电路板上?2.5 1.5如果传感器/最终元件拥有专用的控制电子电路,那么每个通道的电子电路是否分别位于室内各自的控制台内?2.50.5多样性与冗余各通道是否使用不同的电子技术?例如使用一个电子电路、可编程电子及其他继电器。