当前位置:文档之家› 计算机控制系统可靠性设计

计算机控制系统可靠性设计

计算机控制系统可靠性设计班级:机制1202班姓名:杨鹤青学号:U201210570摘随着计算机控制系统广泛、深入地渗透到人们的生活中,因其可靠性题要:而潜在的巨大危害日益凸显。

因此,设计具有高可靠性能的计算机控制系统成为必然。

目前,针对复杂环境中计算机控制系统的可靠性研究设计已经获得了某些研究成果,且其具有广泛的应用前景。

本文就提高计算机控制系统可靠性理论进行了分析,阐述了一些通用的可靠性设计方法。

关键词:计算机控制系统;高可靠性;系统设计1 研究背景和意义地球上第一台由多达一万八千只电子管构成的电子计算机ENIAC,因其可靠性不能满足实际应用的需要,应用不是很广泛。

然而,随着半导体技术的突飞猛进,计算机很快在银行存取款、座位预定、交通管制、生产及库存管理、医疗设备、通讯以及军事武器的应用等方面得到广泛应用。

在现阶段,伴随着互联网应用的普及的及控制技术发展的进步,人类已经进入新的物联网时代。

由此必然使计算机控制系统的应用更加深入的渗透到人们生活的各个领域,给我们的生活带来革命性的变化使人们生活更加舒适。

在物联网时代计算机控制系统已经深入的渗透到人们的生活中,例如:可以通过计算机控制系统实现如交通管理、远程视频监控、远程医疗等等。

目前, 计算机控制系统在人们的生产活动、经济活动和社会活动中已无处不在。

在人们在享受到了计算机控制系统给我们带来的快捷舒适的同时也最大程度的整合了社会资源节约了人力财力,从而有效节约了成本。

因而,计算机控制系统的普及应用已成为社会发展的必然趋势。

在享受到计算机控制系统的普及应用所带来的巨大进步的同时也面临着由此带来的新挑战,即计算机控制系统的不可靠。

由于计算机控制系统的不可靠性所带来的危害使其潜在巨大威胁,由此带来的担忧是正常的。

例如:在被国际航天界称为“黑色96 ”的1996 年,俄罗斯质子号火箭、美国哥伦比亚航天飞机、法国阿里安火箭均在发射中遭到重创。

2008年6 月22 日(星期三)当地时间下午5:08 ,位于瑞士中部的连接瑞士东北部楚格州的罗特克罗伊茨和乌里州的阿姆施泰格之间的输电网发生短路,并造成连锁反应,使整个铁路网供电失衡。

由此可见,由于计算机控制系统的不可靠而带来的灾难是十分巨大的。

因此,设计具有高可靠性的计算机控制系统是计算机控制系统设计的必然趋势。

2 当前研究现状在容错理论的研究上,冯.诺伊曼早在20世纪50年代中期,在其文章《概率逻辑及用不可靠元件设计可靠的结构》中曾对容错技术中关于复合容错方案进行了论述。

他用概率论证可以用不太可靠的器件组成一个可靠的具有相同功能的组件,同期又出现了莫尔一香农冗余方法,这些研究奠定了容错系统理论的基础。

此后,世界上第一台容错计算机SAPOS捷克斯洛伐克建造成功。

伴随着故障诊断和自动恢复机制的发展,出现了很有效的测试组合电路算法,其中最著名的是D算法。

此时开始采用微程序设计,一般采用徽码进行诊断程序设计,对内部逻辑可进行更有效的测试和诊断。

目前在硬件冗余设计,及其隔离、故障定位等方面均有了一定的发展。

在容错计算机系统方面出现了许多有重要意义的研究性系统和实用系统。

在NASA 的支持下,美国斯坦福研究所(SRD)和麻省理工学院的Draper 实验室,按同样的技术条件,分别开发了非常先进的研究性机器:FTM[容错多处理器和SIFT(软件实现容错)。

目前伴随着VLSI 技术的发展,使计算机硬件成本大大降低这就使得商用容错计算机系统应运而生,容错计算机从军事航天等部门,逐步扩大到工业控制、实时系统和联机事务处理(主要是银行、交通部门)等领域。

在新型计算机结构中采用硬件冗余越来越容易,未来容错技术将成为新一代计算机的特征。

关于冗余容错的应用研究主要集中于容错的VLSI 技术、基于人工智能的容错计算机故障随机诊断专家系统、基于神经网络容错技术。

当前的主处理器一般采用的都是通用处理器,和通用处理器相关的容错技术研究已经比较成熟,从软件到硬件都已经有了很多理论与应用。

主处理器和可重构逻辑器件间根本上就是彼此间互相通信的问题,也已经有了很多成熟的技术。

因此,当前在可重构系统的容错研究中,最关键的就是研究可重构逻辑器件的容错技术。

然而,当前最佳冗余容错方案是尽量走硬件冗余和软件冗余相结合的道路。

硬件冗余时间开 销小,技术相对成熟;软件冗余较硬件冗余更灵活,且具有动态特性。

然而, 在计算机控制系统的研究领域系统级的研究还比较少,只是少量理论基于控制 系统中某个单元模块的研究。

3计算机控制系统可靠性的主要影响因素与应对策略3.1计算机控制系统可靠性分析0K----- 均无故障时间1 MTTF)-图 3.1 MTTF 、MTTR MTBF 关系参照图3.1,为精确描述计算机控制系统的可靠性,采用如下参数进行分析:平均无故障时间 MTF(Mea n Time To Failure)指系统发生故障前运行的平 均时间,表征系统可靠性(Readability );平均修复时间 MTTR(MeariTime To Repair)指用于修复系统和在修复后将它恢复到正常工作状态所用的平均时间, 表征系统可维护性(Main tai nability );平均故障间隔时间 MTBF(Mea n Time Betwee n Failure)指两次故障时间间隔的平均时间。

实践表明,在一个系统的整个寿命周期中,系统的失效率随时间的变化规 律可以用著名的浴盆曲线来描述,如图 3.2所示。

0K 正常运行故障(发生错试)图3.2 浴盆曲线在图3.2中是描述的系统故障出现的概率 入(t )与系统运行时间t 之间的 关系。

如图所示,系统的寿命周期可以分为三个阶段:第一阶段是早期故障期 “ 1”,通常又称为调试期。

随着调试的进行,早期故障不断排除,接着进入第 二阶段随机故障期“ 2”,这一时期是正常工作的时期,系统的失效率不随时间 的变化而变化。

随着系统运行时间的越来越长,失效率不断增大,系统进入耗 损故障期“ 3”,此时系统同出现故障的概率会随着时间的延长有明显的增长。

计算机控制系统中随机故障期可以看做是实际使用期,该阶段是系统可靠 性建模和分析最值得关注的。

前人经验证明该阶段的失效率大多数满足如下关 系:R(t)二 応由上式可见,系统的可靠度函数服从指数分布规律,这是系统可靠性建模 和分析中很重要的一个特性。

功能的时效性是指系统功能满足要求,并且其实时性能也在可以接受的范 围内。

计算机控制系统一旦某功能模块失常,可能造成无法挽救的灾难性后果。

因此,要求做到确保计算机控制系统具有高可靠性。

即使出现故障,也应有多 种手段在短期内对数据处理并进行故障恢复, 保证计算机控制系统的正常运行。

对于计算机控制系统而言,可用性主要是指系统的稳定性和功能的时效性 等。

稳定性指供用户使用的计算机控制系统能够提供持续不间断服务的能力, 即在客户需要的任何时间都能满足客户的设计要求。

一般来说计算机控制系统 出现偶尔的故障是不可避免的。

这种故障可能来自工作环境的干扰、自然灾害、 人工操作失误等,也有可能由于操作系统、应用程序等软件故障,因而稳定性 指标具体就是当设备发生故障时用户在合理的时间内将其重新恢复运行的能力。

定义系统的可用性(Availability) 为一个系统可以为用户所正常使用时间 的百分比,即正常运行时间的百分比,见下式:从可用性的定义可以看出,提高系统的可性,即提高系统可用性的方法有 两类:增加MTTF 或减少MTTR 增加MTTF 要求提高系统的稳定靠性好;减小MTTR 即力求故障恢复时间缩短。

例如,采用多控制器或计算机的集群结构可 实现通过减少系统的MTTR 来提高可用性。

3.2 提高系统各单元的 MTBF 根据可靠性设计的有关理论,单元越简单,可靠可用性=MTTF MTTF MTTR性就越高。

因此,计算机控制系统最好设计成集散控制系统,即将整个系统分解为多个独立单元,在不影响系统性能的前提下将每一单元都设计成简单的模块,可有效保障系统的可靠性。

如此可以满足在系统运行过程中不会出现由于其中一个单元的异常导致整个系统不能正常工作。

与此同时,将系统整体设计为非集成的单元有利于实现非集中的控制和独立的供电以及将系统负荷和干扰分散处理。

显然该方法可以有效的减小外部干扰对系统的影响并且有利于系统调试,由此可以有效的减小系统出现故障后的修复时间,显著提高系统正常工作时的可靠性。

设计案例:在当前电梯通讯控制系统中,BITBUS 总线常常被用在实际的方案中。

其通过RS-485 总线实现通讯。

然而,由于在该系统实际运行中,当某个控制节点出现异常时将会导致整个系统不能正常工作。

为此,在实际方案设计中考虑对其进行改进,选用具有多主结构的CANBUS总线来克服上述缺点。

在改进方案中,系统中各节点工作不分主从,任何时刻任意节点之间可以互相发送信息,由此可以构成互相冗余的系统。

在CAN 总线的通讯过程中,设置信息校验(CRC校验等)用于保证系统通讯系统的可靠性。

同时当有严重异常发生时,故障节点可以及时自动关闭其余系统总线间的通讯,从而保证了整个电梯控制系统的可靠性。

显然利用CANBUS总线取代BITBUS总线可以很容易的构成“集中管理、分散控制”的复杂的计算机控制系统。

可以预见在不远的将来,CANBUS各逐渐取代BITBUS,成为电梯串行通讯系统中的主流产品,并且将以其显著增强的可靠性优势占领市场。

3.3降低各单元的MTTR为有效降低系统各单元的NTTR,在计算机控制系统中采用模块化设计,使系统中各个模块具有单一的功能。

如此以来,当故障出现时可以迅速定位,进行及时维护,从而可以有效缩短系统的MTTR有效的提高系统可正常使用的时间,使系统可靠性提高。

同时,还可通过将系统设计成具有在线诊断故障功能的方法,采用硬件自诊断技术与故障部件的自动隔离、自动恢复和热插拨技术相结合。

在系统运行过程中出现异常后,硬件自诊断机和测试机能检到出错故障,并进行快速的故障处理。

若不能使系统恢复正常工作,则迅速报警。

该设计方案很显然可以有效降低系统的MTTR从而使系统可靠性得以显著提高。

3.4 提高系统自身可靠性一元件可靠性。

设计具有高可靠性的计算机控制系统,必须从源头抓起。

因为,只有系统内各个元器件都具有较高的可靠性才有可能保证整个系统的可靠性。

在元器件选型时,既要关注主要器件的精度要求和价格,同时还要密切关心元器件的正常工作环境条件是否满足设计方案总体要求。

为此采购元件前,要对厂家的产品质量有深入的了解,厂家的信誉度要高。

同时,要对元器件的性能做实验加以检验,在同一系统的设计中尽量参考以前的成熟方案;在同一系统中尽量使用同一厂家的同一型号的元器件。

在元器件选型时要努力做到以下几点:进口元器件虽然整体质量较高,但是,进口渠道和质量等级难以控制,特别是高等级电路还受到美国的禁运。

相关主题