当前位置:文档之家› 03 《信息系统安全》第三讲 计算机系统的可靠性

03 《信息系统安全》第三讲 计算机系统的可靠性



对可维修产品而言,其平均寿 命是指两次故障间的时间平均 值,称平均故障间隔时间,习 惯称平均无故障工作时间 MTBF ( Mean Time Between Failures)。
MTTF 实例

“东方红一号”卫星设计工作 寿命20天(实际工作寿命28天)
MTBF实例
AL31据说首翻在600小时左右,总寿命1500小时; 美国同级别的F100-PW系列和F110-GE系列首翻 都在 1000 小时以上,总寿命更是接近 4000 小时。 后来的F119和最近的F135、F136更不用说了 航空发动机主轴承是航空发动机的关键部件之 一,在高速、高温、受力复杂的条件下运转, 其质量和性能直接影响到发动机性能、寿命和 可靠性。 CFM公司56系列发动机 目前国外发达国家航空发动机主轴承的寿命均 能达到1万小时以上,完全可以满足大飞机发动 机主轴承的寿命需求。而我国目前航空发动机 的主轴承寿命基本在900小时以内。
S(t ) F(t ) N N
U(t)称为系统C在时刻t的不可靠性函数(简称不可靠性)。
可靠性
表示可靠性的另一重要元素是失效函数(也称为失效率)
Z(t )
dF (t ) S(t ) dt
失效率Z(t)表示了系统中元器件失效的速率。
Z(t)的浴缸形曲线(Bathtub-curve)
Z(t)随时间的变化而变化,而且呈浴缸形的曲线。
R(t)和的关系
可靠性不仅是时间t的函数,而且与失效率有着密切的关联。
思考题
关于可靠性
当t=0时,R(0)=? 当t=∞时,R(∞)=?
不可维修产品的可靠性指标
不可修产品的 可靠性 数量指标
平均寿命
平均无故障时间(MTTF) 系统的可靠性越高,平均无故障时 间越长。
可维修产品的工作过程
《信息系统安全》第三讲
信息系统的可靠性
2012年3月21日 周亚建 zhouyajian@
School of Computer Science, BUPT
物理安全研究的问题
物理安全又叫实体安全 (Physical Security),是保护计 算机设备、设施(网络及通信线 路)免遭地震、水灾、火灾、有 害气体和其他环境事故(如电磁 污染等)破坏的措施和过程。
计算机系统可靠性的组成
计算机系统由硬件和软件组 成,它们对整个系统的可靠 性呈现完全不同的特性。 硬件的可靠性和软件的可靠 性也有明显的区别,而且两 者发展的水平相距甚远。 计算机系统的可靠性研究基 于硬件和软件的可靠性研究
计算机系统 可靠性
硬件可靠性
早期的可靠性概念是 专指硬件产品的可靠 性。
可靠性
假设C是一个具有N个元器件的数字系统,在一定的条件和环境 (如温度、湿度、电压等)下运行,并且随着时间t的推移质量 逐步下降。设S(t)为系统C运行至时刻t时能保持正常工作的元器 件的总数,F(t)为时刻t时发生故障而失效的元器件的总数。 在任何时刻,应该有N= S(t)+F(t)
可靠性
MTTR t (t )dt
0
其中:(t)是维修时间的概率密度函数。
可维修产品的维修性指标:可用性
可维修产品的可用性定义为:
MTBF 100% MTBF MTTR
由此可见,产品的可用性定义为系统保持正常运行时间的百分比。
它表示设备处于完好状态的概率
计算机系统可用性的类型
计算机产业界通常用如“9”的个数来划分计算机系统可用性的类型。
Why Reliability?
Case 2: 1996年,由于火箭控制系统的故障,致使欧洲航天局耗资67亿美 元研制的阿娜5号火箭在点火后37秒即在空中爆炸;
Case 3: 第一次海湾战争中,“爱国者”导弹雷达跟踪系统的故障致使在 发射导弹时产生了1/3秒的时间误差,未能拦截到伊拉克的“飞 毛腿”导弹,而造成美军28人死亡、98人受伤。
系统C在时刻t能正常工作的概率 R(t)=S(t)/N
R(t)称为系统C在时刻t的可靠性函数(简称可靠性)。
R(t)是产品在时间[0, t]内不失效的 概率
可靠性也定义为:产品在规定条 件下、在规定时间内,完成规定 功能的概率。
可靠性
系统C在时刻t不能正常工作的概率
U(t ) 1 R(t ) 1
Why Reliability?
可靠性理论研究经过了几十年的飞速发展,在各个方面都取得 了非常多的成果。可靠性理论的应用也已经从军事技术扩展到 社会经济生活的许多领域。
计算机系统可靠性的定义
可靠性理论以产品的寿命特征 作为主要研究对象
在规定的条件下、在 给定的时间内,计算 机系统能实施应有功 能的能力。
R(t ) exp( Z(t ) dt ) e t 0
这一式表明设备的可靠性与失效率成指数关系。
t
Z(t)的浴缸形曲线(Bathtub-curve)
失 效 率
早期失效
使用寿命期
损耗失效期
寿命时间
第三阶段 耗损失效期(Wearout) 该阶段的失效率随时间的延长而急速增加,主要原因是器件的损 失己非常的严重,寿命快到尽头了,可适当的维修或直接更换。
Z(t)的浴缸形曲线(Bathtub-curve)
失 效 率 早期失效 使用寿命期 损耗失效期
寿命时间
第二阶段 偶然失效期,也称随机失效期(Random Failures) 这一阶段的特点是失效率较低,且较稳定,往往可近似看作常数,产品可靠性指 标所描述的就是这个时期。这一时期是产品的良好使用阶段。由于在这一阶段中,产 品失效率近似为一常数,故设Z(t)=λ(常数)由可靠度计算公式得
计算机系统可靠性举例
1 1 1 100H 0.05 1 0.01 20000 100 1000
MTTF
i
i 1
n

R(t ) e

t MTTF
t ln R(t ) MTTF 0.05 100 5H
如果每个电子管的失效率确实为0.05%/kh(千小时),则ENIAC 在工作5小时之后其可靠性就要下降到95%一下。 在这种情况下,这台号称世界上第一代计算机的可靠性十分低下。
广义物理安全
-应包含由软件、硬件、操作人员组成的整体信息 系统物理安全,即包括系统物理安全。应确保信 息系统的保密性、可用性、完整性。
计算机系统的可靠性
Why Reliability?
由于计算机系统故障而导致的严重事故,引发的灾难给人类社会 留下了难以磨灭的痛苦记忆。 Case 1:
最早的系统可靠性研究始于当时的纳粹德国在其V-1火箭的研制上。 纳粹德国发射的V-1、V-2火箭的不可靠及美国运往远东的航空无线电设 备有60%不能工作,引起了对可靠性问题的认识。 1944年纳粹德国用V-2火箭袭击伦敦,有80枚火箭没有起飞就在起飞 台上爆炸,还有不少火箭没有达到伦敦就掉进英吉利海峡。 当时,美国海军统计,电子设备在规定所有期内仅有30%的时间能有 效地工作。在此期间,因可靠性问题损失飞机2100架,是被击落飞机 的1.5倍。 通过大量现场调查和故障分析,采取了对策,诞生了可靠性这门学科。
描述硬件可靠性的模型
串联系统模型、并联系统模型、串-并联(并-串联)系统模型、 表决系统模型、冷贮备系统模型和热贮备系统模型等
硬件系统的可靠性模型:串联系统
系统由n个部件串联而成,任一部件失效就引起系统失效。
硬件系统的可靠性模型:串联系统
系统为不可修的情形 假设第i个部件的寿命为Xi,可靠度为Ri(t)=P{Xi >t},i=1, 2, …, n,第i个部件的失效率为i(t),X1 ,X2 ,…,Xn相互独立。 若初始时刻t=0,所有部件都是新的,且同时开始工作。 (1) 系统的寿命是: X=min{X1 ,X2 ,…,Xn} (2) 系统的可靠度是: R(t ) Pmin X 1 , X 2 ,, X n t Ri (t )
寿命
通常用一个非负随机变量X来描述产品的寿命。 X的分布函数为 F(t) = P{X t},t0
有了寿命分布F(t) ,就知道产品的平均寿命
EX tdF (t )
0

平均寿命:MTTF vs. MTBF
对不可维修的产品的平均寿命 是指从开始投入工作,至产品 失效的时间平均值。也称平均 失 效 前 时 间 , 记 以 MTTF (Mean Time To Failure)。
可用性分类 容错可用性 极高可用性 具有故障自动恢复 能力的可用性 高可用性 商品可用性
可用水平
99.9999
每年停机时间
<1min
99.999
5min
99.99
53min
99.9
8.8h
99
43.8h
计算机系统可靠性举例
已知世界上第一代电子管计算机ENIAC有20000个电子管,假 设每个电子管的失效率为=0.5%/kh(千小时),试求: (1) 该计算机的MTTF; (2) 若要求计算机的可靠性在95%以上,则之多可以工作多久?
物理安全技术主要针对计算机及 网络系统的环境、场地、设备和 通信线路等采取的安全技术措施。
物理安全体系结构
介质安全 设备安全
线路安全
物理安全
电源安全 环境安全
物理安全的内涵
信息系统安全
广义物理安全
人员安全
狭义物理安全
设备安全 介质安全 线路安全
电源安全
环境安全
物理安全的概念
狭义物理安全
包括环境安全、设备安全和介质安全,主 要解决由于设备、设施、介质的硬件条件 所引发的信息系统物理安全威胁问题。
软件可靠性
软件可靠性的研究开始 于二十世纪七十年代。 随着社会生活对软件的 依赖越来越强,以及由 于软件故障引发的事故 带来惨重的损失,使得 人们对软件质量尤其是 软件可靠性高度重视。
相关主题