当前位置:文档之家› 容错服务器技术介绍

容错服务器技术介绍


solution
Stratus的服务领域
所有持续可用性属于必须的 地方
任何停机时间都是不能容忍的
场合
委曲求全的“容错”方案 —— Cluster
HA方案,High Availability 但这并不是真正意义上的容错!!!
或者,我们就使用容错计算机
在整个设计过程中无时不刻不为可 靠性考虑的产品 硬件级的容错 提供实测高达99.9997%的可靠性 使用标准的 intel XEON CPU 运行标准的 Microsoft Windows 2000 Advanced Server / Windows 2008 Enterprise Edition 不会出现软件切换 不会因为硬件故障导致应用失败 在线更换部件 ……
HAL
Virtualized Legacy Device Support
Stratus® HAL Extensions
Continuous Processing®
可用性保证
$100,000
计划名称 事件
Perfect Performance
意外的机器硬件、系统软件或 操作系统故障 Stratus 支付 $100,000 现金
Stratus Technologies
20多年的容 错研究经验
The Smarter Approach to Uptime TM
雄厚的资金
INVESTCORP Intel Other MidOcean Partners
ftServer® 的研发
基于行业标准的容错体系结构 硬件容错机制 对标准操作系统的进一步增强 为可靠性、可用性最高要求而组建的客户服务 在过去的28个月中研发申请了42项专利技术
AL1 (RAID 数据 硬盘作镜像或 RAID,保留系统日志文 突然宕机, 业务停顿; 数据完整性得到部分 保护) 件以便判读出错和恢复运算中的交易 保证 AL0 独立服务器 除部分服务器有冗余电源,风扇外, 突然宕机,业务停顿,不能保证数据的完 其他部件没有冗余保护 整性
不同技术的可靠性对比
方案可靠性 99.999%
Continuous Processing®
Failsafe Software
软件可靠性
瞬时硬件故障通过软件屏蔽掉 强化的驱动程序可预防软件故障
Continuous Processing® Systems
故障预防
软件的问题被可靠地捕捉、分析和 纠正
内存和硬盘中的数据均被可靠地保 护 高度地集成;错误防真测试
Stratus的合作伙伴
在操作系统可靠特性上密切合作
内存重新同步 强化驱动程序
支持核心业务应用程序的模式 ftServer® 服务器被布署在 Redmond 测试实验室中
长期良好的合作计划 可以提前使用最新芯片进行整合测试 ftServer® 服务器被布署在 intel实验室中
V090402
Continuous Availability Operational Simplicity Financial Advantage
The Stratus® ftServer® W Series Family
The Smarter Approach to Uptime™
容错概念

按时间划分的故障的分类
X 1+1=?
SNP SSP Passive Backplane SNP SSP
CPU MEM I/O
Disk
1+1=? 2
2
任何一块CPU板上的任何部件损坏,都不会影响系统的正常运 行。正在进行的运算和操作会象没发生问题一样继续下去。
如果I/O板再出问题呢?
CPU/MEM 板
I/O
I/O 板
Disk
Clusters, Mainframes 灾难恢复
ftServer 灾难预防
“Why choose a server designed to recover from a failure, rather than a server designed not to fail?”
Vernon Turner, IDC
Continuous Processing® Systems
TMR
6600
Duplex Expansion I/O
PCI
CPU N-way SMP Chipset
CPU N-way SMP Chipset Memory Stratus SNP ASIC
Байду номын сангаас
CPU N-way SMP Chipset
6600 Series PCI
AL0 - 1 Conventional Servers
International Date Corp. (IDC)
服务器可用性级别的定义
可用性级别 AL4 (连续可用) 系统保护性能 系统内部 100%的部件和功能冗余 部件损坏对客户的影响 系统对用户充分透明; 业务不会中断;交易 数据不会丢失;不影响系统性能
容错技术发展
专有容错系统 软件容错系统
硬件容错系统
单机
60‘
双机
70‘ 80‘
Cluster
90‘
集群
2000‘
Stratus 的容错产品线
Continuum VOS UNIX & ftServer V-Series ftServer T-Series/L-Series ftServer W-Series Windows-based solution Telco/Enterprise Linux Solution VOS UNIX solution HP UNIX
Second Generation ftServer® Family
Memory Stratus SSP ASIC Stratus SNP ASIC
Memory Stratus SNP ASIC Stratus SSP ASIC
6600
Passive Backplane
参与相同计算的冗余部件保证了系统远离停机
正常工作的容错机
CPU/MEM 板
CPU MEM I/O
I/O 板
Disk
2 1+1=?
SNP SSP Passive Backplane SNP SSP
CPU MEM I/O
Disk
1+1=? 2
所有运算在不同板上同时进行
当CPU板出问题时…
CPU/MEM 板
CPU MEM I/O
I/O 板
Disk
ftServer 6600 TMR
Assured Availability
意外的机器硬件、系统软件或操作 系统故障 Stratus 从服务费中作出适当补偿
任何在 Assured Availability Plus service agreement 内的 ftServer
补偿
产品
与集群技术的对比 —— 1
预防、诊断并解决软件问题
强化驱动
容错操作
Prevent Outages
透明的 I/O 切换
完善的热插拔支持
系统保护
错误诊断和隔离 PCI 总线保护
驱动模式
在线诊断 主动式维护接口
兼容 Microsoft® WMI
驱动模式
ftServer® Failsafe软件结构
Failover Drivers NT OS KERNEL PCI Drivers Stratus® Hotplug Driver
ftServer® 服务器被布署在EMC认证实验室中 EMC CLARiiON® 的代理关系 合作支持模式
Continuous Processing®
锁步技术(Lockstep Technology)
硬 件 冗 错
DMR 6600
Duplex Core I/O Lockstep CPUs
ftServer® 可靠性指标 99.999+%(不受任何其它因素的影 响,实际统计结果为99.9997%) 通过系统内部冗余部件配合先进的 锁步技术防止故障,不依赖于其它 软件。结构简单直观。 集群技术 99.9%~99.99%(具体水平依赖于实施水平、 应用类型、数据规模、切换原因等许多不确定 因素) 使用两套或两套以上的计算机、磁盘阵列甚至 光纤交换机等通过复杂的拓朴结构再配合以 Cluster软件来实现故障恢复。结构复杂。
Jay Bretzmann Director of IBM’s xSeries Marketing
Stratus Technologies
•1980 -- 硬件级容错计算机系统厂商Stratus成立
•1981 -- 首先推出基于硬件的容错计算机系统
•1988 -- 建立世界上第一个提供24小时服务的远程 服务网 •1990 — 推出世界上第一个容错的 UNIX 操作系统 - FTX •1991 -- 推出 RISC 结构的 XA/R 系列容错计算机 系统 •1995 -- 推出 RISC 结构的 Continuum 系列容错 计算机系统 •1997 -- 推出容错的 HP-UX 操作系统 •2001 -- 推出世界上第一台 Windows 2000 硬件容 错服务器 ftServer
HA 与 CA 的区别
HA
选择新平台
交易丢失
业务延滞
故障出现
故障恢复
CA
容错服务器的可靠性数学基础
CPU I/O
CPU
I/O
集群技术的 可靠性数学模型 ------提高可靠性 避错设计
平行式结构
CPU
CPU
I/O
I/O
容错技术的 可靠性数学模型 ------连续可靠性 容错设计
相关主题