性能、价格和可靠性是评价一个网络系统的三大要素,为了提高网络系统的可靠性,人们进行了长期的研究,并总结了两种方法。一种叫作弊,试图构造一个不包含故障的“完美”的系统,其手段是采用正确的设计和质量控制尽量避免把故障引进系统,要完美地做到这一点实际上是很困难的。一旦系统出现故障,则通过检测和核实来消除故障的影响,进而自动地或人工地恢复系统。另一种叫作容错,所谓容错是指当系统出现某些指定的硬件或软件的错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中断或被修改,并且执行结果也不包含系统中故障所引起的差错。
容错的基本思想是在网络系统体系结构的基础上精心设计的,利用外加资源的冗余技术来达到消除故障的影响,从而自动地恢复系统或达到安全停机的目的。
人们对容错技术的研究开始很早,1952年冯·诺依曼(Von.Neuman)在美国加利福尼亚理工学院做了5个关于容错理论研究的报告,他的精辟论述成为日后容错研究的基础。
最初,人们从用4个二极管进行串并联代替单个二极管工作可以提高可靠性这一事实中得到启发,研制出4倍冗余线路;从多数元件表决的结果较为可靠这一事实总结出三模冗余和Ⅳ模冗余结构;在通信中发展起来的纠错码理论也被很快地吸收过来以提高信息传送、存储以及运算中的可靠性。20世纪60年代末,出现了以自检、自修计算STAR为代表的容错计算机,标志着容错技术从理论上和实践上进入了一个新时期。
20世纪70年代是容错技术研究蓬勃发展的时期,主要的成果有电话开关系统ESS系列处理机、软件实现容错的SIFT计算机、容错多重处理机FTMP和表决多处理机C.vmp等。
20世纪80年代是VLSI和微计算机迅速发展和广泛应用的时代,容错技术的研究也随着计算机的普及而深入到整个工业界,许多公司生产的容错计算机,如Stratus容错机系列、IBMSystem88和Tandem16等已商品化并进入市场。人们普遍认为,把容错作为每个数字系统的一个重要特征的时代已经到来,容错系统的结构已由单机向分布式系统发展。
随着计算机网络系统的进一步发展,网络可靠性变得越来越重要,其主要原因如下。
(1)网络系统性能的提高,使系统的复杂性增加,服务器主频的加快,将导致系统更容易出错,为此,必须进行精心的可靠性设计。
(2)网络应用的环境已不再局限于机房,这使系统更容易出错,因此,系统必须具有抗恶劣环境的能力。(www.xing528.com)
(3)网络已走向社会,使用的人也不再是专业人员,这要求系统能够容许各种操作错误。
(4)网络系统的硬件成本日益降低,维护成本相对增高,则需要提高系统的可靠性以降低维护成本。
因此,容错技术将向以下几个方向发展。
1)随着超大规模集成电路(Very Large Scale Integration,VLSI)线路复杂性增高,故障埋藏深度增加,芯片容错将应运而生,动态冗余技术将应用于VLSI的设计和生产。
2)由于网络系统的不断发展,容错系统的结构将利用网络的研究,在网络中注入全局管理、并行操作、自治控制、冗余和错误处理是研究高性能、高可靠性的分布式容错系统的途径。
3)对软件可靠性技术将进行更多的研究。
4)在容错性能评价方面,分析法和实验法并重。
5)在理论研究方面将提出一套容错系统的综合方法论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。