随着计算机网络技术应用的不断深入发展,人们对计算机网络的依赖已经无法改变。因此对网络的可靠性要求必将越来越高,网络的可靠性问题已经成为网络系统必须很好解决的首要问题,否则,一旦网络发生故障,将会造成巨大的经济损失和社会影响。据有关资料统计,美国大公司的网络系统故障率大约是6%,网络故障不但加剧了网络维护成本的增长,并且由于网络故障每年造成的各类损失也是相当巨大的。
我国的网络技术应用起步较晚,由于各种原因,在建设网络的过程中,考虑比较多的是网络的实用功能,即着重于网络基本的共享能力与通信能力的开发和应用,而对网络的可靠性问题考虑得一般都很有限,好一点的网络系统也只是充分利用了一些网络操作系统支持的服务器节点的容错能力,如磁盘双工、双机容错等,而对一个网络系统整体的可靠性设计问题仍然有不少的误区。以下从应用的角度,结合当前比较新的网络可靠性技术,介绍如何建立一个高可靠性的网络应用系统的基本策略和方法。
1.网络故障分析
网络系统是一个由众多计算机和网络设备,以及网络系统软件构成的复杂的集成系统。网络的故障包括网络系统所有部分可能出现的故障。也就是说,网络系统中的每一个部分都是故障可能的“发生地”。网络故障可以是由于组成网络的各个部分本身的缺陷引起的,也可以是所设计的网络的系统结构的缺陷造成的。然而,要想找出对付故障的措施,首先必须弄清楚网络故障发生的现象和原因。
根据网络故障出现的部位,网络故障分为下面几类。
(1)网络电缆故障
连接网络各个部分的是电缆,无论是光纤电缆、同轴电缆或双绞线,还是组合式布线系统,都有可能出现各种各样的故障。造成这类故障的主要问题有以下几点。
1)电缆线的电气指标达不到工程要求,信号衰减过度,引起网络的通信故障。
2)由于电缆的连接不良,如插头虚接、松落等,造成网络通信断路。
3)电缆线受到外界侵蚀造成的老化,或受到过大机械力而造成的电缆损坏。
若损坏的电缆仅连接一个独立的网络设备,这类故障比较容易查找和定位,并且修复也比较简单;但如果损坏的电缆连接着多个网络设备,这类故障的诊断和定位将相当困难。
(2)网络单元故障
网络单元故障,指由网络交换机、网络桥接器、网络路由器、网络中继器、网络多路复用器和网络控制器等网络单元故障造成的网络故障。由于网络上的各个单元担负着不同的重要任务,它们的故障往往造成整个网络的严重故障,甚至瘫痪。因此,网络单元的可靠性对于一个网络系统来说是至关重要的。
现在网络设计中普遍采用的网络交换机可靠性较高,确实减少了接线等其他故障,但交换机同其他网络单元一样,自身问题也将可能造成网络致命的故障。交换机的故障一般出现在控制模块、电源部分以及接线插座等地方。对其他网络单元来说,各种针式结构的连线插座与插头都是容易出故障的地方,这类故障看起来简单,但危害却很大。
(3)网络部件故障
网络部件通常指网络适配器(网络接口板),又称网卡。网卡故障也是网络经常出现的故障之一。对于一个大型网络,当网卡出现故障时,查找故障点往往就像大海捞针一样困难。若再加上网络单元的故障,使网络故障的检修相当艰难。
(4)通信线路故障
构成广域网的通信基础是专用通信线路或公共数据交换线路,通信线路的任何故障,都将迫使广域网络不能正常工作。
(5)网络服务器故障
网络服务器是网络系统的中心,它的任何故障直接影响着整个网络系统的正常运作。服务器故障最常出现的部位有硬盘控制卡、硬盘、服务器电源和主板。
(6)网络供电系统故障
网络供电系统的故障将使网络不得不停止运转。
(7)网络结构故障
由于网络结构设计上的缺陷或不合理所造成的故障,轻者将降低网络系统运作效率,重者将使网络系统瘫痪。
2.网络容错设计策略
到目前为止,还没有任何一种技术可完全消除网络故障,故一般采用多级容错系统设计方法提高网络的可靠性。当网络出现故障时,网络的容错系统可确保网络继续正常运行。这种网络容错系统的建立,是当前对付网络故障的基本对策和方法,它对于大中型网络是至关重要的。否则,频繁的网络故障将使网络无法正常运行,无疑将大大增加维护网络的费用。(www.xing528.com)
网络容错系统通过多级容错技术加以实现,使网络具有一定的自我保护和自愈能力,当网络出现多种故障时,容错技术使网络仍能正常工作,损坏的部分无需立即修复或更换,这样就可使网络管理与维护人员可根据轻重缓急加以处理,从而减少了对网络管理技术人员的需求,降低了维护网络的成本。
目前,网络容错系统主要是针对上一节所提到的网络常见故障而采取的措施,并已经形成了一整套成熟的容错解决方案以及有效的技术和产品。容错的级别一共有七级,各级容错的具体要求如下。
(1)第一级容错:电缆容错
电缆容错采用的主要方法是使用双线或多线容错网络收发器。一般是在网络的主干线或重要的支线上布置双线或多线。当主电缆线路发生断路时,容错网络收发器可自动切换到另一根备用的电缆线上,以保证网络的正常运行。为了降低电缆线路同时损坏的可能性,可考虑沿着不同的路径分别布线,使同一主干电缆(双线或多线)在不同的路径上布线;现代计算机网络推崇采用交换机作为控制单元,构成星形网络结构,可降低由于线路插头接触不好所引起的网络故障率。
(2)第二级容错:网络部件容错
通常在设计网络设备时都是采用一次到位的整机方式,网络设备的故障实际上是网络设备部件的故障。当该设备中的任何一个部件出现问题时,将使网络交换机不能正常工作,导致与此连接的所有客户机脱离网络系统。因此,现在大多数网络设备均采用智能化模块设计方式,网络设备由无源主板、双(或多)容错电源机箱和具有各种功能的插件板组成,且主要的插件(板)均可双或多板配置,当其中一块模块出现故障时,可自动切换另一块接替工作,从而实现了部件级的容错。一般情况下,用户可根据应用的需要选择相应的部件,组合成各种不同用途的具有一定容错水平的网络设备。此外,实验表明,优秀网卡的平均故障间隔时间均在几十年以上,所以部件级的容错不考虑网卡的故障(廉价的兼容网卡另论)。
(3)第三级容错:网络单元容错
非智能化的网络单元,如网络集线器、非管理型交换机、网络多路复用器、网络收发器和网络控制器等都不具备容错能力。原则上,目前流行的“智能网络设备”具有一定的设备间的容错能力,这类智能化的网络设备的基本功能就是保证当一台设备出现故障时,自动切换到另一台设备上,使网络系统能正常运行。
实现多台设备容错的方式是多种多样的,可以构成主从容错方式,也可设计成平等容错方式或混合容错方式。到底采用哪一种方式,要根据具体的网络设备和对容错水平的要求而定。注意,网络单元容错的实现,不仅需要网络,也要相关设备同时容错的能力,并且需要网络管理员进行周密的策划和配置。
(4)第四级容错:通信线路容错
通信线路容错的方法比较简单,一般采用双通信线路和双公共数据交换网容错端口,并在端口处使用智能网络接口设备,以实现双路式通信线路容错。当一条通信线路出错时,网络可自动切换到另一条线路上继续工作。
(5)第五级容错:网络服务器容错
关于网络服务器容错有两种解决方案:一是,服务器厂商设计网络服务器时,就采用多种容错手段,使服务器具有很强的容错能力。如服务器采用双容错电源、RIAD硬盘容错系统等措施;二是,把网络服务器的容错能力与网络操作系统联系在一起考虑,即采用具有容错处理能力的网络操作系统,现在最有影响的Windows 2000 Server系列网络操作系统中,Advance Server版就具有三级容错能力,即磁盘镜像、磁盘双工、双服务器和多服务器镜像或热备份服务器功能。
(6)第六级容错:网络管理容错
使用网络管理软件可对网络系统进行监视和控制,随时掌握网络系统的运行状态,并可检测和确定网络故障的种类、发生地点、作用范围及危害程度等。实践表明,网络管理软件是网络管理人员的得力助手,在及时准确查找和分析故障,排除故障等方面起着十分重要的作用,越来越受到网络管理者的重视和欢迎。因此,网络管理软件已经成为大中型网络系统中不可缺少的网络工具,利用它可大大缩短排除网络故障的时间,不仅提高了网络的可靠性,也大大降低了维护网络的费用。
(7)第七级容错:网络中心容错
对于超大型网络系统,考虑到天灾人祸和其他外来因素的影响和破坏,要求在不同地域建立主从或平等关系的两个或多个网络控制和管理中心,其中一个网络中心的灾难不会影响整个网络系统的正常运转,同时,网络中心之间采用广域容错技术来解决网络中心之间的容错问题。
3.网络容错设计中应注意的问题
以上分析了网络常见故障以及对付故障的相应对策,但在实际的网络可靠性设计时,还需对以下问题加以注意。
1)要根据实际的要求与具体的应用场合合理地采用容错技术。因为网络系统的可靠性是以提高网络造价成本为代价的,更高的网络可靠性意味着更大的资金投入,盲目地采用容错技术,造成的经济损失往往是相当大的。所以网络可靠性的设计是一件非常重要而困难的工作。
2)要在采用哪一级网络容错与一旦网络发生故障可能带来的损失之间客观地加以权衡,因为用于加强网络可靠性的代价,很有可能远远大于新建一个普通网络系统的费用,甚至超过了故障本身带来的损失。所以,一般采用折中的办法,即只在一些关键部位采取相应的网络容错技术措施,而不会影响到整个网络系统的其他部分,可降低相应的可靠性容错要求,这样不但大大减小了灾难发生的可能性,又节约了相当多的资金。
从实际应用的角度看,网络的关键部位有关键的数据驻留点、网络主干线路、网络主干通信线路、网络控制中心或单元、服务器系统等。因此,一般网络可靠性容错设计,都是针对上述关键部位进行的。
3)网络的可靠性容错设计,应从对网络传输介质、连接部件与配件以及各种网络设备的选择开始,从严挑选质量可靠,性能稳定的网络器材与设备,不可盲目追求新技术,但也不可放弃那些的确可靠有效,并可简化网络容错解决方案的最新技术。
总之,在高质量地完成了网络的规划和基本设计之后,还必须再对网络进行必要的可靠性分析,并采取相应的对策,经过精心的实施,才能建设好一个可靠的高性能实用化网络系统。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。