故障管理(Fault Management)是网络管理中最基本的功能之一。故障管理功能,包括所有由网络管理员用来诊断、测试和维修网络故障的产品和过程。故障管理的最终目标是能够快速定位网络故障点或潜在故障。因此,网络管理人员通过故障管理,实现对以下内容的管理。
1)快速定位和孤立故障。有些故障可能还并没有影响到用户对网络的使用。
2)赋予故障排除和维修任务高优先权。
3)及时地以报告的方式回答不可避免的用户问题和请求。
总之,网络故障管理通过某些硬件、软件及管理过程来提醒网络管理人员网络中存在的故障,并帮助网络管理人员排除故障,恢复网络的正常运行。同时允许网络管理人员使用容错或冗余硬件和软件,在网络出现故障时,仍能保证提供网络服务。
一个可靠的网络系统是每一个网络管理人员所追求的。当网络某个部分失效时,其理想的处置方案就是网络管理系统能够迅速定位故障后及时排除。不过,通常不大可能迅速隔离某个故障,因为网络故障的产生原因往往相当复杂,特别是由多个网络共同引起的时候。在此情况下,一般先将网络修复,然后再分析网络故障的原因。分析故障原因,对于防止类似故障的再次发生相当重要。
网络故障管理的功能包括三个方面:故障检测、故障隔离和故障排除。具体的功能如下。
1)维护并检查网络故障与错误日志。
2)接受并响应网络故障与错误检测报告。
3)跟踪、辨认网络故障与错误。
4)执行诊断与测试网络故障与错误。
5)排除网络故障或纠正错误。
对于不太严重的网络故障与错误,通常被记录在错误日志中,并不作特别处理。而那些严重一点的故障与错误,则需要通过网络管理系统采取妥当的处理,最简单的就是所谓的“报警”。一般来说,网络管理系统都应根据有关信息对网络的故障与错误“报警”进行处置,最好能及时地排除故障。当故障比较复杂时,网络管理系统应能执行一些其他诊断测试来辨别故障原因,以便能够更加准确地定位故障,鉴别错误原因,采取具有针对性的方法排除故障。(www.xing528.com)
在网络故障管理中,常常会用到以下工具。
1.网络管理系统
网络管理系统都是软硬件结合的集成系统。该系统能够跟踪网络中每一部分的工作状态和相关的操作。网络管理系统通常包括一个网络控制台,在该控制台计算机的屏幕上都涉及一些用于显示网络故障设备的窗口和一个有声提示的报告网络故障与错误的设备,如蜂鸣器。网络中的所有可管理的设备,均要通过一个特定的协议,如简单网络管理协议和公共管理信息协议与网络管理控制台进行通信,由网络控制台收集并控制网络中任何一个设备的工作状态。
2.协议分析器
协议分析器是一个硬件与软件工具,用来监视网络上的通信。这个工具可以帮助网络管理人员了解网络的通信状况和具体的数据格式,并通过辨别每次通信协议是怎样工作的,了解在网络中所发生的复杂的通信过程,从中找到网络可能存在的问题。
3.电缆测试器
电缆测试器是一种硬件设备,用于检测网络传输媒介的故障。根据电缆类型的不同,电缆测试器不仅能够确定出故障的电缆,而且能够确定具体的故障点。
4.冗余系统
冗余系统是与网络中某一或某些设备或系统完全相同的设备。使用冗余系统的目的是当网络出现故障或严重错误时,可在用户没有察觉的情况下保证网络照常工作。例如,网络中常用的镜像文件服务器,就是一个典型的冗余系统。它存取与主文件服务器完全相同的数据。如果它们中任何一个文件服务器发生故障,另外一个可以继续为网络用户提供文件服务。
5.数据档案和备份设备
数据档案和备份设备并不能帮助网络管理人员检测故障,但是可以大大地减少故障或严重错误对网络的影响。如果网络中配置有一个合适的备份过程,并且坚定地执行它,那么网络系统将能够很快地从硬盘故障、网络病毒及许多错误中恢复过来。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。