首页 理论教育 HPC集群机房建设的可靠性和可用性分析

HPC集群机房建设的可靠性和可用性分析

时间:2023-11-23 理论教育 版权反馈
【摘要】:随机故障期是系统的实际使用期,也是系统可靠性建模和分析最关心的时期。可靠图模型的可靠性、可用性分析同可靠性框图法。状态法基于状态及状态之间的变化关系来确定系统的可靠性和可用性。·基于Markov链的每一个状态的稳态概率进行系统的可靠性和可用性分析。

HPC集群机房建设的可靠性和可用性分析

明确可靠性可用性的定义之后,可靠性和可用性分析的分析方法就显得尤为重要。

2.2.3.1 可靠性特性

可靠性的理论和实践表明,在一个系统的整个寿命周期中,系统的失效率随时间的变化规律可以用的著名的浴盆曲线(如图2-2所示)来描述。

图2-2 失效率的浴盆曲线

在图2-2中,系统的寿命周期可以分为下列三个阶段。

(1)第一阶段是早期故障期。这一阶段主要由于元器件质量差、工艺不好、设计欠佳等原因造成。这一时期常称为调试期。随着调试的进行,早期故障被不断排除。

(2)第二阶段是随机故障期。在这一阶段中,故障很难确定,它们可能由于器件单元参数的突变、工作环境的变化等引起。这一时期是正常工作的时期,失效率不随时间的变化而变化。

(3)第三阶段是损耗故障期。随着系统运行时间越来越长,元件开始老化,失效率不断增大,系统进入损耗故障期。

随机故障期是系统的实际使用期,也是系统可靠性建模和分析最关心的时期。由于这期间系统的失效率基本恒定,则可得到:

R(t)=e-λt

式中,λ为系统处于随机故障期的失效率。

2.2.3.2 可靠性和可用性分析方法

在可靠性发展的过程中,为了对系统进行可靠性和可用性的定量和定性分析,人们提出了许多分析方法。其中模型分析方法因为其优越性而脱颖而出。1961年,贝尔实验室首次提出故障树分析方法。Markov过程是苏联数学家发现的,在1951年被引入可靠性的分析中。20世纪60年代出现了Petri网模型。这些方法的出现极大地促进了系统的可靠性研究。在随后几十年的发展中,又出现了各种各样的分析方法,如随机回报网模型、Markov回报模型、广义随机Petri网模型等。这些众多的模型分析方法主要可以归结为两类:一类是组合法,另一类是状态法。表2-1是可靠性分析方法分类。

表2-1 可靠性分析方法分类

(1)组合法。

组合法是基于系统和组成器件之间的逻辑关系的一种分析方法,是较早出现的对系统进行可靠性分析的方法,主要包括可靠性框图法、可靠图法和故障树分析方法。

①可靠性框图法。可靠性框图法利用串、并联的形式来表示系统与器件之间的逻辑关系。它有串联和并联两种基本结构。串联表示当其中任意一个元件发生故障时,系统就会发生故障(如图2-3所示),而并联表示只要其中有一个元件正常,系统就可以正常工作(如图2-4所示)。

图2-3 串联结构

图2-4 并联结构

②可靠图法。可靠图模型由一系列的节点和边组成。边代表组成系统的器件。器件的失效在模型中通过切断相应的边来表现。它有一个源节点(没有输入)和终止节点(没有输出)。当源节点和终止节点之间没有可通达的路径时,系统便发生故障。如图2-5所示的模型是一个含有A、B、C、D、E五个器件的系统。可靠图模型的可靠性、可用性分析同可靠性框图法。(www.xing528.com)

图2-5 可靠图模型

③故障树分析方法。故障树是用由各种逻辑门组成的树状结构来表示基本器件与系统之间的故障逻辑关系。在故障树模型中。经常使用的逻辑门有与门、或门和k/n门(表决门)。它把组成系统的器件作为底事件,而系统的正常与否作为顶事件。通过演绎方法来建立系统的故障树。一般有两种方法。

·自上而下的方法:从顶事件出发,通过寻找发生故障的原因而得到故障树。

·自下而上的方法:从底事件出发,通过研究器件的状态会产生什么样的结果来得到故障树。

图2-6是一棵由与门和或门构成的故障树模型。

图2-6 故障树模型

(2)状态法。

状态法基于状态及状态之间的变化关系来确定系统的可靠性和可用性。它利用随机过程的理论来进行分析。

目前主要有两种经常使用的方法:一种是基于Markov过程的方法,另一种是基于Petri网的方法。这两种方法在应用过程中又派生出了许多方法,如Markov回报模型(Markov Reward Model,MRM)、随机Petri网(SPN,1982年)、广义随机Petri网(GSPN,1984年)、随机回报网(SRN,1993年)。

①基于Markov过程的方法。Markov过程是一种特殊的随机过程。系统的当前时刻的状态只与前一时刻的状态有关,而与其他任何时刻的状态无关。分为有离散模型和连续模型。图2-7分别是具有两种状态的离散和连续Markov模型。图2-7中,用圆圈代表系统所处的状态,带有权值的有向弧表示系统以权值大小的转移率从一个状态转移到另一个状态。离散模型只在离散的时刻发生转移,并且从每个状态转移出去的概率和为1。在连续Markov模型中,不存在自环。

图2-7 Markov模型

②基于随机Petri网的方法。Petri网模型于1961年由德国的Petri博士在他的博士论文中首次提出。当时,他用Petri网对自动机通信进行了描述,取得了很大的成功。Petri网一经提出,立即引起了工业界和学术界的广泛关注。经过近半个世纪的发展,Petri网已发展成为一套完整的理论。Petri网模型是一种图形化的建模工具,为描述和研究具有并行、异步、分布式和随机性等特征的系统提供了强有力的手段。它有位置(图中用圆圈表示)和变迁(图中用矩形条或粗线段表示)两种元素。位置中含有一定数量的标记(用圆点或整数表示)。位置和变迁之间用有向弧连接。变迁按一定的规则发生,并引起标记在位置中流动来描述系统的动态行为。图2-8是—个简单系统的Petri网模型。

Petri网模型通过相应的Markov链来求解:

·给出系统的Petri网模型。

·构造出同构的Markov链,图2-9是与图2-8的Petri网模型同构的Markov链。

·基于Markov链的每一个状态的稳态概率进行系统的可靠性和可用性分析。

图2-8 Petri网模型

图2-9 Markov链

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈