(一)熵权系数法基本原理
熵权系数法[13]是根据熵的概念和性质,把多目标决策评价各待选方案的固有信息和决策者的经验判断的主观信息进行量化和综合,进而建立基于熵的多目标决策评价模型,为多目标决策提供依据。
1.熵的基本概念
熵的概念源于热力学,表示不能用来做功的热能,其计算方式为热能的变化量除以温度所得的熵,后由申农(C.E.Shannon)引入信息论,现已在工程技术、社会经济等领域得到了广泛的应用,是一种多目标决策的有效方法。在信息论中,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量,两者绝对值相等,符号相反,当系统可能处于n种不同状态且每种状态出现的概率为pi (i=1,2,…,n)时,该系统的熵为:
其中
显而易见,某个指标的信息熵越小,标明其指标值的变异程度越大,提供的信息量越大,在综合评价中所起的作用就越大,则该指标的权重也应越大;反之,某个指标的信息熵越大,标明其指标值的变异程度越小,提供的信息量越小,在综合评价中所起的作用就越小,则该指标的权重也应越小,所以可以根据各个指标值的变异程度,利用信息熵这一工具计算各指标的权重,为多准则综合评价提供可靠的依据。
2.熵权系数法评价模型
熵权系数法评价模型建模步骤如下。
步骤1:设有n个待评价的样本,每个样本有m个评价指标,则根据实测数据构造评价指标特征值矩阵X:
步骤2:按照各评价指标的分级标准,将上述矩阵转化成定额矩阵X′:
步骤3:计算第i 个评价指标下第j 个待评价样本的评价指标特征值比重:
步骤4:计算第i 个评价指标的熵:
步骤5:计算第i 个评价指标的权重:
步骤6:计算各样本的综合评价值:
步骤7:按Wj 由大到小,对各个样本进行优劣排序。
以上7个步骤构成了熵权系数法评价模型,该模型在投资项目风险决策[14]、软件产业发展战略[15]及水体富营养类型评价[16]等领域中得到了很好的应用,但至今尚无人将之用于地下水脆弱性评价。
(二)基于实码加速遗传算法的投影寻踪模型[17]
投影寻踪模型(ProjectionPursuit Model,PP)是用来处理和分析高维数据的一种探索性数据分析的有效方法,其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维子空间上,并通过极小化某个投影指标,寻找出能反映高维数据结构或特征的投影,在低维空间上对数据进行分析,以达到研究和分析高维数据的目的[18]。该方法主要有以下几个特点:成功地克服了高维数据的“维数祸根”带来的严重困难;排除了与数据结构和特征无关的或关系很小的变量的干扰;使用一维统计方法解决高维问题[19]。
1.投影寻踪分类模型的建模方法
PPC(ProjectionPursuit Classification Model,PPC)模型是投影寻踪模型的一种,其建模步骤如下。
步骤1:构造投影指标函数Q(a)。
PPC方法就是把p 维数据{x*(i,j)|j=1~p}综合成以a={a(1),a(2),a(3),…,a(p)}为投影方向的一维投影值:
步骤2:优化投影指标函数。
当各指标值的样本集给定时,投影指标函数Q(a)只随着投影方向a 的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向,因此可以通过求解投影指标函数最大化问题来估计最佳投影方向。
最大化目标函数:
约束条件:
步骤3:分类(优劣排序)。
把由步骤2求得的最佳投影方向a*代入式(3-10)后可得各样本点的投影值z*(i)。将z*(i)与z*(j)进行比较,二者越接近,表示样本i 与j 越倾向于分为同一类。若按z*(i)值从大到小排序,则可以将样本从优到劣进行排序。
2.密度窗宽的确定
当采用标准差和局部密度来构造投影指标函数时,投影寻踪聚类模型中唯一的参数便是密度窗宽,它的选取既要使包含在视窗内的样本点个数不能太少,以免样本滑动平均时的偏差太大,同时也不能使它随样本数目的增大而增加太大。对于某一样本群体,要得到合理的分类结果就必须选择合理的密度窗宽。从另一角度分析,在一定范围内不同的密度窗宽取值必然得到不同的投影方向向量,也就是从不同方向观测数据样本所暴露的特性,就有可能得到不同的结果,希望找出最能反映样本重要特征的最优投影方向。因此密度窗宽的取值在投影寻踪聚类模型中非常关键,它的取值合理与否直接关系到样本分类结果的合理与否。目前大多是通过试算来确定,或通过样本投影值标准差乘以某一百分数来计算[19],但都缺乏理论依据,不便于模型在实际工程中推广应用。下面将从模型的数学构造来研究密度窗宽的特性及合理取值[20]。
图3-2 投影特征值z 随R 变化关系(p=6)
图3-3 投影特征值z 随R 变化关系(p=3)
遗传算法是基于自然选择和基因遗传学原理、模拟生物在自然环境中的遗传和进化过程的一种自适应启发式迭代寻优的概率性搜索算法,可以较好地解决各种非线性优化问题的全局最优性、鲁棒性和并行运算性等问题[22]。
基于实数编码的加速遗传算法包括以下几个步骤。一般优化问题多为如下最小化问题:
式中:f 为优化的目标函数。
步骤1:优化变量的实数编码。采用如下线性变换:
式中:p 为优化变量的数目。(www.xing528.com)
式(3-17)把初始变量区间[a(j),b(j)]上的第j 个待优化变量x(j)对应到[0,1]区间上的实数y(j),y(j)即为RAGA中的遗传基因。
步骤2:父代群体的初始化。设父代群体规模为n,生成n 组[0,1]区间上的均匀随机数(简称随机数),并将之作为初始群体的父代个体值y(j,i)。把y(j,i)代入式(3-17)得优化变量值x(j,i),再经式(3-16)得到相应的目标函数值f(i),并将函数值从小到大排序,称排序后最前面的k 个个体为优秀个体,使其直接进入下一代。
步骤3:计算父代群体的适应度评价。评价函数用来对种群中的每个染色体y(j,i)设定一个概率,以使该染色体被选择的可能性与其种群其他的染色体的适应性成比例。染色体的适应性越强,被选择的可能性越大。
每个染色体y(j,i)计算累积概率qi,i=0,1,2,…,N,
重复步骤2和步骤3 共N 次,这样可得到N 个复制的染色体,组成新一代个体。
步骤5:对父代的种群进行杂交操作。首先定义杂交参数pc 作为交叉操作的概率。从i=1 到N 重复以下过程:从[0,1]中产生随机数r,如果r<pc,则选择y(j,i)作为一个父代,并把它们随机配对。当父代个体数为奇数时,可以去掉一个染色体,也可以再选择一个染色体,以保证两两配对。对每一后代的可行性检验,仅用可行的后代取代其父代。当新一代个体不可行时,也可采取一些修复策略使之变成可行染色体。
经过以上杂交操作产生第二代群体{y2(j,i)|j=1,2,…,p;i=1,2,…,n}。
步骤6:进行变异操作。定义变异参数pm作为遗传系统中的变异概率。进行变异的父代选择过程与交叉操作相似,由i=1~N,重复下列过程:从区间[0,1]中产生随机数r,如果r<pm,则选择染色体y(j,i)作为变异的父代,对每一个选择的父代用y′3(j,i)表示,按下面的方法进行变异。在Rn中随机选择变异方向d,则:
若上式是不可行的,那么置M 为(0,M)上随机数,直到可行为止,这样能够保持群体的多样性。其中M 是足够大的数。如果在预先给定的迭代次数内没有找到可行解,则置M=0,无论M 为何值,总用:X=y′3(j,i)+Md 代替y′3(j,i)。
步骤7:演化迭代。由前面的步骤4~6得到的3n个子代个体,按其适应度函数值从大到小进行排序,选取最前面的n-k个子代个体作为新的父代个体种群。算法转入步骤3。
步骤8:上述7个步骤构成标准遗传算法(Standard Genetic Algorithm,SGA)。由于SGA不能保证全局收敛性,在实际应用中常出现在远离全局最优点的地方SGA即停滞寻优工作,即陷入局部最优。为此,可以采用第一次、第二次进化迭代所产生的优秀个体的变量变化区间作为变量新的初始变化区间,算法进入步骤1,重新运行SGA,形成加速运行,则优秀个体区间将逐渐缩小,与最优点的距离越来越近。直到最优个体的优化准则函数值小于某一设定值或算法运行达到预定加速次数,结束整个算法运行。此时,将当前群体中最佳个体指定为RAGA的结果。
上述8个步骤构成基于实数编码的加速遗传算法(Real coding based Accelerating GeneticAlgorithm,RAGA),有效地克服了标准遗传算法的寻优效率明显依赖于优化变量初始化区的大小的缺点,同时还克服了标准遗传算法因使用二进制编码而带来的种种不便,极大地提高了运算效率。
RAGA与传统优化方法相比,具有以下一系列优点:
(1)遗传算法是群体寻优,因而可以防止搜索过程收敛于局部最优解,从而得到全局最优解。
(2)遗传算法通过适应函数来选择优秀种群,但对适应函数基本无限制,对问题本身的依赖性较小,因而具有很好的鲁棒性,应用范围广。
(3)遗传算法的每步搜索都利用已有寻优信息来进行,并把搜索到的优秀信息遗传到下一代,而把适应度差的信息予以淘汰,因而它是一类自适应优化方法。
(4)RAGA适合于在遗传算法中表示较大的数,适合于精度要求较高的遗传算法,便于搜索较大空间的遗传算法,便于遗传算法与经典优化方法混合使用,便于设计针对问题的专门知识型遗传算子,便于处理复杂的决策变量约束条件。
(5)RAGA有效地克服了标准遗传算法的寻优效率明显依赖于优化变量初始化区间大小的缺点,同时还克服了标准遗传算法因使用二进制编码而带来的种种不便,极大地提高了运算效率。
4.基于RAGA的PPC模型
将PPC模型中投影指标函数Q(a)求最大作为目标函数,各个指标的投影a(j)作为优化变量,运行RAGA上述8 个步骤,即可求得最佳投影方向a*(j)及相应的投影值z(i),将z(i)按其值大小进行比较,从而求得评价结果。
(三)多目标模糊模式识别模型
以下介绍多目标模糊模式识别模型[23]的建立过程。
现有多目标决策问题,包含n个可供选择的方案,每个方案中有m个目标,则构成n个方案m个目标评价的特征值矩阵:
式中:xij为方案i 中第j 个目标的特征值。
在矩阵X中有两类目标,一类是目标特征值越大方案越优,此时,特征值越大则该目标对优的隶属度(相对优属度)越大;另一类是目标特征值越小方案越优,此时,特征值越大则该目标的相对优属度越小。对于越大越优和越小越优型指标,相对优属度的计算公式如下。
越大越优型:
越小越优型:
式中:ximax、ximin分别为方案i 对目标j 的特征值取最大及取最小。
由以上公式可得到n个方案m 个目标的相对优属度矩阵:
式中:rij为方案i 中第j 个目标的相对优属度。
在矩阵R 中,如果rij=1,则就目标j 而言方案i 最优,如果rij=0,则就目标而言方案i 最劣。假设存在一个最优的方案,在该方案中所有目标的相对优属度均为1,即G=(g1,g2,…,gm)=(1,1,…,1),则最劣的方案可表示为B=(b1,b2,…,bm)=(0,0,…,0)。
决策i 距最优方案的距离可描述为:
决策i 距最劣方案的距离可描述为:
式中:p 为距离系数,p=1 时为海明距离,p=2时为欧氏距离。
若用ui表示决策i 的相对优属度,则1-ui表示决策i 对劣的隶属度;在模糊集理论中,隶属度可表示为权重,若分别以ui和1-ui为权重,则可得到决策i 距优和距劣的距离。决策i 加权距优距离可表示为:
为求解ui,建立如下优化准则:决策i 的加权距优距离平方与加权距劣距离平方之和为最小,即目标函数为:
对ui求偏导数并使之等于零:
解得:
式(3-30)即为可应用于若干区段含水层脆弱性评价的多目标模糊模式识别模型。根据最大隶属度原则,可得到所有区段含水层脆弱性相对隶属度的优劣排序:相对隶属度值越大,含水层越容易受到污染,即含水层越脆弱;反之,相对隶属度值越小,含水层越不容易受到污染,即含水层越不脆弱。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。