【摘要】:霍华德的方法被分为两个部分,循序并迭代地应用。从基于方程11.48修改过的方程组中得到的相对值,可以被代入优化方程11.34。然后把新的奖励顶点[gkq]和矩阵[pjkq]重新代入方程11.48,那么方程11.48和11.49不断重复直到出现替代方案的一个稳定集合。当替代方案的数值较小时,可以最大化过程的增益,对于矩阵[pjkq]所有的组合,通过对方程11.49求解,选择最佳设计机。
霍华德的方法被分为两个部分,循序并迭代地应用。对于被采用的特定替代方案q,给定一个随意的初始决策,被称为定值阶段的第一次操作,产生了相对值vj和增益z。然后,根据这些值,算法进入策略改进阶段,检验每个替代方案k并选择最佳的。这些新的替代方案接着回到定值操作中,这个过程一直持续直到决策达到某种收敛。
首先,将决策过程方程11.33的一般方程与极限方程11.45结合为
由于vk(t)的极限值也可以通过方程11.45来确定,方程11.46变为
重新排列并简化方程11.47得到
这是一个有n+1个未知数的n方程组。在现在的形式中,它是不可解的,但因为极限方程是线性的,是vk的相对值,这一点非常重要。因此如果vk的一个值被设为等于0,得到的方程组可以通过标准方法求解,从而推导出bk的相对值以及增益z。(www.xing528.com)
从基于方程11.48修改过的方程组中得到的相对值,可以被代入优化方程11.34。那么
由于增益mz对于所有k都是常数,那么只需要从gj+∑kpjkqvk中选择q,就可以对每个替代值进行计算。然后把新的奖励顶点[gkq]和矩阵[pjkq]重新代入方程11.48,那么方程11.48和11.49不断重复直到出现替代方案的一个稳定集合。
当替代方案的数值较小时,可以最大化过程的增益,对于矩阵[pjkq]所有的组合,通过对方程11.49求解,选择最佳设计机。然而,对于少数替代方案和状态,这种方法不能用。比如,考虑一个有20种状态的过程,每个状态有两个替代方案。则会有220个可能的设计机,而且从中做出一个选择的任意策略,都需要建立在完整列举的基础上,这显然是不可能的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。