首页 理论教育 马尔科夫决策问题的后退迭代求解方法分析

马尔科夫决策问题的后退迭代求解方法分析

时间:2023-05-16 理论教育 版权反馈
【摘要】:问题可以被正式明确,其中的每个要素j在时间t+1的期望值vjq(t+1)取决于由于方程11.31中的第一项独立于过程到达的阶段,我们定义gjq为那么方程11.31可以被写为注意vjq(t+1)的值不仅仅取决于过程gjq每个阶段所获得的常数,还取决于目前为止所获得的值vjq。贝尔曼的最佳性原则说明了一个用于从时间t=1开始解决上述问题的后退迭代方法,但这个方法主要用于确定任意时间点该过程的值。

马尔科夫决策问题的后退迭代求解方法分析

由于设计过程使用马尔科夫机器按顺序进行求解,很可能随着平均化过程出现奖励或处罚。比如,如果冲突要素之间必须达到一个协调,那么可能出现一些得失,这些得失可能反过来影响过程的形式。另一方面,如果问题被看作对问题有不同态度的设计师尝试解决相互之间冲突的过程,奖励-处罚特性可能更加明显。可以修正已经描述过的过程以说明此类行为,正如最早由贝尔曼(Bellman,1957a)提出的并由霍华德(Howard,1960)详细描述的那样。下列结果仅与不可约链有关。

假设一个过程,在这个过程中,设计师必须在跃迁概率[pjkq]中的不同数集q之间做出选择。这些包含了不同的奖励集[rjkq],以便优化值的一些标准,其中下标q指的是这些替代对象集以及可能被选择的奖励。问题可以被正式明确,其中的每个要素j在时间t+1的期望值vjq(t+1)取决于

由于方程11.31中的第一项独立于过程到达的阶段,我们定义gjq

那么方程11.31可以被写为(www.xing528.com)

注意vjq(t+1)的值不仅仅取决于过程gjq每个阶段所获得的常数,还取决于目前为止所获得的值vjq(t)。

从替代方案q中选择设计机的任务就是在每个阶段优化这一过程,或者说在这个案例中,是最大化vjq(t+1)。这个问题被写为

而且在这个形式下,它是一个典型的动态规划问题,正如贝尔曼(1957b)考虑的那样。贝尔曼的最佳性原则说明了一个用于从时间t=1开始解决上述问题的后退迭代方法,但这个方法主要用于确定任意时间点该过程的值。这里讨论的这个案例,更重要的是随着过程无限持续而从中获得的平均值,而在可以确定这个值之前,需要研究其极限行为。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈