虽然强化学习的理论研究取得了一定的成绩,但把这种方法应用到实际问题上还有许多工作要做。主要存在以下问题。
(一)收敛速度慢
主要是由于在时间或存储空间上算法的复杂性,另一个原因是该算法如果在环境状态的集合较大的情况下,收敛于最优行为的速度较慢。在强化学习中,环境只给出定性的评价,而不知道正确的答案。这样,作为目标函数的误差值及其梯度均未知,这必然会增加Agent学习的难度,学习时间也会延长。因为强化学习是一个实时迭代过程,所以时间复杂度在评价强化学习算法时是一个很重要的因素。强化学习算法在每个循环中完成相同的计算,这样,对时间复杂性问题可以减少到一步迭代的时间复杂性。在设计强化学习算法时,每一步迭代应保持在定时间范围内,这些范围所能接受的值在不同的应用场合是不一样的,应根据具体应用的时间限制来估计它们。学习行为中大部分更新函数和评价函数涉及对Agent数据库存储的全部信息进行处理,其结果是设置Agent数据的存储空间限制与每次迭代的执行时间的限制同等重要。(www.xing528.com)
(二)信度分配问题
强化学习涉及两个困难问题:一个是时间信度分配问题。设想一个Agent执行了一系列动作,最后得到一个结果,它必须解决如何对每个环境或环境—动作赋予奖励或惩罚,以调整它的决策,改变它的性能。时间信度分配问题就是对涉及的每个动作及状态赋予信任或责备,当强化信号延时比较长及环境不确定的时候,信度分配问题就比较难于解决。另一个问题就是结构信度分配问题。当问题空间太大而无法完全搜索时,Agent必须具有根据相似环境下的经验推测到新的环境的能力,也就是泛化(Generalization)能力。特别是,当状态空间非常大,以致在搜索不可能的情况下,Agent必须根据类似的状态经验推测新的状态。这就存在一个怎样评价状态的相似性问题,海明距离也许是一个测量方法。强化学习中的推广问题要比监督学习困难些,原因是监督学习Agent有状态动作模式,而强化学习没有。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。