【摘要】:Stefan Wender[21]等应用Q学习和Sarsa算法的变体,使用资格痕迹来抵消延迟奖励的问题。其设计了一个能够在复杂的环境中以无监督的方式学习的智能体,替换由非自适应的、确定性的游戏人工智能程序来执行任务。针对最大化奖励或学习速度两个不同的侧重点,他们证明一步式Q学习和Sarsa在学习管理战斗单元方面是最好的。该方法在Atari游戏上被证明是有效的,这为用深度强化学习解决多智能体的游戏提供了思路。
Stefan Wender[21]等应用Q学习和Sarsa算法的变体,使用资格痕迹来抵消延迟奖励的问题。其设计了一个能够在复杂的环境中以无监督的方式学习的智能体,替换由非自适应的、确定性的游戏人工智能程序来执行任务。针对最大化奖励或学习速度两个不同的侧重点,他们证明一步式Q学习和Sarsa在学习管理战斗单元方面是最好的。V Mnih[22]等提出深度Q网络方法,可以使用端到端的强化学习直接从高维视觉输入中学习成功的策略。该方法在Atari游戏上被证明是有效的,这为用深度强化学习解决多智能体的游戏提供了思路。M Kemp-ka[23]等在一个三维第一人称视角环境——VizDoom中验证了视觉强化学习的可行性。在一个基本的移动和射击任务和一个更复杂的迷宫导航两种场景中,使用具有Q学习和经验回放的深度卷积神经网络,都能够训练出展现人类行为的自主游戏程序。Nicolas Usunier[24]等提出深度神经网络控制器从游戏引擎给出的原始状态特征来处理微观管理场景的方法,解决了军队成员在战斗中短期低水平的控制问题。同时提出了一个结合策略空间直接探索和反向传播的启发式强化学习算法,该算法使用确定性策略来收集学习的痕迹,这比“野兽般的探索”更为有效。(https://www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
