首页 理论教育 学习自动机在强化学习方法中的应用技巧

学习自动机在强化学习方法中的应用技巧

时间:2023-10-17 理论教育 版权反馈
【摘要】:在强化学习方法中,学习自动机是最普通的方法。自动机根据所接收到的刺激,对环境做出反应,环境接收到该反应对其做出评估,并向自动机提供新的刺激。学习系统根据自动机上次的反应和当前的输入自动地调整其参数。学习自动机的学习模式如图6-4所示。图6-4学习自动机的学习模式学习自动机的基本思想可以应用于很多现实问题,如拈物游戏。为便于系统的学习,可以为系统增加一个奖惩机制。

学习自动机在强化学习方法中的应用技巧

在强化学习方法中,学习自动机是最普通的方法。这种系统的学习机制包括两个模块:学习自动机和环境。学习过程根据环境产生的刺激开始。自动机根据所接收到的刺激,对环境做出反应,环境接收到该反应对其做出评估,并向自动机提供新的刺激。学习系统根据自动机上次的反应和当前的输入自动地调整其参数。学习自动机的学习模式如图6-4所示。这里延时模块用于保证上次的反应和当前的刺激同时进入学习系统。

图6-4 学习自动机的学习模式

学习自动机的基本思想可以应用于很多现实问题,如拈物(NIM)游戏。在拈物游戏中,在桌面上有三堆硬币,如图6-5所示。该游戏有两个人参与,每个选手每次必须拿走至少一枚硬币,但是只能在同一行中拿。谁拿了最后一枚硬币,谁就是失败者。

图6-5 拈物游戏

现假定游戏的双方为计算机和人,并且计算机保留了在游戏过程中它每次拿走硬币的数量的记录。这可以用一个矩阵来表示,见表7-2,其中第(i,j)个元素表示对计算机来说从第j状态到i状态成功的概率。显然矩阵的每一列元素之和为1。(www.xing528.com)

表6-1 拈物游戏中的部分状态转换图

注:#表示无效状态。

为便于系统的学习,可以为系统增加一个奖惩机制。在完成一次游戏后,计算机调整矩阵中的元素,如果计算机取得了胜利,对应于计算机所有的选择都增加一个量,而相应列中的其他元素都降低一个量,以保持其每列的元素之和为1。如果计算机失败,则与上述相反,计算机所有的选择都降低一个量,而每一列中的其他元素都增加一个量,同样保持每列元素之和为1。经过大量的实验,矩阵中的量基本稳定不变,当轮到计算机选择时,它可以从矩阵中选取使得自己取胜的最大概率的元素。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈