强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大。学习者并未被告知采取什么动作,像大多数机器学习的形式一样,但是必须通过试验来查明哪个动作产生最大的奖励。最有趣和最有挑战性的是动作不仅影响当前奖励,而且还影响下一个状态以及整个后继状态序列的奖励。这两个特性——反复试验搜索和延迟奖励,是强化学习的两个最突出特点。
强化学习与监督学习、统计模式识别和人工神经网络不同。监督学习是从有知识的外部教师给出的例子中学习,这是一种很重要的学习,但它单独从交互中学习还不够。在交互问题中,Agent要获得所有代表性的例子常常是不现实的。在未知领域中这也是学习被认为最有益之处——Agent必须能通过自身经历来学习。
存在于强化学习中而不存在于其他学习中的挑战是探索和获益之间的均衡问题。为了获得更多奖励,强化学习Agent必须优先选取以往曾带来最大奖励的动作。但是为了发现这种动作,它必须试验以往未选中的动作。Agent利用已知的东西来获得奖励,也必须进行探索以便将来选择更好的动作。其中的矛盾是获益和探索都不能单独进行而又不能引起任务失败。Agent必须试探多种动作,注重那些看起来最好的动作。在随机任务中,每个动作必须执行多次以获得可靠的奖励估计期望值。获益一探索矛盾已经被数学家仔细研究了数十年。现在,我们可以看到,获益-探索均衡问题在通常定义的监督学习中从未出现过。(www.xing528.com)
强化学习是从一个完整的、交互的目标搜寻Agent开始的。对所有的强化学习,Agent都有明确的目标,能够感知环境的特征,选择影响环境的动作。另外,可以设想从一开始Agent就必须在复杂未知环境下进行工作。当强化学习包括规划时,它必须处理规划与实时动作选择的相互影响以及环境模型如何获得和改进的问题。
强化学习的研究趋势使人工智能与其他工程学科的联系越来越紧密。以前,人工智能被看作是与控制理论完全分离的,它与逻辑和符号有关,与数字无关。人工智能是大型的LISP程序,不是线性代数、微分方程,也不是统计学。最近几十年,这个观点逐渐被瓦解,人工智能和常规工程之间一直被忽视的领域现在则是最活跃的一块,包括像神经网络、智能控制以及强化学习等新领域。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。