首页 理论教育 增强学习算法及其在人工智能中的最新进展

增强学习算法及其在人工智能中的最新进展

时间:2023-07-08 理论教育 版权反馈
【摘要】:根据这些标准,智能体可以找到在不同棋局情况下的最佳招法。经过无数次失败和成功,智能体的棋艺最终可以战胜人类。Atlas也是采用增强学习的方法学会了复杂的动作。这也许只是一个附会的故事,但是很好地说明了人工智能从失败中学习的方法很有效。科学家对动物的“增强学习”已经有几十年的研究。你们可以一起在学习之余交流关于人工智能的最新进展。

增强学习算法及其在人工智能中的最新进展

以训练人工智能中国象棋为例。首先,必须为人工智能(这里一般称为“智能体”)设置一个目标——将死对方,和一系列规则——马走日、象走田,等等。智能体开始完全不会下棋,总是输。但每次输棋后程序员对它进行一次“惩罚”(例如给它负分数)而每次胜出则给它“奖励”(例如给它正分数)。在不断的实战“训练”中,智能体逐渐可以根据自己的下法和得分之间的关系建立起评价一种下法好坏的标准(称为“效用函数”)。根据这些标准,智能体可以找到在不同棋局情况下的最佳招法。经过无数次失败和成功,智能体的棋艺最终可以战胜人类。Atlas也是采用增强学习的方法学会了复杂的动作。据说AlphaGo 和韩国棋手李世石比赛时,李世石赢了一场后“全世界的人都松了一口气”,因为人们觉得人类还是可以战胜人工智能的。但是就在这天夜里,AlphaGo又和自己下了一百万盘棋,结果下一局开始,李世石再也没有战胜过它。这也许只是一个附会的故事,但是很好地说明了人工智能从失败中学习的方法很有效。

拓展阅读

不仅人会感知环境、适应环境,动物也如此。“早起的鸟儿有虫吃”,早起的鸟儿吃到了虫子,鸟儿从食物中获得的快感就是对它的奖励,因此它学习到应该继续每天早起。同时,这只鸟第一次看到一只色彩鲜艳的毛毛虫,它兴冲冲地把虫子吃了,结果发现很不好吃。因此,这只鸟获取了“色彩鲜艳的毛毛虫不好吃”的经验。

科学家对动物的“增强学习”已经有几十年的研究。比如,科学家发现蜜蜂身上的花蜜传感器和它的运动大脑皮层有神经关联,也就是说,采到花蜜可以让蜜蜂感到“高兴”。当我们吃到好吃的东西,或者在竞争中赢得胜利的时候,人的大脑会分泌一种称为多巴胺的物质,让我们感到开心、兴奋。这些现象都揭示了人和动物为什么愿意克服困难,适应竞争的生存环境。(www.xing528.com)

我是未来劳动者

包括中国在内的全世界经济和科技强国都在竞相研究、开发人工智能技术。大批既聪明又勤奋的科研人员都投身到了改进、提升人工智能的研究中。而另一方面,还有更多的程序员和工程师在研究如何把人工智能应用到社会与生活的方方面面。你有兴趣成为他们中的一员吗?结合本章学习内容,找到自己最感兴趣的技术方向,上网或通过别的渠道收集相关信息,在班级里分享你的知识和想法,也许就有和你志同道合的伙伴。你们可以一起在学习之余交流关于人工智能的最新进展。更重要的是,你们还可以相互鼓励,一起学好数学物理、生物以及其他学科的知识,参加更多实践和动手活动,锻炼自己解决实际问题的能力。你今天做的每一件事都是在为实现自己的人工智能梦想做准备。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈