杰弗里·罗森沙因(Jeffrey S.Rosenschein)
耶路撒冷希伯来大学Rachel与Selim Benin计算机科学与工程学院Sam与Will Strauss计算机科学教授
耶路撒冷希伯来大学Rachel与Selim Benin计算机与工程学院Sam与Will Strauss计算机科学教授,同时也是多智能体系统研究小组的负责人。拥有哈佛大学应用数学学士学位(1979年)、斯坦福大学计算机科学硕士学位(1982年)和博士学位(1986年)。身兼AAAI研究员、ACM研究员及EurAI研究员,曾获2013年ACM/SIGART智能体研究奖(ACM/SIGART Autonomous Agents Research Award)。
关于自主智能体和博弈论,主要谈两点。一是关于多智能体系统(MAS)激励机制的一些观察,包括它如何改造人工智能领域、打造智能体领域。二是博弈论和机制设计在构建自主智能体中的角色的观察结果。因为我们观察到的东西,不一定能够盲目地应用到生活中。
在拿到博士学位后,我一直致力于研究用经济理论、投票理论和博弈论为多智能体系统奠定恰当的基础。也由此引出一个问题,即将这些理论作为多智能体系统的基础,在多大程度上适当?
我提这个问题主要是因为从历史上来说,经典人工智能关注的问题和我们现在的研究方向不太一样,经典人工智能更关注手段——目的——分析,也就是你的目的是什么,要如何实施才能达到这样的目的。这也是经常问的What和How:完成什么样的任务、怎么样完成这个任务。
但是我们经常忽视了一个问题,就是为什么要做这件事情?背后的激励机制究竟是什么?事实上人工智能做很多事情时没有问为什么,它只问了是什么和怎么做,也就是说通过“手段——目的”的方式进行分析,比如说医疗诊断,它们经常是一个用户或者一个医生提出一个目的,给一个系统,然后要求它给出一个解决问题的路径,但是并没有问为什么。当然,如果计算机只是受控机器的话,这个无可厚非,你有这样的目标,让这个机器找到这条路而已;但是假设计算机是人的代理或者助理的话,如果你不问为什么则说不通,因为Why非常重要。一个受控机器的激励机制存在于外部,是未形式化的,它需要一个目的来帮助你实现这个目标。但是如果是自主机器,就需要将激励机制内化,它理解了原因,才能主动积极地采取行动。
知道了想要什么、激励机制是什么,计算机可能需要采取一些行动,实现一系列的目标,最终赢得这个激励。更重要的是,当你有交互的不同自主系统时,你可能更希望了解什么是激励机制。在20世纪80年代初,得益于硬件技术的发展,分布式系统成为模型的重要组成部分,但是依旧没有带来相应的激励机制。它还是一个外部的目标,也是一个外部的总体设计,就像一个单独系统、激励系统一样,这是一个特定的模型。
而现在,我们开始逐步实现了跨越,将博弈论运用到了这些解决方法当中,但是这并不是唯一的选择。地理分散和数据不足阻碍了传感器网络这样的完全协作式系统,它们有一个整体的目标。此外,分布式系统理论当中,还会涉及非合作式甚至破坏式的智能体。它们要知道,它对于你的计算能力造成的最大的破坏是什么。
最终,我们的激励机制被引入智能主体模型当中。博弈论也提供了自然的数学形式化。在引入了这个激励机制以后,人们必须转变思路,当然这个可能需要几年甚至几十年的时间。那么我们博弈论的模型优点是什么呢?它能够提供激励机制,激励机制是能够帮助理解现实系统的现实行为的关键。(www.xing528.com)
现实环境中,很多事情都是受激励机制所驱动的,比如说像税法、薪酬或者是偏好等。其实有的人做很多事只不过是为了获取名利而已,所以如果引入了激励机制,我们就能够显著地缩小人工智能设计和现实世界之间的一级鸿沟。但是即便如此,在一些情境中激励机制依然不奏效。比如说饮料机随着天气的变化价格会浮动,天热价格高,天冷价格低,这对于消费者来说就不是非常好的选择,是不可接受的,他们宁可天热天冷的时候价格都高。也就是说,如果是固定价格的话人们反而觉得更好接受,如果是浮动价格消费者会觉得不公平。
构建自主智能体时,激励机制似乎很重要,但博弈论和机制设计工具具体又有哪些作用呢?如果说自主智能体是像人一样的主体的话,我们就必须预测,它可能会像人一样不太理智,有时候会有不理智的行为,或者说这样的一个主体会比人优秀很多,它做的事情会比人好很多,明显地表现出理性。什么是理性?理性就是在计算和信息约束的情况下,能够做出最大化预期效用的行为选择。这里的这个措辞是非常好的,首先你不是选择行为实现最大化的效用,而是最大化的预期效用。而且,不是要求在理想条件下,而是在计算和信息约束的前提下,也就是说在受限的前提下。如何做出选择?最大化预期效用才是底线。
通过创建自主智能体,我们可以将理性可操作化:让理性形式化,将它用作设计流程的标准化、规范化的基础。同时,把它放到机器当中,运用人对理性的理解,打造出一个定式,做出规划的一个指示性的设计流程。
但是应用于人类的博弈论与应用于机器的博弈论还是存在差异的,因为应用于人类的博弈论,还是和人有关,问题的关键还是人类。正如上文所提到的,理性是预期效用最大化的选择,特别是在计算和信息约束的情况下。但是人是不理性的,所以我们没有办法真正通过预期效用最大化来推测人的行为,因为我们只能看到一个人做出某种行为,最后达到一个效用。换句话来说,如果他选择另外的途径,可能会达到另外的效用。所以没有办法去证明他是不是真正理性的人,因为你只能通过他的选择来推测效用,而不能通过效用来倒推他的行为是不是合理。
但是说到机器的理性可操作性时,其实就是利用效用来规范机器的一些行为,而不是反过来,不是说通过行为描述它的效用。我们在做理性可操作化时,也就是在设计流程时,运用这样的理性让流程设计变得更加有指示性和规律性。
我们将高级非人类的智慧通过技术输入机器当中,让它做出人的行为,这是非常好的事情。我们应当如何做?
第一,我们需要找到一个可证明、符合意图的计算和策略特征的机制。我们可以运用机器,运用博弈论的理论基础,运用已经有证明的计算和策略特征,把它们输入机器当中。这不单单可以保证智能体更好地选择行为,也能保证机制设计更好地选择一个环境,让这些理性行为更好地适用于这个环境。我们唯一要注意的是,人和相应的主体在应对这样一些设计机制时,可能会表现出非理性或者是出乎意料的行为,因为他们是不理性的。
第二,我们同时也可以设计一些智能体,它们具有明确效用函数,并在冲突中遵循理性原则。需要注意的是,有时如果你真的需要它们具有像人一样的行为,就需要改变一些原则,让它们变得像人一样不理智或者以非人类直觉的方式行事。它们要么像人一样不理性;要么是超人类的,通过非人类直觉的方式变得非常理性。有的时候,做的事情像人的话可能就要牺牲一部分理性。至于说到打造应对的这个互动伙伴时,建模应当是遵循恰当原则来进行的,而不是对称原则。也就是说,不是照抄智能体的设计原则。
第三,我们一般倾向于标准化的模型,而不是非标准化的模型。有一些原则和模型是非常重要的,比如说把握策略主导权。与此同时,还有一些经典的人工智能理论(比如纳什均衡理论),可能有的时候很有用,有时候没有用。所以我们必须要对这些解决方案的概念非常清晰,并谨慎地将它们应用于各种解决方案中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。