1950年,就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并将其命名为“囚徒困境”。
经典的囚徒困境的示例如下所述。警察抓住了两个合伙犯罪的罪犯,但缺乏足够的证据指证他们所犯的罪行,如果其中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会:如果两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻处理,立即释放,另一人则将被重判8年徒刑;如果两人都坦白认罪,则他们将被各判5年徒刑。
如果分别用-1、-5和-8表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则可以用一个特殊的矩阵将这个博弈表示出来,这种矩阵称为得益矩阵,如图13.3所示。
图13.3 囚徒困境
“囚徒1”“囚徒2”代表本博弈中的两个博弈方,也就是两名罪犯,他们都有“不坦白”和“坦白”两种可选择的策略。因为两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,都可以把他们的决策看作是同时做出的。矩阵中的每个元素都是由两个数字组成的数组,表示所处行、列代表的两博弈方所选策略的组合下双方的得益,其中第一个数字为选择行策略的囚徒1的得益,第二个数字为选择列策略的囚徒2的得益。这是一个两博弈方同时有两种相同的可选策略,策略和得益都对称的两博弈方之间的博弈。
现在对该博弈进行一些直接分析。对该博弈中的两个博弈方来讲,各自都有2种可选择的策略,因此该博弈共有4种可能的结果。在这些结果中,每个博弈方可能取得的最好得益是0,最坏得益是-8。根据个体理性行为准则,两个博弈方的目标都是要实现自身的最大利益。那么他们该怎样选择策略? 博弈的结果又会如何呢?(www.xing528.com)
首先可以肯定的是,在这个博弈中,两个博弈方各自的利益不仅取决于他们自己的策略选择,还取决于对方的策略选择,是有策略和利益依存关系的典型博弈问题。因此每个博弈方在选择自己的策略时,即使无法知道另一方的实际选择,也不能忽视另一方的选择对自己得益的影响,必须在考虑另一方有两种可能的选择,而且不同的选择对自己的利益影响不同的情况下,做出自己的最佳策略选择。
例如,对囚徒1来说,囚徒2有“坦白”和“不坦白”两种可能的选择,假设囚徒2选择的是“不坦白”,则对于囚徒1,“不坦白”得益为-1,“坦白”得益为0,囚徒1应该选择“坦白”(注意根据个体理性的原则,囚徒1只是根据自身利益最大的原则行事,不会关心此时另一方会被重判8年的问题);假设囚徒2选择的是“坦白”,则囚徒1“不坦白”得益为-8,“坦白”得益为-5,他还是应该选择“坦白”。在本博弈中,无论囚徒2采用何种策略,只考虑自身利益的囚徒1的选择是唯一的,那就是“坦白”,因为在另一方的两种可能选择对应的情况下,“坦白”给囚徒1带来的得益都是最大的,我们可以说“坦白”是囚徒l的一个“上策”。
同样地,由于囚徒2的情况与囚徒1的完全相同,因此囚徒2的决策思路和选择也与囚徒1的完全相同,囚徒2在这个博弈中唯一合理的选择也是“坦白”,或者说“坦白”也是囚徒2的“上策”。所以该博弈的最终结果必然是两博弈方同时选择“坦白”策略,同获得益-5,即都被判5年徒刑。
值得注意的是,在这个博弈中,无论是对这两个囚徒的总体来讲,还是对他们各自来讲,最佳的结果都不是同时“坦白”各得到-5,因为都“不坦白”各得-1显然比都“坦白”各得-5好得多。但是,由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者指望对方有合作精神,因此只能实现对他们都不理想的结果。由于这种结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。当然,囚徒困境从社会利益的角度来说是非常理想的结果,因为罪犯都受到了应有的惩罚。但从博弈中两个决策者的立场来说,则是很不理想的结局,因为两决策者从各自的利益最大化出发选择行为,结果既没有实现两人总体的利益最大化,又没有真正实现自身的个体利益最大化。该博弈揭示了个体理性与团体理性之间的矛盾——从个体利益出发的行为往往不能实现团体的最大利益,也揭示了个体理性本身的内在矛盾——从个体利益出发的行为最终不一定能真正实现个体的最大利益,甚至可能得到相当差的结果。
囚徒困境博弈的重要意义在于,类似的情况在社会经济活动中具有很大的普遍性,在市场竞争的各个领域和方面,在资源利用和环境保护以及政治、军事和法律等领域的问题中,都存在类似于囚徒困境的现象。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。