上一节的例子使我们认识到,精炼贝叶斯均衡存在多重均衡的现象比较普遍,而且均衡的实际结果,对非均衡路径上的后验概率具有依赖性。在均衡路径上,运用贝叶斯法则不会出现困难。前面已经看到,精炼贝叶斯均衡是由非均衡路径上的信念来支持的。均衡实现时,非均衡路径上信息集成为均衡路径的概率是零。但却是零概率前提下的决策结的信念,才能保证参与人不偏离均衡路径。实际的博弈中,外部又观察不到非均衡路径上信念的形式。非均衡路径上的信念似乎是幕后的导演,他在指挥整个博弈的进程,但在博弈的外部进程中却观察不到他。
对不完全信息动态博弈的均衡,人们希望在精炼贝叶斯均衡中找出更合理的均衡,这就要对非均衡路径上的信念找到更合理的处理方式,精炼贝叶斯均衡由于在非均衡路径上只要求与战略相容,这会使信念本身就是不可置信的。
实际上,信念体系的合理性在逻辑上可以独立于最优策略来讨论。因为最优决策依赖于信念,信念决定最优策略。信念的理性要求存在于最优策略之前,博弈的结构之中。然而我们只能在博弈结果的基础上来识别信念的合理性,即合理信念体系的外在表现是合理的这一原则下进行讨论。这就把合理信念体系与最优策略混在一起了。
信念体系是否合理的分析可以分成两类来考虑,一类在均衡路径上,这一类的合理体现在对贝叶斯法则的遵守上,这几乎是任何人都认同的。另一类是在非均衡路径上,它该遵循什么规则?这是值得进一步探讨的问题。精炼贝叶斯均衡能剔除不可置信的战略。但这种剔除可能建立在不可置信的信念上。信念是否可信的问题在非均衡路径上出现时,贝叶斯法则无能为力。为使信念是理性的,需要有贝叶斯法则以外的理性原则进行约束。前面在定义精炼贝叶斯均衡时,要求在非均衡路径上与最优战略相容是有点“削足适履”的味道。为使某个战略组合成为均衡而要求信念体系在非均衡路径上是某种特定的形式,然而却存在不理性的可能。
前一节的例子中,存在这种情况比较普遍。例如在博士录取的例子中,直观上,申请者爱好经济学的信念P(L|A)≤时,支持了都不申请的混同均衡。但我们会无法说服大多数人。在申请的群体中会有70%以上的人讨厌经济学。
一、消除劣战略
消除劣战略的思路是没有理性的参与人会采取劣战略,把这一思想附加到信念体系中,也就是说,m信号是θ类型的劣战略。则我们的信念应该是信号m出现时,应该判断不是θ类型,即P(θ|m)=0。以此来排除一些均衡。在博弈参与人是理性的假设下,不采用劣战略是可接受的假设。
在贝叶斯法则可处理的场合,即在均衡路径上,均衡定义中已经排除了劣战略。在非均衡路径上,参与人不取劣战略的信念是一个新的要求。增加这一要求能消去一些精炼贝叶斯均衡,使保留下来的精炼贝叶斯均衡更符合人的行为准则。
我们来考虑下面的信号博弈。参与人1有两个类型。L型和H型。参与人2只有一个类型。参与人1发出信号X,参与人2碰到H型参与人时采取N的收益是0,采取R的收益是-1。碰到L型时,参与人2采取N的收益是0,采取R的收益是+1。先验概率P(H)>,所以按先验概率,参与人2的选择是N。记f H(x),f L(x)分别是H与L型参与人1在参与人2选N的收益,假定参与人2选R对参与人1不利,选N对参与人1有利。所以f H(x),f L(x)是两种类型参与人1选x可获的最大可能收益。H型和L型分别有一个保底收BH,BL。其含义是分别有一个信号,不论参与人2选什么,收益都不会小于这个保底收益。如图(5.13)所示。记为H型的保底收益。它由参与人2采用k时H型参与人1的收益曲线的最大值点得到。如图中虚线的曲线。PHm是H型最大收益的位置,PLm是L型取得最大收益的位置。但最大收益不一定能获得,因为两个类型都发出PHm时造成混同,参与人2选择R,而使发信号者收益下降。
图5.13 信号与收益的图示
对L型参与人,不会选择[P1,P2]区间内的信号。因为在这种情况下的收益低于保底收益,不如直接采用获得保底收益的信号。因此,如果观察到x∈[P1, P2],就能立即判定出参与人1是H型的。考虑这一博弈的分离均衡时,L型因信号被识别,所以参与人2会采用R。这是对L型最不利的局面。他唯一能采用的行动就是采取保底收益信号,然而H型参与人在[P1,P2]内的任一信号都可能达到表明自己的类型的目的。很自然,对H型参与人,选是P2最好的,但是这都依赖于信念体系的,不能任由参与人选择。用PL0表示获得保底收益的L型发送的信号。可以证明H型发x0,L型发PL0,参与人2不见x0选R,否则选N在信念P (L|x≠x0)=1之中是一个分离均衡,其中x0∈[P1,P2]。可以作以下分析:L型的参与人不会偏离PL0,因为类型已被识别,最大收益是保底收益,偏离只会损失。H型的参与人不会偏离x0,x≠x0时被认为是L型,参与人2将会选择R,收益将低于保底收益,而参与人2在此信念下,见到x≠x0的信号时,选R,收益为1,选N时为0。所以每一个x0∈[P1,P2]都可能成为均衡路径。而x≠x0,x≠PL0,不在均衡路径上。这种出现其他信号就认为是L型的信念是否合理呢?既然L型的人发出x∈[P1,P2]的信号收益不会超过保底收益PL0,直观感觉是他不可能发这样的信号。即对L型来说x∈[P1,P2]是劣信号,那么有什么理由认为x∈[P1, P2],x≠x0的信号出现时必然是L型的参与人1呢?这就表现了信念体系的不合理性。所以,我们应该给信念体系加上这样的要求:P(L|x∈[P1,P2])=0。在此信念体系下,参与人1为H型时,就会在[P1,P2]中选使自己收益最大的信号,也就是P2。
可以直接验证,信念体系为P(L|x∈[P1,P2])=0时,H型选P2,L型选PL0,参与人观察到x∈[P1,P2]选N,否则选R,这是x∈[P1,P2]内的唯一的精炼贝叶斯分离均衡。
信念体系增加了P(L|x∈[P1,P2])=0的要求后,可以看到H型取信号x∈[P1,P2],L型取PL0的策略就不再是均衡了。
区间[P3,P4]的情况与[P1,P2]相同,不再分析。
在一般的信号博弈当中,削除劣战略方法应先规定劣战略的具体涵义,下面给出信号是劣信号的定义。
定义5.7.1 参与人1是信号发送者,参与人2是信号接收者,a1,a2是参与人1的两个信号,B为信号接收者的行动空间,b∈B为具体行动。如果成立≤及存在b0,b1∈R使U1(a1,b0,θ1)<U1(a2,b1,θ1),则称a1是θ1型参与人弱劣于a2的信号。
该定义的直观意义是一种信号的最大收益不如另一种信号的最小收益,另一个条件是排除U1(a1,b,θ1)=U1(a2,b,θ1)且不随b变化的情况。结合图(5.13)比较容易理解劣信号的本质,请注意这里的劣信号与第二章的劣战略定义中的差异。
劣战略消除信念是指下面的准则。
若a1是θ1型参与人的劣信号,则规定后验概率P(θ1|a1)=0,如果a1是所有类型的参与人1的劣信号,我们可以在博弈中就把这种信号在信号空间中消去,而构成一个更少信号的博弈。
可以注意到,弱劣战略消去不依赖于均衡路径。所以可在求均衡前进行分析。下面举例说明。
考虑图(5.14)的例。
图5.14 不完全信息博弈
这一博弈中,虽然没有出现参与人的类型。但劣信号的概念仍然存在。信号R严格劣于L,因为max(U1(R,U),U1(R,D))=1;min(U1(L,R),U1(L,D))=2,所以R是劣信号。因此可以在信念体系中规定参与人2的右边决策结的概率为0。
在未消去劣信号前,我们可以找到及都是精炼贝叶斯均衡,这可以直接验证。但劣战略消除后, 的信念被排除即的均衡被排除了。
如果把(M,U)下的收益修改为(2,1),则M,R都是劣信号。就可以直接讨论只有L信号的博弈。
二、直观标准
直观标准是比削除劣战略要求更高的标准。他对非均衡路径上的信念附加要求,对精炼贝叶斯均衡再用直观标准进行判断。把不符合直观标准的均衡排除在均衡之外。
直观标准通过降低劣战略的要求来实现,以均衡解的效用水平为参考标准。若某一信号的收益在最有利的信念下也不会超过均衡时的效用水平。直观上,我们可以认为相应类型的参与人不会有发送这种信号的动机,所以,应该在这种信号出现的条件下判定相应类型的参与人的可能性为零。而把这部分概率加到其他类型的参与人上。由于提高了其他类型参与人的概率,可能使某些类型的参与人选择偏离是有利可图的。因此就可以排斥这一均衡。为此,我们还来看图(5.13)的博弈。
对该博弈的混同均衡进行分析。由于混同时依先验概率,参与人2选择N,在[p2,p3]区间上的信号可混同。可以证明x0∈[P2,P3],在信念体系为是P(L|x≠x0=1,则每一类型的参与人1都将选择x0。参与人2的策略是见到x0选N,否则选R。直观验证就能发现没有参与人愿意偏离,所以在[P2,P3]区间上的任一信号都是精炼贝叶斯均衡。考虑x0,当PHm<x0≤PLm成立时,L型参与人不会偏离到PHm,即使信念体系中P(H|x=PHm)=1他也只能获得f L(PHm)的收益,而f L(PHm)<f L(x0),也就是说,即使参与人2作出对他有利的选择,偏离也不能增加收益。直观上,我们可以认为,L型参与人偏向PHm是不可能的。即当PHm被观察时,应该有P(L|PHm)=0,这就意味着P(H|PHm)=1。如果P(H|PHm)=1,则H型参与人偏向PHm时是增加收益的。因此,我们认为x0∈(PHm,PLm)时的精炼贝叶斯均衡不满足我们的推理要求。PHm信号经得起这种推理的考验。这样,我们已经排斥了许多精炼均衡。
把这种思想总结为一般的方法称为直观标准。其思想是某一信号相对于均衡信号是劣的,则偏向这种信号时相应类型的参与人的类型后验概率为0。这确实是一种相当直观的思路。这种思路下,信念体系更有柔性,不存在强加信念而形成的均衡。
一般地,直观标准由如下定义描述。
定义5.7.2 若在精炼贝叶斯均衡下,θ1型参与人1的效用为U*1(θ1),如果a1∈A1是参与人1的信号,成立U1(a1,b,θ1)≤U*(θ1)且存在b′∈BU1(a1,b′,θ1)<U*1(θ1),则称a1是相对于均衡策略的劣策略。
后验概率通过增加要求P(θ1|a1)=0来形成信念体系。如果在这一信念体系下,均衡仍然是均衡,称为符合直观标准的均衡。
在定义5.7.2与5.7.1的差异是比较标准的不同。可以看到,若在5.7.1的定义下是劣策略,则在5.7.2中必是劣策略。这是因为 b′,θ1)。所以直观标准将剔除更多的精炼贝叶斯均衡。
下面的例子用于说明直观标准的运用。可以用如下背景来理解模型。通常在二人发生冲突前,一方会观察一下与对方的冲突是否“有利可图”的信号。比如对方是男的且留着长头发,而且很乱,对许多人而言,这只是个性的爱好,但一些人,观察到这种情况时,会用于判断其人的性格。一般经验会觉得此人可能善于斗争,可能会觉得与他冲突是不明智的。如果把人的性格分为忍让型和急躁型两类,一般人们不愿与急躁型争斗。但忍让型的性格也可能装出急躁型的样子,来避免与他人争斗,下面对这类问题建立模型。
“啤酒和热狗”是信号博弈的一个简单模型。参与人1是信号发送者,信号是早餐的食品,参与人2是一个与参与人1争斗的对象。如果性格是忍让型的参与人1,参与人2偏向于与他争斗。如果是急躁型的参与人1,不与之争斗更好。忍让型的参与人1喜欢热狗,急躁型的参与人1喜欢啤酒,但如果选择不喜欢的食品能避免参与人2与他争吵,还是比吃喜欢的食品而导致与他人争吵好。表示成信号博弈的博弈树如图(5.15)。
图5.15 啤酒热狗博弈
参与人2对参与人1的只有从此信号中观察参与人1的性格类型。分析这一博弈,分离均衡是:L型选D,H型选B,参与人2观察到B不争斗,观察到D争斗,参与人2的信念体系是P(L|D)=1,P(H|B)=1。
考虑是否存在混同均衡。在混同下,参与人在混同信号下选择不争斗,因为选争斗的收益是1×0.1+0×0.9=0.1,不争斗的收益是0×0.1+1×0.9=0.9。但混同信号是B还是D却依赖于信念体系。实际上参与人1都选D,参与人2看到D不争斗,见不到D就选择争斗是一个混同均衡,信念是P(H|D)=1,P(L|B)>。然而所有参与人1都选B,参与人2看到B不争斗,看到B以外的信号就选择争斗,成为另一混同均衡。
这两个精炼贝叶斯均衡是否都合理呢?来分析参与人1都选D的均衡。对L型参与人,即使参与人2在看到B时选择不争斗。他也不会选B,选B的最高收益不如处于均衡之中。所以在非均衡路径上以出现B信号为前提,信念体系按直观标准,应该认为P(L|B)=0P,即P(H|B)=1。在这一信念体系下,参与人1都选D就不成为均衡,或说参与人1都选D是不符合直观标准的。但直观标准支持都选B的均衡,因为H型参与人不会选D,所以P(L|D)=1。L型偏向D时会导致争斗。而且该均衡还是混同均衡,收益更高。
顺便在此讨论图(5.13)中(P2,PHm)之间的混同均衡,实际上,P1∈(P2,PHm)时可以看到这一均衡的收益。在位者收益分别为f H(p1),f L(p1)及参与人2的收益为0,而在PHm的均衡时,在位者收益分别为f H(PHm)与f L(PHm)。参与人2的收益是0。因此,PHm均衡与P1均衡相比,每个类型每个人的收益都不会减少,而且有人是增加的,或说(PHm)帕累托优于P1。我们在多重均衡时也可用帕累托改进来消去一些均衡。若存在一个均衡A是另一均衡B的帕累托改进,则可把B消去,用A来预测博弈的结果,称为帕累托标准。
三、序贯均衡(www.xing528.com)
序贯均衡是对信念体系从形成的过程中增加合理的要求,由于贝叶斯法则是公认的理性标准,但在非均衡路径上,信息集出现的概率为0,贝叶斯法则无法应用。序贯均衡的思路是创造一个条件,使贝叶斯法则在非均衡路径上的信念体系从极限的意义上符合贝叶斯法则。基本方法是把非均衡路径的信息集的零概率用混合策略放大到正概率,再用贝叶斯法则确定后验概率,在此基础上,再把正概率缩小,直到极限,这时信息集上的后验概率分布会收敛。以收敛的结果作为后验概率,显然这样做比在“非均衡路径上与战略相容”的要求更高。
如何使贝叶斯法则在非均衡路径上也可以应用呢?注意到,任何一个战略组合,都可以看作严格混合战略的极限。严格混合战略是指参与人在任一信息集下选择多个可选行动的概率都为正,例如,参与人i有A、B、C三个可选行动。选择A的战略可以理解为以1-ε1-ε2的概率选A,ε1的概率选B,ε2的概率选C,这里的ε1,ε2是小正数,在ε1,ε2趋向于零时的极限。本节后面只限于讨论参与人有限,纯策略有限的博弈,可引入以下一些记号。
用x表示一个决策结,相应的信息集记为h(x),i(x)或i(h(x))是该信息集上行动者的序号,用σ表示参与人的策略组合,P(h|σ)表示σ的战略组合进入h信息集的概率,P(x|σ)表示σ的战略组合进入x决策结的概率,μ(x|h(x))表示进入信息集h的条件下处于x决策结的概率。∑0表示战略组合σ的集合,σ能使参与人在i(h)在信息集中选择各个行动的概率σi(g|h)>0。当σ∈∑0时,进入每一信息集的概率P(h|σ)>0,因此可用贝叶斯法则,在h(x)的信息集中,根据贝叶斯公式,处于x决策结的概率为,这一μ(x|h(x))实际上就是信念体系。
称策略组合及信念体系的一个组合(σ,μ)是一个状态。
一个状态称为一个序贯均衡,由下面的定义给出。
定义5.7.3 (σ,μ)是一个序贯均衡,它满足如下条件
1)序贯理性:在所有的信息集h上,由μ(h)给定的后验概率,i(h)不想偏离由σ给定的混合策略σi(g|h);
2)(σ,μ)是一致的,即存在σm∈∑0,μm为按σm的战略组合,由贝叶斯法则决定的信念体系,因此(σm,μm),是状态。且成立:(σ,μ)=(σm,μm)。
满足条件1是比较好理解的,是偏离将得不到好处的要求具体描述,条件2规定了信念体系必须是贝叶斯法则下信念体系的极限,实际上σm的条件可以放宽到只要贝叶斯公式的应用不出现困难即可。
下面用例子以进一步说明。图(5.16)是一个用以说明序贯均衡的博弈。
图5.16 说明序贯均衡的例
实际上,简单地分析可知该博弈将以参与人1选U结束,参与人2不会有选择的机会,参与人2有机会选择时将选R。
该博弈等效于图5.16的(b),即自然的选择可以放在最后。而且P(A)=, P(B)=。
参与人1是A型的概率是,这由自然的信念给定。而参与人2行动时的信息集依据精炼贝叶斯均衡可以任意定义,因为这一信息集不在均衡路径上,即(U, R,p)是精炼贝叶斯均衡,而且任意的p都是与战略相容的。但序贯均衡时,p只能是,下面来计算。
这一形式是自然没有告诉参与人1的类型,所以参与人1在不知道自己类型的情况下选择。左右两个决策结偏向D的概率可以设为相同。因此,参与人1选U的概率是1-εn,选D的概率是εn,这一混合策略使得每一行动具有正的概率,则依据贝叶斯公式,进入参与人2的信息集的概率是,这是A型与B型选D的概率,而处于左边决策结的概率是。
定义σn1=(1-εn,εn),σn2=(1-εn2,εn2),则σn=(σn1,σn2)∈∑O,根据贝叶斯公式得p=。
p=比较符合人们的一般思维习惯,因为参与人2的信息集的随机性完全是由自然的不确定性向下传递的结果,同时我们可以看到σn2在推导中不起作用。最下层的策略可以不要求是严格的混合策略,而不影响序贯均衡的推导。
序贯均衡到底对精炼贝叶斯均衡有多少改进呢?已经证明“几乎所有的博弈”序贯均衡与精炼贝叶斯均衡的结果是相同的,换句话说几乎所有的与战略相容的信念体系,可用序贯法则得到。几乎所有的含义是只有几组特殊的效用函数取值会导致差异。从应用的角度来说,这是不重要的,但从理解信念的思路上,序贯均衡给出了更有说服力的陈述,更好理解。
四、颤抖手均衡
颤抖手均衡与微分方程中的稳定性分析类似。对小的波动性具有抵抗性,正如图5.17中A处的球与B处的球都处于均衡之中。但B处的球能够预测将会留在B的位置,而A处的球最终不能在A的位置留住。因为任何的意外因素都可能使球离开而A不再返回。
图5.17 稳定示图
在纳什均衡中,由于逻辑上对参与人理性的假设,就把偏离理性的可能排除在外。但实际上,容纳一定程度上非理性偏离的均衡将会对参与人行动的预测更有说服力。如果参与人在一定的水平之内偏离理性,一个均衡还能保持最优性,那么这个均衡比微小的非理性就导致完全不同结果的均衡更能预测人的行为,就如同上图中,预测B处会留住球是合理的,但A处也会留住的预测是不可信的。为此我们先观察表5.2所示的博弈。
表5.2 说明颤抖手均衡的例
这一博弈中(D,L)是纳什均衡。如果考虑到参与人2有偏离L的可能性,参与人1选U就比选D好,但如果参与人1选U,将导致参与人2选R,这说明(D,L)均衡对小的偏离有放大的作用,实际上是参与人1利用参与人2会犯错误而选U。这使得用(D,L)的预测可靠性较差。如果(U,L)的收益是(8,0),参与人2犯错误的可能性较少时,D仍然是最优选择,用(D,L)进行预测的可信度就较大。
定义5.7.4 在n人战略式表述博弈中,纳什均衡σ=(σ1,σ2…σn)是一个颤抖手均衡,要求满足以下条件,存在一个σmi是严格的混合策略序列。
1)
2)存在M,当m>M时,对的其他可选策略σi′;。
定义中,要求σmi是严格的混合策略序列是指选择任何纯策略的概率为正。及2)的结合意思是指均衡策略对其他参与人偏离的可能性很少的时候,σi仍然是最优选择。
策略σmi是策略σi的一个颤抖,而=σi表示颤抖σmi将限定在σi的任意小范围之内。
但是用战略来定义非理性偏离有一个问题不能忽略,在涉及战略中不同的行动次数时会出现问题的。假如一个战略中只有一次行动,那么也就只有一个犯错误的单元。如果有两次行动就有二次犯错误的可能。而且二次行动犯错误的可能性应该是独立的。但战略式描述用于讨论因犯错误而偏离均衡时,却无法区分这些,因为一个战略中没有记录行动次数的信息。为此看下列的例子。
图5.18 同一博弈的两种表达
该博弈中,参与人1的战略由二次行动构成,参与人2的策略只有一次行动。
可以证明(L,U)是一个颤抖手均衡。事实上,我们可用参与人1以的概率选L,的概率选RL′,的概率选RR′作为策略。及参与人2以1-的概率选U,以的概率选D作为策略。记,则σm→({1,0,0},{1,0})。在策略式表达中,可以看到,m充分大时,参与人1选L的效用是0,用任何其他策略{1-ε1-ε2,ε1,ε2}的效用是。它在m充分大时小于0。因此,选L最优。同理,参与人2选U的效用是 。而以1-ε3的概率选U,ε4的概率选D的收益是:
所以(L,U)是一个颤抖手均衡,但(L,U)不是一个子博弈精炼均衡,直接分析可以看到这一结论。博弈均衡的精炼当然希望建立在子博弈精炼的基础之上。究其原因,可能会存在另一组σm→σ,但并不满足条件2)。注意到例子中,存在两个错误效果抵消的情况,注意到参与人1取RL′与RR′的概率相等,这意味着第一次错选了R之后又在第二次行动时以的概率错选L′,即以更大的错误才抵消第一次错误的结果,这不合犯错误的一般规律。泽尔腾改进了定义,要求各阶段犯错误是独立的,即在每个信息集上的颤抖是独立的。
针对图(5.18)(a)若参与人1在后一次选择时选L′的概率是ε2,第一次选R的概率是ε1,如果两次犯错误是独立的,则偏向RL′的概率是ε1ε2,而偏向RR′的概率是ε1(1-ε2),可以看到,这样独立看待两个错误单元之后,RR′的概率与RL′的概率有量级上的差别,犯RL′错误的可能性是犯RR′的错误可能性的高级无穷小量。而用策略式分析错误时却可以是同级无穷小量。这时参与人2选U就不一定是最优的。为了使犯错误的单元独立开来,泽尔腾的技术处理是构造一个等价的博弈,每个参与人多次选择时相当于多个选择人各行动一次来引入博弈代理人,从而使错误的单元断开。
图(5.18)的博弈用下面的博弈来等效替代。参与人3是参与人1的博弈代理人,他的收益与参与人1的收益相同,但参与人1与其代理人是不同的人,两人犯错误是独立的。
图5.19 代理人博弈树
参与人3有一点颤抖即较小的概率误选L′时,对参与人2,D是最优的,而U不再是最优的,可以验证(R,D,R′)是唯一的颤抖均衡,即(RR′,D)是原问题的唯一颤抖手均衡,它是博弈的子博弈精炼纳什均衡。在应用上,可以用以信息集的前提条件下,经得起小的颤抖来加以检验。
关于颤抖手均衡,已经证明在所有的有限博弈中,存在颤抖手均衡。由于它比序贯均衡的要求高,因此也就保证了序贯均衡的存在性。因而一般的精炼贝叶斯均衡也存在。尽管均衡的概念层层递进,但几乎所有博弈中这三个均衡概念下的均衡解相同。
各种均衡的差异往往在一些特殊的效用中出现,这提示我们应该注意不同行动组合收益的特殊取值的情况(尤其是不同组合下收益相同)。理论上说,概率分布的作用可以用效用值替换的,应用中为了避免不必要的复杂性,宁可适当调整效用函数,以使均衡简洁。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。