首页 理论教育 基于Agent的辩论谈判的社会制度分析与模型优化

基于Agent的辩论谈判的社会制度分析与模型优化

时间:2023-07-18 理论教育 版权反馈
【摘要】:在基于Agent的辩论谈判过程中,代表谈判各方的Agent受其所处社会制度影响较大。可以看出,这两种分类主要是根据社会制度与行为之间的关系来制定的,是相互补充的,它们共同构成了基于Agent的辩论谈判的社会制度。根据以上定义和分类,可以将基于Agent的辩论谈判的社会制度的表述通过图5-1的模型形式进行描述。根据社会学的相关理论,基于Agent的辩论谈判中,社会制度的产生原因主要在于参

基于Agent的辩论谈判的社会制度分析与模型优化

在基于Agent的辩论谈判过程中,代表谈判各方的Agent受其所处社会制度影响较大。例如,如果社会制度规定只能在一定的时间和地点进行辩论谈判或者规定只能是社会制度所规定的Agent参与辩论谈判的话,都将对整个辩论谈判产生一定的影响,甚至可能决定辩论谈判的结果。在这里,对社会制度的分析和研究主要通过对其定义和分类、表述模型、社会制度的产生原因和产生模型进行描述而进行说明。

5.2.1 基于Agent的辩论谈判的社会制度的定义、分类及表述模型

关于社会制度的定义,已经有许多经济学家和社会学家对其进行了研究,并都从各自研究的角度提出了相关的定义,但总体来看,还没有形成一致的观点,比较有代表性的有如下几个[1]

①诺斯的定义:社会制度是社会中的游戏规则,或者更一般地说,社会制度是人们设计出来调节人们之间相互作用的一些约束性的规则或条件;

舒尔兹的定义:社会制度是规定人们日常行为的规则集合,这些规则与社会政治及所从事的社会活动有关,并支配和制约着每个人的行为;

③康芒斯的定义:社会制度是人们的集体活动对个体活动的控制。

④昝廷全的定义:社会制度是指经济系统对其经济元及其子系统的各种约束和影响以及这些不同的约束和影响之间的关系所共同构成的有机整体,因此,可以形式化地表示为:社会制度=({经济系统对其经济元及其子系统的约束和影响},{不同的约束和影响之间的关系})。

综合以上各主流经济学家和社会学家对社会制度的定义,可以看出,这些观点一般都认为社会制度是对处于社会中的人的制约(或者说控制和约束)和影响,而没有考虑到实际上合理的社会制度还可能对社会成员产生有效激励这个方面。因此,在将他们的理论应用于基于Agent的辩论谈判中时,我们对这个方面做了进一步的补充说明,以使基于Agent的辩论谈判的社会制度的定义显得更为丰满和完善,或者说更为一般,具体如下:

定义5-1(基于Agent的辩论谈判的社会制度) 基于Agent的辩论谈判的社会制度存在的条件是整个多Agent社会认定的能够对制度所涉及的各种辩论谈判行动进行控制的权利,这种权利既能由产生这种行动的个体Agent掌握,也可能不是由产生这种行动的个体Agent掌握,并且这种权利不是多Agent社会中法定的权利,是非正式的,是整个多Agent社会认定的权利。在此基础上建立的社会制度既可以是对参与辩论谈判的个体Agent的行为有约束效果的,也可以是有激励效果的,因此,除了包括参与辩论谈判的每个个体Agent及相应的辩论谈判行为(如辩论谈判的内容、前面几章提到的辩论谈判策略等)之外,最重要的还是应该包括相应的约束和激励规则以及这些规则之间的相互关系。

根据基于Agent的辩论谈判的社会制度的定义,其分类可以从总体上分为两大类:一类是具有约束性的社会制度,这种社会制度主要是规定在基于Agent的辩论谈判中,什么样的行为是被允许的,而什么样的行为是被禁止的,如果违反规定,将会受到什么样的惩罚等;另一类是激励性的社会制度,这种社会制度并不是对在基于Agent的辩论谈判中每个个体Agent的行为进行规定,而是带有一定的指导性,即对Agent所应当采取的一定的行为进行鼓励,甚至给予一定的奖赏,以激励它去完成这个行为。可以看出,这两种分类主要是根据社会制度与行为之间的关系来制定的,是相互补充的,它们共同构成了基于Agent的辩论谈判的社会制度。

另外,根据基于Agent的辩论谈判的社会制度所适用的Agent对象及其行为可能与这些社会制度发生联系(违反社会制度或被社会制度所激励)的Agent所属群体是否一致来看,可以将约束性的社会制度和激励性的社会制度进一步划分为共同遵守的约束性(激励性)社会制度和非共同遵守的约束性(激励性)社会制度。前者表示,如果某个或某些Agent既是基于Agent的辩论谈判的社会制度所适用的Agent对象,它或它们的行为又是这种或这些社会制度所约束或激励的话,这种或这些社会制度就是共同遵守的社会制度;而如果某个或某些Agent虽然是基于Agent的辩论谈判的社会制度所适用的Agent对象,但其行为并不受到这种或这些社会制度所约束或激励的话,这种或这些社会制度就是非共同遵守的社会制度。

根据以上定义和分类,可以将基于Agent的辩论谈判的社会制度的表述通过图5-1的模型形式进行描述。为了更好地理解图5-1,需要结合上述定义和分类,从数学集合的角度来进行阐述,具体如下:将图中最大的椭圆视为基于Agent的辩论谈判中所有有关辩论谈判的行为集合,记为B,其中有一部分行为是被禁止或者说是不允许的,在图中以小的椭圆表示,这部分行为集合记为B1,其余的部分则可以视为被社会制度所激励的,这部分行为集合可以记为B2。对于约束性的社会制度,其中有参与辩论谈判的Agent所共同遵守的行为集合,记为,也有非共同遵守的行为集合,记为。同理,对激励性的社会制度,其中有参与辩论谈判的Agent所共同遵守的行为集合,记为,也有非共同遵守的行为集合,记为。集合之间的关系以公式(5-1)、(5-2)和(5-3)表示。

图5-1 基于Agent的辩论谈判的社会制度的表述模型

5.2.2 基于Agent的辩论谈判的社会制度的产生原因及分析

一般认为,社会制度是从宏观角度提出的概念,却从微观角度控制Agent的个体行为,因此也可以用来解释多Agent社会中每个Agent的行为,自然而然地也就可以用来解释其中可能会频繁出现的基于Agent的辩论谈判。

理性选择理论认为,社会制度是Agent进行辩论谈判的原则基础,即个体Agent根据社会制度采取相应的行动,以完成辩论谈判,得到自己所满意的结果,这种理论的出发点主要在于Agent的个体理性,认为每个Agent都是以最大限度获取利益为出发点的,而Agent的个体利益是既定的,因此他们认为社会制度也是既定的,这种理论把社会制度作为既定条件,从而忽略了整个Agent社会是不断发展变化的这个客观事实,因此具有一定的局限性。

根据社会学的相关理论,基于Agent的辩论谈判中,社会制度的产生原因主要在于参与辩论谈判的Agent所拥有的权利是不均衡的,持有一定权利的Agent往往会建立一定的社会制度,以限制或鼓励其余Agent的某些行动,参与交易的代表买卖双方的Agent在进行辩论谈判时,拥有较多权利的Agent可以建立一定的社会制度,如不允许其余的Agent进入他们的辩论谈判活动中,从而保证它们的辩论谈判能够顺利完成,并使结果至少对它来说是满意的。

由此可以看出,由于权利的不均衡分配,导致Agent在辩论谈判中的任何个体行动都有可能对其他的Agent行动产生影响,这一概念类似于经济学中的外部性,因为这些行动不仅影响着产生这些行动的参与辩论谈判的个体Agent,同时也使其余的Agent付出相应的代价,当然,有一定激励效果的社会制度也会使其余的参与辩论谈判的个体Agent获益。

此外,基于Agent的辩论谈判中,具有外部性的行动并非要求相应的控制权一定要由采取这个行动的个体Agent本身来控制,也就是说,存在于多Agent社会的辩论谈判中,只要没有明确的类似于人类法律来禁止这种活动,这种活动的控制权就和其他权利一样是可以被买卖的。而如果其余的Agent想要制止这种行动,需要付出高昂的代价的话,出于个体理性,尽管这种活动对其他的Agent产生了较大的不利影响,仍然是不会得到限制的。例如,在基于Agent的辩论谈判中,如果买卖双方正在就交易进行辩论谈判,这时另外一个Agent不断地向它们发出干扰,如试图岔开它们的辩论谈判议题等,显然,这个Agent拥有支配干扰活动的权利,然而,如果它们之间没有明确的类似于人类的法律来禁止的话,参与辩论谈判的买卖双方就需要花费一定的代价来购买这种控制权,如给予这个Agent一定的商品或利益等来使其停止这种行为,但如果代价过高的话,它们宁愿让其喋喋不休,但最终结果可能是辩论谈判结果不能使双方都感觉非常满意。

5.2.3 基于Agent的辩论谈判的社会制度产生模型及分析

以上分析表明,Agent间权利的不均衡分配是导致基于Agent的辩论谈判的社会制度产生的主要原因。更进一步地来看,导致权利不均衡分配的主要原因则是由于每个Agent所拥有的资源及对资源的控制力度不同而造成的。因此,以下有关基于Agent的辩论谈判的社会制度的产生模型主要是建立在对这些方面的研究的基础之上的。

1.模型的基本概念和假设

社会学基础理论认为,最基本的社会系统可以只由两种元素组成,并且这些元素按两种方式联系在一起,第一种元素是行动者,第二种元素是某种物品,行动者控制着这些事物,并从中得到利益。因此,在社会行动系统内,最低限度必须有两个行动者,而且每人都控制着能使对方获利的资源。由于双方的利益均依赖对方控制的资源,所以,作为有目的的行动者,他们必须从事与对方发生关系的活动。

基于以上观点,我们将基于Agent的辩论谈判所涉及的参与辩论谈判的Agent、参与辩论谈判的Agent的行为等视为一个完整的系统,通过研究相关社会制度的产生而造成系统中主要元素(Agent所拥有的资源及对资源的控制力度等)及它们之间关系的变化,来研究相关社会制度的产生模型。

假定系统中有n个代表行动者的Agent正在就某商品的交易进行辩论谈判,衡量这种商品的指标有m个,主要概念及假设如下:

目标行为:与制度相关的行为,即此行为将会被制度所约束或激励。

目标行为相关的Agent:目标行为涉及的Agent。

状态a:目标行为不受社会制度的约束或激励,即没有建立相关的社会制度。

状态b:目标行为受到制度的约束或激励,即已经建立相关的社会制度。

cij:表示Agen ti对商品指标j的权利,且cij≥0;cij=1;i=1,…,n;j=1,…=m。

xij:表示指标j对Agenti的利益,且xji≥0;xji=1;i=1,…,n;j=1,…=m。

可以以矩阵表示如下:

C=‖cij‖ (控制矩阵:n×m阶)

X=‖xji‖ (利益矩阵:m×n阶)

在系统中,如果参与的Agent很多,就会存在竞争,而系统最终的状态是要达到竞争均衡,即参与的Agent通过自身所拥有的资源以统一的价值进行交易,从而最大限度地实现自身效益。因此,这里可以看成是参与辩论谈判的Agent通过自身所拥有的资源以合适的并且是符合相关的社会制度约束或激励的辩论谈判方式等进行谈判,最终以统一的价值实现交易,从而最大限度地实现自身效益,实现竞争均衡。

vj:表示指标j在系统中的价值,其矢量表现形式为v=‖vj‖(m×1矢量);

ri:表示Agenti所拥有的资源价值,即对其所拥有的商品的每个指标的价值的加权,也就是前面所提到的权利,且ri=∑cijvj

因此,Agenti在基于Agent的辩论谈判中的所有行为的目的都可以看成是以ri为前提,最大限度地实现其自身效益,即实现max U(ci1,…,cim)。

2.基于Agent的辩论谈判的社会制度产生模型及求解

以下标l代表某个目标行为,这一行为对目标行为相关的Agent中的某一个(如Agent1)具有积极的后果,即Agent1愿意完成这个行为,而这一行为对其他的行为相关的Agent具有消极的后果,即其他的行为相关的Agent1对此行为都持反对意见。结合社会制度的产生原因,如果Agent1对此行为拥有的权利足够,即控制着这个目标行为,则此目标行为的最初控制权由其所拥有;如果其他的行为相关的Agent对此行为拥有的权利足够,即控制着这个目标行为,则此行为的最初控制权由这些Agent所共同拥有,为方便研究,假定他们所拥有的最初控制权相同。(www.xing528.com)

定义两个新的利益矩阵Xa和Xb,前者表示状态a时的利益矩阵,后者表示状态b时的利益矩阵,根据前面对利益矩阵X的定义, Xa和Xb的第一列都应当与X的第一列相同,即满足以下条件:

产生模型可以以控制矩阵、利益矩阵和价值矢量之间的关系表示如下:

v=Xr=XC v(5-4)

r=Cv=CX r(5-5)

根据公式(5-4)和(5 5),可以得到状态a和状态b时各元素的关系如下:

va=Xara=XaC va(5-6)

ra=Cva=CXara(5-7)

vb=Xbr=XbC vb(5-8)

rb=Cvb=CXbrb(5-9)

可以通过Xa和C求得va和ra,也可以通过Xb和C求得vb和rb,计算方法可以采用迭代法,以公式(5-5)为例,具体如下:

①令Y=CX,任意选取一个矢量r0(可通过计算得到 )为起点,其所含元素为r(0),并且定义rj=r0,以Y乘以rj,计算得到rj+1

②依次计算所有的,选择其中的最大值,并且选取一个被认为可以表达最理想的精确度的任意小的值ε(如0.001),比较最大值与ε的大小,如果前者小于后者,中止迭代,否则,以rj+1代替rj,返回步骤一,重新开始迭代,直到满足条件为止。

3.对模型的进一步扩展和分析

以xl1ra1表示完成目标行为l的Agent1在状态a时所拥有的资源的价值,以表示与其他行为相关的Agent在状态b时所拥有的资源总量的价值。

在状态a时,目标行为l不受相应制度的约束或激励,Agent1能通过所拥有的资源xl1ra1获得并维持对目标行为l的控制权利,因此它可以应用这些资源,根据拥有的相应的控制权利,通过相关的辩论来说服与其他行为相关的Agent免除对它的惩罚或兑现对它的激励,完成此行为。如果涉及经济方面,这种控制权利还可以进行交易,交易的成本则是Agent1所拥有的资源的价值,即xl1ra1

在状态b时,目标行为l受到相应制度的约束或激励,表明与其他行为相关的Agent拥有足够的资源,以获得并维持对目标行为l的控制权利,因此,如果目标行为l触犯或符合它们的利益,它们便可以应用这些资源,根据拥有的相应的控制权利,通过相关的辩论来说服Agent1,约束或激励其完成这个行为。同理,如果涉及经济方面,这种控制权利还可以进行交易,交易的成本则是与其他行为相关的Agent所拥有的资源的价值,即

综合以上分析来看,在基于Agent的辩论谈判中,Agent1是否能完成目标行为l的条件应当是xl1ra1,这就是相应社会制度产生需要满足的条件。

在对基于Agent的辩论谈判所涉及的社会制度进行的分类中,主要分为约束性和激励性两种,并在此基础上进一步将它们分别分为共同遵守的和非共同遵守的,而以上模型主要是从整体上来研究的。因此,需要将模型就这几个分类作进一步的拓展,以更深入地展开研究和分析讨论。

设目标行为l∈L,其中,L表示目标行为集合,该集合中的所有行为与社会制度相关,即受到相应社会制度的约束或激励。以al表示属于目标行为集合L的状态a,bl表示属于目标行为集合L的状态b,rai表示与目标行为相关的Agenti在状态al中的权利,rbi表示与目标行为相关的Agenti在状态bl中的权利,Sk表示一类与目标行为相关的Agent将会在目标行为中获益,Tk表示一类与目标行为相关的Agent将会在目标行为中受到伤害。则有:

从以上产生模型来看,基于Agent的辩论谈判的社会制度的产生,主要在于比较完成目标行为l的Agent1在状态a时所拥有的资源的价值与其他的行为相关的Agent在状态b时所拥有的资源总量的价值。

因此,如果满足公式(5-12),就会产生与之相关的社会制度:

进一步来看,在基于Agent的辩论谈判中,如果目标行为属于约束性社会制度的范畴,并且产生目标行为的Agent也是这种社会制度所适用的Agent对象,就会产生相应的需要共同遵守的约束性社会制度,而如果目标行为虽然属于约束性社会制度的范畴,但产生目标行为的Agent并不受到这种社会制度所约束的话,就会产生相应的约束性社会制度,但这种约束性社会制度是属于非共同遵守的。同理,对于目标行为属于激励性社会制度的范畴来说,也可按此方式进一步划分。从上面的分析可以看出,上述模型对约束性社会制度的产生和激励性社会制度的产生是相同的,因此,以下以前者为例进行分析。

目标行为l主要只对完成目标行为的Agent有利,而这个Agent一般都是唯一的。因此,可以假定Sk中只有一名与目标行为相关的Agent,称为Agentk,则可将公式(5-10)简化为公式(5-13):

综合公式(5-11)和(5 13),可以得出建立与目标行为相关的约束性的社会制度需要满足的条件,即公式(5-14):

公式(5-14)中,xkk表示完成目标行为对Agentk来说的利益, xki则是完成目标行为可能对其造成伤害的Agent在社会制度产生后所获得的利益。

公式(5-14)右侧表示的是完成目标行为的Agentk的利益,左侧表示的是社会制度产生后受益的Agent的利益。对共同遵守的约束性社会制度来说,完成目标行为的Agentk与其余的Agent一样,同属于Tk;而对非共同遵守的约束性社会制度来说,这两种利益是相互分离的,即Agentk不属于Tk

可以看出,如果其他条件相同,而社会制度的受益Agent不是完成目标行为的Agentk,并且前者的权利大于后者的权利时,非共同遵守的约束性社会制度便有可能存在,因此,在这种情况下,双方权利的差别显得很重要。

对激励性的社会制度产生可参照以上思路进行分析和讨论。

4.算例和分析讨论

为了对模型进行更好地说明,下面举出一个相关的算例,并进行分析和讨论。由于产生模型类似,因此,选择以约束性社会制度为例进行说明。

假定多Agent社会中,有三个Agent正在就某商品的交易进行辩论谈判,不失一般性,可以认为其中的任意一个Agent都可以作为买方或者是卖方,在它们的辩论谈判过程中,它们中的任意一个Agent都有可能随时与不属于这三个Agent的其余的任意Agent进行其他的辩论谈判(目标行为),这样就可能影响它与其余两个Agent的交易,进而影响辩论谈判的结果,给参与辩论谈判的各Agent造成一定的损失,因此就需要产生与之相关的社会制度来约束这种行为。下面根据上述模型来说明相关社会制度是如何产生的。

根据模型,假定任意一个Agent产生这个目标行为的利益都为0.1,因此,可以选择任意一个Agent(这里选取Agentγ)作为产生目标行为的对象。在有关商品交易的各项指标中,选取价格、数量和交货期作为分析和讨论的对象,这几个指标和目标行为在每个Agent中的利益总和为1。相关的控制矩阵和在状态a(没有产生相关的社会制度)及状态b(产生了相关的社会制度)时利益的分布见表5-1、表5-2和表5-3。将表中数据应用于上述模型中,并根据模型中有关矩阵运算的求解,可以得出两种状态下各指标和目标行为的价值以及每个Agent在这两种状态下的权利,具体见表5-2和表5-3。

表5-1 辩论谈判过程中的控制分布

表5-2 状态a时辩论谈判过程中的利益分布和权利、价值计算

表5-3 状态b时辩论谈判过程中的利益分布和权利、价值计算

从表5-2可以看出,如果约束Agentγ完成目标行为的相关社会制度不产生的话,即Agentγ能够完成目标行为,它可以获得0.046的价值;而从表5-3可以看出,如果约束Agentγ完成目标行为的相关社会制度产生的话,即Agentγ不完成目标行为,则Agent α和Agent β可以获得0.048的价值,因此,相比之下,Agent α和Agent β愿意付出一定的代价,并且它们可以根据上述计算,通过相关的辩论谈判来说服Agentγ建立相关的需要共同遵守的社会制度,即满足了共同遵守的约束性社会制度的产生条件。这样做的结果是使辩论谈判的结果(或者说是交易的最终结果)令各方都满意。

以上算例主要是针对共同遵守的约束性社会制度的产生的,关于非共同遵守的约束性社会制度的产生与此类似,唯一的区别在于在满足约束性社会制度产生的条件的同时,非共同遵守的约束性社会制度的产生对象可能是除Agent α、Agent β和Agentγ之外的某个Agent(如Agentθ),假定目标行为采用上面举出的例子,则与目标行为相关的社会制度是Agent α、Agent β或Agentγ中的任何一个都需要遵守的,但Agentθ可能不受到相关社会制度的约束,原因可能有多种,如它对这种商品的交易毫无兴趣。此外,激励性的社会制度的相关算例和分析也可以参照以上得到。

[1] 黄梯云,《智能决策支持系统》,电子工业出版社,2001年。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈