当前位置:文档之家› 博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展05-06-13 10:57 发表于:《没有范的世界》分类:未分类博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。

在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。

可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。

A和B均坦白是这个博弈的纳什均衡。

这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。

即是说,不管A坦白或抵赖,B的最佳选择都是坦白。

反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。

结果,两个人都选择了坦白,各判刑8年。

在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。

如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。

当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。

在经济学方面的实例:一.电信价格竞争根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。

假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。

A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。

这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。

在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。

这时候,A该怎么做?不妨假定:A降价而B维持,则A获利15,B损失5,整体获利10;A维持且B也维持,则A获利5,B获利10,整体获利15;A维持而B降价,则A损失10,B获利15,整体获利5;A降价且B也降价,则A损失5,B损失5,整体损失10。

从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化,A就不可避免地选择了降价。

从B角度看,效果也一样,降价同样比维持好,其降价收益为5,维持收益为2.5,它也同样会选择降价。

在这轮博弈中,A、B都将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。

这就是此博弈最终所出现的纳什均衡。

我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。

许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

二.OPEC组织成员国之间的合作与背叛“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。

上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。

而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。

比如中东石油输出国组织(OrganizationofPetroleumExportingCountries简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。

OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。

连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。

合作的可能性不是必然性。

博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。

如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。

这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。

所以合作是非常困难的。

所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石油产量。

每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌,大家的利润都受到损失。

当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量,价格再下跌……。

理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。

那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。

但只要是有限次的合作,合作就不会成功。

比如合作10次,那么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。

但是大家料到第九次会出现不合作,那么就很可能在第八次就采取不合作的态度。

第八次不合作会使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。

以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析,虽然在现实生活当中影响人们决策和态度的因素很多,但是,博弈论作为现代经济学的前沿领域,始终是一个强有力的分析工具。

囚徒困境在理论上的延伸:一、博弈中最优策略的产生艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。

也就是说,个人可以完全按照自己利益最大化的企图进行决策。

在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。

比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。

在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。

对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。

选择C代表合作,选择D代表不合作。

如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C 的得零分,选D的得5分;如果AB都选D,双方各得1分。

显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。

如果一方选C,一方选D,总体得5分。

如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。

在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。

因此,无论对方选C或D,对A来说,选D都得分最多。

这是A单方面的优超策略。

而当两个优超策略相遇,即A,B都选D时,结果是各得1分。

这个结果在矩阵中并非最优。

困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。

在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。

既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。

这样,合作的动机就显现出来。

多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。

在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。

假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。

对这种对策者,当然合作下去是上策。

假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。

对于总是不合作的人,也只能采取不合作的策略。

艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。

他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。

第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。

结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。

这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即" 可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即"宽容性"。

为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。

相关主题