博弈论中理性人假设的困境“博弈参与人是理性的”是博弈论的公设,然而理性人假定存在许多博弈困境。
囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突;纽科母难题(Newcomb problem)体现了理性人使胜占优策略原则与最大期望效用原则时的两难;最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是理性的而结果是非理性的,其中蜈蚣博弈悖论又称为逆向归纳法悖论;而投票悖论则反映了群体建立加总群体偏好的理性规则的限度。
在博弈论中,博弈论专家不仅假定了博弈参与人(player)是理性的(rational),而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识(common knowledge)——公共知识简单说来就是“我们知道”的事实。
理性人在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付(pay-off)最大的人。
然而,理性的参与人在某些博弈中并不能使自己的得益最大,在另外一些博弈中理性反而成为获得最大得益的障碍,在某些情况下理性人面临难以做出决策的二难,即:“理性人”面临着困境。
一、个体理性与集体理性的冲突一个熟知的博弈困境是囚徒博弈。
囚徒困境(Prisoners'dilemma)是这样一个博弈:两个囚徒被警察抓住后单独关押,警察给他们的政策是“坦白从宽,抗拒从严”。
每个囚徒均面临着两个策略选择“招认”和“不招认”。
如果一方“招认”,另外一方“不招认”,招认方无罪释放,不招认方将被重判(比如10年);如果双方均“招认”,因无立功表现,每人均被判刑(如5年),而如果每人均“不招认”,警察抓不到足够的证据证明以前的犯罪,只能对他们目前所犯的罪进行惩戒(如判刑半年)。
这个博弈中,两个囚徒均会选择“招认”,因为无论对方选择什么策略,自己选择“招认”是占优策略(dominant strategy)。
双方均选择“招认”的策略组合点是纳什均衡(Nash Equilibrium)点。
如果两个囚犯都选择“不招认”策略,结果是最理想的状态。
但这个状态是达不到的,因为每个理性的囚徒均会主动偏离这个状态。
一个稳定的状态是双方均选择“招认”,这是理性的囚徒难以摆脱的困境。
与此类似的是公共地悲剧(tragedy of the commons)。
公共地悲剧是由美国生物学家哈定(G.Hardin)在1968年提出的,该问题提出后引起各个领域里的讨论。
他说,想象一个对所有牧民开放的牧场,每个牧民的占优策略是尽量多地放牛。
因为购买小牛的成本小于当牛长成后被卖出后所得的收益。
但是,当每个牧民均作如此思维与策略选择的时候,牧场将被过度放牧而荒芜了。
这是一种集体行动的悲剧。
哈定说,人口问题,污染问题以及军备竞赛问题,均具有与此相同的结构。
哈定这里所说的悲剧是古希腊意义上的。
他借用怀特海的话说,悲剧不是不幸,而是事物发展的无情性。
即,人类知道这个悲剧,但无法摆脱它发展的必然性。
公共地悲剧就是这样的悲剧——每个人均能够预先知道悲剧的必然性,因为这个必然性是每个人理性行为的结果,但每个人由于自己的理性,均不会约束自己的策略选择,因而悲剧是不可避免的。
囚徒困境与公共地悲剧所反映的是个体的理性行为产生的集体的不合理性行为,体现了个体理性与集体理性的冲突。
然而,当人类社会真的要产生如公共地悲剧这样的悲剧的时候,人们的价值观以及相应的社会制度会自动产生一种克服该悲剧的方法来。
因而,悲剧并不是不可避免的。
囚徒困境与公共地悲剧中的个体的理性是没有任何价值观约束下的理性,与实际中的情况相差甚远。
二、理性原则间的冲突1960年,物理学家威廉·纽科姆(William Newcomb)提出了一个策略选择难题。
哲学家诺齐克在1969年《纽科姆难题和两个选择原则》中转述了这个难题,并称之为纽科姆难题(Newcomb problem)。
然而,“人们从未看到纽科姆本人就该疑难发表文章”。
诺齐克认为,纽科姆难题“是一个漂亮的难题。
我真希望它是我提出的。
”不管纽科姆难题是谁提出来的,但它的提出引起了人们尤其是哲学家的广泛争论。
它所反映的是理性人决策时的两个原则“最大期望效用原则”(Maximum Expected Utility)与“占优策略原则”(Dominant Strategy)之间的冲突。
纽科姆难题是这样的:假定有两个黑色的盒子。
你无法看到盒子里的东西。
1号盒子里面有1000元钱;2号盒子里面或者有1000000元,或者为0元(这由神来确定)。
你有两个选择:(1)选择全部,即1号和2号盒子;或者(2)只选择2号盒子。
假设一个有预测力的神能够预测你将作出的选择。
如果他预测你将“选择两个盒子”,他事先不在2号盒子里放钱,即他使盒子里面的钱数为0;如果神预测到你“只选择2号盒子”,他将1000000元钱放进2号盒子里(如果他预测你将使用随机的方法做出选择,他仍使2号盒子空着)。
我们假定了这个神能够准确预测。
有可能的是,这个神的预测能力可能不是100%准确,但足够准确,如90%的准确。
具有这个能力的可以是神,或者精灵,或者某个超级生物。
这是人和神之间的一个博弈。
如果是你,你将“选择两个盒子”还是“只选择2号盒子”?表1在神与人的博弈中人的得益附图根据占优策略原则,你应当选择“取两个盒子的策略”。
因为,神的预测是过去做出的。
2号盒子里的钱的多少是不可更改的,与你现在的选择无关。
如果神预测到你将“取两个盒子”,而你“只取了2号盒子”,你所得为0元,而选择“取两个盒子”的策略的所得为1000元,“取两个盒子”的所得比“只取1个盒子”的收益多1000元。
此时,你应当“取两个盒子”。
而如果神预测到你“只取2号盒子”,他在2号盒子里面放了1000000元,你如果“只取2号盒子”,你的所得为1000000元,而如果“取两个盒子”,你的所得为1001000元,“取两个盒子”比“只取一个盒子”多1000元。
此时,你应当“取两个盒子”。
综上所述,“取两个盒子”是占优策略。
你应当选择“取两个盒子的策略”。
而如果根据最大期望效用原则,你应当选择“只取一个盒子”的策略。
因为,假定你选择“取两个盒子”,神已经预测到这点,他使2号盒子里面为0,你的所得是1000元;你“只取2号盒子”,神预测到这一点,那么神在2号盒子里面放了1000000元,这样你的所得为1000000元。
选择“只取2号盒子”比“取两个盒子”的所得多1000000元。
因此,你应当选择“只取2号盒子”的策略。
即使神的预测不是100%的准确,只要神的预测准确度超过一定的概率,我们还是应当选择“只取2号盒子”的策略。
因为:假定神的预测是90%的准确,“取两个盒子策略”的期望得益为:0.9×1000+0.1×1001000=101000(元)“只取2号盒子”的期望所得为:0.1×0+0.9×1000000=900000(元)此时,应当选择“只取2号盒子”。
通过计算,只要神预测的准确性超过0.5005,根据最大期望效用原则,我们应当选择“只取2号个盒子”。
这两个选择均有理由,但它们不可能同时正确。
究竟应当选择“取两个盒子”还是“只取2号盒子”的策略?加得纳(Matin Gardner)1973年在《科学美国人》杂志数学游戏栏目中邀请读者给出这个难题的答案以及建议,有明确答案的126封来信中,89封信说选择2号盒子;37封信说他们选择取两个盒子。
另外有18人认为这个难题的条件不能满足。
对这个难题,哲学家诺齐克、莱维(Isaac Levi),均认为应当选择“取两个盒子”,纽约大学政治系著名政治学家勃拉姆兹(Steven Brains),以及纽科姆本人认为应当选择“只取2号盒子”。
笔者进行了一个实验。
本人将这个难题出作本科生博弈论课程的考试题。
78名学生参加了考试。
学生事先不知道这是一个没有确定答案的难题。
我给了他们这两种选择答案,并给了他们理由,让他们利用他们的分析能力对之进行选择。
实验结果是:62人选择“只取2号盒子”,14人选择“取两个盒子”,2个人不能表明态度。
选择“只取2号盒子”的人数接近“取两个盒子”的人数的4.5倍。
加得纳(Matin Gardner)的实验结果也是选择“只取2号盒子”的人多,但比例没有本人这里的实验结果高。
见下表。
表2实验结果附图纽科姆难题涉及到人的意志是否是自由的问题。
因而,纽科姆难题又称自由意志困境。
在博弈论中,博弈论专家预设了博弈参与人具有理性决策能力。
但更为基本的是,博弈论预设人可以“自由地”选择策略,即人的意志是自由的。
然而在纽科姆难题中人的意志是否是自由的,则是一个问题。
如果神能够准确预测并做出正确的决定,表明在人的预测与人的决定之间存在着因果联系。
此时,无论人做出什么样的决策,均是神的预测的实现。
如果神预测不是绝对准确,可能因为他对这种因果联系的认识不精确而已。
基于这样的信念,选择“只取2号盒子”是合适的。
如果人的意志是自由的,神的预测就难以准确。
此时,人的理性便能够发挥作用。
此时,人应当采用“混合策略”,即以一定的概率选择“取两个盒子”和“只取2号盒子策略”,概率各为0.5。
当然,如果是重复博弈,并且假定神的目标是尽量预测准确人的选择,人与神采取“合作策略”是合理的,即人选择只取2号盒子,而神预测人将选择“只取2号盒子”的策略。
三、过程理性与结果理性之间的冲突逆向归纳法(backward induction)是求解动态博弈均衡的方法。
所谓动态博弈是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。
逆向归纳法在逻辑上是严密的,然而它存在着“困境”。
所谓逆向归纳法是从动态博弈的最后一步往回推,以求解动态博弈的均衡结果。
逆向归纳法又称逆推法。
它是完全归纳推理,其推理是演绎的,即结论是必然的。
我们来看一下最后通牒博弈(ultimatum game)的均衡。
有这样一个动态博弈——A、B两个人分100元钱。
规则规定:A提出方案,B对之进行表决。
如果B对A提出的方案表示同意的话,A、B就按照A提出的方案进行分配,如果B 不同意A的方案,那么A和B均将一无所有。
这是一个完全且完美信息动态博弈(dynamic game with perfect and complete information)。
让我们分析这个过程。
A提出方案时,他知道B是理性人。
B的行为是可被A预测的。
A将提出这么一个方案:A和B的所得比例为99.99:0.01,即给B留1分钱,而将其余99元9角9分留给自己。
此时B面临“同意”和“不同意”的选择:如果B“同意”,B所得为1分钱;如果B“不同意”,他将一无所得。
理性的B将选择“同意”——这个选择是A所能够预测的。
因此在“最后通牒博弈”中,理性的B只能得到1分钱!而A正是根据B的理性的选择而使自己利益最大。