当前位置:文档之家› 博弈论纳什均衡

博弈论纳什均衡

博弈论纳什均衡
什么是纳什均衡?
1、纳什均衡(Nash equilibrium ),又称非合作博弈均衡,是博弈论概念,指的是:
一种博弈稳定结果,谁单方改变策略,谁就会损失。

两个囚徒互相揭发,就是一种纳什均衡。

对于每个囚徒来说,如果打破纳什均衡,在对方实施揭发策略时,改变揭发策略,保持沉默,自己就会由判刑2年,变成判刑5年。

也就是说,两个囚徒互相揭发是稳定博弈结果,谁单方改变策略,就会受到损失。

这也就是均衡涵义所在,两个囚徒从利己角度,都不会单方改变策略。

博弈策略稳定,博弈结果也稳定。

之所以命名为纳什均衡,是因为提出者是经济学家、博弈论创始人约翰.纳什。

之所以称为非合作博弈均衡,原因就是:两个囚徒如果合作,互相保持沉默,各自只要坐牢1年;但最终博弈结果,也就是纳什均衡显著特
征,是不合作。

2、纳什均衡意义重大。

纳什均衡提出,震动整个经济学界。

诺贝尔经济学奖得主萨缪尔森曾说:“你只要教会鹦鹉说‘需求和供给’,它也是经济学家。

”博弈论专家坎多瑞则说:“这只鹦鹉现在必须多学一个词了,那就是‘纳什均衡’。


诺贝尔经济学奖得主迈尔森也说:“发现纳什均衡意义,可以和生命科学中发现DNA 双螺旋结构相媲美。


纳什也因为提出纳什均衡,创立博弈论,而获得1994年诺贝尔经济学家奖。

纳值均衡意义重大,简单来说,就是它对于经济学具有重大意义。

读友们如果了解经济学看不见的手原理,就知道,古典经济学认为,通过市场这只‘看不见的手’调节,个体追求私利行为,会促进集体利益最大化。

但纳什均衡却违反上述原理:两个囚徒分别追求私利行为,并没有促进集体(囚徒整体)利益最大化,反而是损人不利己。

这正是市场失灵软肋之处,通过博弈论视角可以得到合乎逻辑解释,更有条件找到合适解决方案。

从上述这点,读友们可以“一斑窥全豹”,感受到博弈论重要性。

更重要的是,纳什均衡非常普遍,小至个人沟通,中到公司竞争,大到国家往来,都可以观察到。

Q2:怎样运用纳什均衡?
1、分析囚徒困境。

如上所述,囚徒困境纳什均衡结果是,两个囚徒互相揭发。

发生这个过程并不难理解:
先从心理学视角分析,由于两人相互隔离,彼此无法传递信息、做好串供,就会怀疑对方会出卖自己以求自保。

再从经济学视角分析,囚徒都是“理性经济人”,遵循看不见的手原理,会从利己角度进行选择:
假如他坦白,如果我沉默,得坐5年监狱;如果我坦白,最多才2年;假如他要是沉默,如果我也沉默,我就会被判1年;如果我坦白,就可以被释放,而他会坐5年牢。

综合来说,不管对方坦白与否,对我而言,都是坦白划算。

由于两个囚徒都是这么想,那么,最终都会被判坐牢2年。

也就是说,“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。

从囚徒困境这个案例,我们可以看到:在一个博弈过程中,无论对方策略选择如何,当事人一方都会选择某个确定策略。

那么,这个确定的策略就被称作支配性策略。

如果两个博弈当事人策略组合,分别构成各自支配性策略,那么这个组合就被定义为纳什均衡。

这是纳什均衡更准确定义。

如果要应对囚徒困境,获得集体利益最优,要从博弈论视角,也就是运用数学思维来归因,我们会发现两个原因:
第一,背叛诱惑,合作报酬。

合作报酬是判刑1年,背叛诱惑却是立即释放。

这使得“都不坦白”不构成稳定纳什均衡。

第二,受骗支付,背叛惩罚。

背叛惩罚是判刑2年,受骗支付却是判刑5年。

这使得“都坦白”构成稳定纳什均衡。

从博弈论视角理解囚徒困境原理,解决方案也就不难得到,意即:让合作报酬>背叛诱惑;让背叛惩罚,受骗支付。

比如说,警匪片中的黑帮,如果一个黑帮份子入狱,帮内就会让人带话:会照顾好你家里人,并且在你出狱后给你一大笔钱。

如果入狱黑帮份子因为坦白而获释,那么,黑帮的人就会安排刺杀,有仇必报。

这就是让合作报酬>背叛诱惑。

比如说,黑帮会塑造“忠义文化”,在心理上增加“背叛惩罚”:如果你不讲义气,那么,整个黑社会江湖都会唾弃你,让你出狱后找不到工作。

这就是增加背叛惩罚。

如果你被出卖,黑帮除了给钱,和帮你赡养家人之外,还会安排追杀出卖你的人,帮你报仇。

这就是减少受骗支付。

一增一减,就是让背叛惩罚>受骗支付。

这其实就是通过制度设计,将不期望看到的纳什均衡,变成期望看到的纳什均衡。

类似的,两家公司合作,为了避免互相猜疑,都不投入,也可以采用上述原则。

例如,可以签署违约条款,让单方违约付出足够成本,使得共同投入,变成唯一稳定纳什均衡。

2、分析智猪博弈。

我们再来看博弈论界另一个经典博弈案例,就是智猪博弈。

智猪博弈说的是,猪圈很长,一头是一个踏板,另一头是一个食槽。

如果在这一头踩下踏板,那一头的食槽就会掉下10份食物。

猪圈里面,有一只大猪,一只猪。

不管谁去踩踏板,都要消耗相当于2份食物能量。

如何踩踏板,有4种情况:
第一种是,大猪小猪都守在食槽边,等着对方去踩踏板。

这样,谁也没得吃。

第二种是,大猪小猪同时踩踏板,然后同时跑向食槽,同时吃。

大猪比较能吃,吃了7份食物,减去跑步消耗2份体能,实得5份;小猪吃
3份,实得1份。

第三种是,大猪守着食槽不动,小猪跑去踩踏板。

这时大猪能吃得更多,独得9份,而且因为没有运动,实得9份;小猪踩完踏板跑到食槽边,就只能吃到1份,减去跑步消耗2份体能,实得﹣1份。

第四种是,小猪守着食槽不动,大猪跑去踩踏板。

这时小猪抢先,能吃到4份,实得4份;大猪跑回来,还能抢到6份,实得4份。

对上述4种情况进行分析,智猪博弈中纳什均衡是:大猪踩踏板,小猪不动。

原因在于,如果大猪单方面改变策略,不去踩踏板,策略组合将变为“大猪不动,小猪不动”,大猪获益将从4减为0,大猪不会这么做。

如果小猪单方面改变策略去踩踏板,策略组合将变为“大猪踩踏板,小猪踩板”,小猪获益将从4减为1,小猪也不会做。

所以,“大猪踩踏板,小猪不动”,各自获益4份食物,是一个稳定纳什均衡。

读友们如果对搭便车问题有印象,就会发现,智猪博弈中,小猪就是搭大猪踩踏板便车,不劳而获。

这与囚徒困境不同,两名囚徒各自心怀鬼胎,但是一荣俱荣、一损俱损,最后纳什均衡就是一损俱损体现。

但在智猪博弈中,小猪明显占
优。

工作和生活中,有很多类似小猪这样搭便车行为。

例如,小房地产商,在大品牌房地产商项目周围拿地,等生地炒熟,让自己项目升值。

例如,小公司等待大公司花费巨资研发,在新市场推出盈利模式被验证产品,再从中找一个细分市场,搭便车分蛋糕。

例如,发展中国家制定“跟随型国家战略”,在科技、产、创新上“搭便车”,由瘦变胖,由小变大。

当然,搭便车有好有坏,如果理解智猪博弈纳什均衡,就可以针对性提出解决方案,鼓励好的搭便车,减少坏的搭便车。

例如,智猪博弈中,养猪的人(第三方)规定,在食槽里锁定一块区域,给踩到踏板的猪独享。

这样,大猪就不用担心,自己出力,到了食槽却发现食物被抢光。

类似的,国家设计专利保护制度目的,允许专利在一定时期内能获得特权,也是激励人和组织去创新,而不是等着搭便车。

在制度完善时,小猪、懒猪或者是慢猪,就会发现守在食槽等待,就不是“占优”博弈策略,也会努力去踩踏板。

相关主题