博弈论纳什均衡
什么是纳什均衡?
1、纳什均衡(Nash equilibrium ),又称非合作博弈均衡,是博弈论概念,指的是:
一种博弈稳定结果,谁单方改变策略,谁就会损失。
两个囚徒互相揭发,就是一种纳什均衡。
对于每个囚徒来说,如果打破纳什均衡,在对方实施揭发策略时,改变揭发策略,保持沉默,自己就会由判刑2年,变成判刑5年。
也就是说,两个囚徒互相揭发是稳定博弈结果,谁单方改变策略,就会受到损失。
这也就是均衡涵义所在,两个囚徒从利己角度,都不会单方改变策略。
博弈策略稳定,博弈结果也稳定。
之所以命名为纳什均衡,是因为提出者是经济学家、博弈论创始人约翰.纳什。
之所以称为非合作博弈均衡,原因就是:两个囚徒如果合作,互相保持沉默,各自只要坐牢1年;但最终博弈结果,也就是纳什均衡显著特
征,是不合作。
2、纳什均衡意义重大。
纳什均衡提出,震动整个经济学界。
诺贝尔经济学奖得主萨缪尔森曾说:“你只要教会鹦鹉说‘需求和供给’,它也是经济学家。
”博弈论专家坎多瑞则说:“这只鹦鹉现在必须多学一个词了,那就是‘纳什均衡’。
”
诺贝尔经济学奖得主迈尔森也说:“发现纳什均衡意义,可以和生命科学中发现DNA 双螺旋结构相媲美。
”
纳什也因为提出纳什均衡,创立博弈论,而获得1994年诺贝尔经济学家奖。
纳值均衡意义重大,简单来说,就是它对于经济学具有重大意义。
读友们如果了解经济学看不见的手原理,就知道,古典经济学认为,通过市场这只‘看不见的手’调节,个体追求私利行为,会促进集体利益最大化。
但纳什均衡却违反上述原理:两个囚徒分别追求私利行为,并没有促进集体(囚徒整体)利益最大化,反而是损人不利己。
这正是市场失灵软肋之处,通过博弈论视角可以得到合乎逻辑解释,更有条件找到合适解决方案。
从上述这点,读友们可以“一斑窥全豹”,感受到博弈论重要性。
更重要的是,纳什均衡非常普遍,小至个人沟通,中到公司竞争,大到国家往来,都可以观察到。
Q2:怎样运用纳什均衡?
1、分析囚徒困境。
如上所述,囚徒困境纳什均衡结果是,两个囚徒互相揭发。
发生这个过程并不难理解:
先从心理学视角分析,由于两人相互隔离,彼此无法传递信息、做好串供,就会怀疑对方会出卖自己以求自保。
再从经济学视角分析,囚徒都是“理性经济人”,遵循看不见的手原理,会从利己角度进行选择:
假如他坦白,如果我沉默,得坐5年监狱;如果我坦白,最多才2年;假如他要是沉默,如果我也沉默,我就会被判1年;如果我坦白,就可以被释放,而他会坐5年牢。
综合来说,不管对方坦白与否,对我而言,都是坦白划算。
由于两个囚徒都是这么想,那么,最终都会被判坐牢2年。
也就是说,“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。
从囚徒困境这个案例,我们可以看到:在一个博弈过程中,无论对方策略选择如何,当事人一方都会选择某个确定策略。
那么,这个确定的策略就被称作支配性策略。
如果两个博弈当事人策略组合,分别构成各自支配性策略,那么这个组合就被定义为纳什均衡。
这是纳什均衡更准确定义。
如果要应对囚徒困境,获得集体利益最优,要从博弈论视角,也就是运用数学思维来归因,我们会发现两个原因:
第一,背叛诱惑,合作报酬。
合作报酬是判刑1年,背叛诱惑却是立即释放。
这使得“都不坦白”不构成稳定纳什均衡。
第二,受骗支付,背叛惩罚。
背叛惩罚是判刑2年,受骗支付却是判刑5年。
这使得“都坦白”构成稳定纳什均衡。
从博弈论视角理解囚徒困境原理,解决方案也就不难得到,意即:让合作报酬>背叛诱惑;让背叛惩罚,受骗支付。
比如说,警匪片中的黑帮,如果一个黑帮份子入狱,帮内就会让人带话:会照顾好你家里人,并且在你出狱后给你一大笔钱。
如果入狱黑帮份子因为坦白而获释,那么,黑帮的人就会安排刺杀,有仇必报。
这就是让合作报酬>背叛诱惑。
比如说,黑帮会塑造“忠义文化”,在心理上增加“背叛惩罚”:如果你不讲义气,那么,整个黑社会江湖都会唾弃你,让你出狱后找不到工作。
这就是增加背叛惩罚。
如果你被出卖,黑帮除了给钱,和帮你赡养家人之外,还会安排追杀出卖你的人,帮你报仇。
这就是减少受骗支付。
一增一减,就是让背叛惩罚>受骗支付。
这其实就是通过制度设计,将不期望看到的纳什均衡,变成期望看到的纳什均衡。
类似的,两家公司合作,为了避免互相猜疑,都不投入,也可以采用上述原则。
例如,可以签署违约条款,让单方违约付出足够成本,使得共同投入,变成唯一稳定纳什均衡。
2、分析智猪博弈。
我们再来看博弈论界另一个经典博弈案例,就是智猪博弈。
智猪博弈说的是,猪圈很长,一头是一个踏板,另一头是一个食槽。
如果在这一头踩下踏板,那一头的食槽就会掉下10份食物。
猪圈里面,有一只大猪,一只猪。
不管谁去踩踏板,都要消耗相当于2份食物能量。
如何踩踏板,有4种情况:
第一种是,大猪小猪都守在食槽边,等着对方去踩踏板。
这样,谁也没得吃。
第二种是,大猪小猪同时踩踏板,然后同时跑向食槽,同时吃。
大猪比较能吃,吃了7份食物,减去跑步消耗2份体能,实得5份;小猪吃
3份,实得1份。
第三种是,大猪守着食槽不动,小猪跑去踩踏板。
这时大猪能吃得更多,独得9份,而且因为没有运动,实得9份;小猪踩完踏板跑到食槽边,就只能吃到1份,减去跑步消耗2份体能,实得﹣1份。
第四种是,小猪守着食槽不动,大猪跑去踩踏板。
这时小猪抢先,能吃到4份,实得4份;大猪跑回来,还能抢到6份,实得4份。
对上述4种情况进行分析,智猪博弈中纳什均衡是:大猪踩踏板,小猪不动。
原因在于,如果大猪单方面改变策略,不去踩踏板,策略组合将变为“大猪不动,小猪不动”,大猪获益将从4减为0,大猪不会这么做。
如果小猪单方面改变策略去踩踏板,策略组合将变为“大猪踩踏板,小猪踩板”,小猪获益将从4减为1,小猪也不会做。
所以,“大猪踩踏板,小猪不动”,各自获益4份食物,是一个稳定纳什均衡。
读友们如果对搭便车问题有印象,就会发现,智猪博弈中,小猪就是搭大猪踩踏板便车,不劳而获。
这与囚徒困境不同,两名囚徒各自心怀鬼胎,但是一荣俱荣、一损俱损,最后纳什均衡就是一损俱损体现。
但在智猪博弈中,小猪明显占
优。
工作和生活中,有很多类似小猪这样搭便车行为。
例如,小房地产商,在大品牌房地产商项目周围拿地,等生地炒熟,让自己项目升值。
例如,小公司等待大公司花费巨资研发,在新市场推出盈利模式被验证产品,再从中找一个细分市场,搭便车分蛋糕。
例如,发展中国家制定“跟随型国家战略”,在科技、产、创新上“搭便车”,由瘦变胖,由小变大。
当然,搭便车有好有坏,如果理解智猪博弈纳什均衡,就可以针对性提出解决方案,鼓励好的搭便车,减少坏的搭便车。
例如,智猪博弈中,养猪的人(第三方)规定,在食槽里锁定一块区域,给踩到踏板的猪独享。
这样,大猪就不用担心,自己出力,到了食槽却发现食物被抢光。
类似的,国家设计专利保护制度目的,允许专利在一定时期内能获得特权,也是激励人和组织去创新,而不是等着搭便车。
在制度完善时,小猪、懒猪或者是慢猪,就会发现守在食槽等待,就不是“占优”博弈策略,也会努力去踩踏板。