当前位置：文档之家› 博弈论纳什均衡

博弈论纳什均衡

博弈论纳什均衡
什么是纳什均衡？
1、纳什均衡（Nash equilibrium )，又称非合作博弈均衡，是博弈论概念，指的是：
一种博弈稳定结果，谁单方改变策略，谁就会损失。

两个囚徒互相揭发，就是一种纳什均衡。

对于每个囚徒来说，如果打破纳什均衡，在对方实施揭发策略时，改变揭发策略，保持沉默，自己就会由判刑2年，变成判刑5年。

也就是说，两个囚徒互相揭发是稳定博弈结果，谁单方改变策略，就会受到损失。

这也就是均衡涵义所在，两个囚徒从利己角度，都不会单方改变策略。

博弈策略稳定，博弈结果也稳定。

之所以命名为纳什均衡，是因为提出者是经济学家、博弈论创始人约翰．纳什。

之所以称为非合作博弈均衡，原因就是：两个囚徒如果合作，互相保持沉默，各自只要坐牢1年；但最终博弈结果，也就是纳什均衡显著特
征，是不合作。

2、纳什均衡意义重大。

纳什均衡提出，震动整个经济学界。

诺贝尔经济学奖得主萨缪尔森曾说：“你只要教会鹦鹉说‘需求和供给’，它也是经济学家。

”博弈论专家坎多瑞则说：“这只鹦鹉现在必须多学一个词了，那就是‘纳什均衡’。

”
诺贝尔经济学奖得主迈尔森也说：“发现纳什均衡意义，可以和生命科学中发现DNA 双螺旋结构相媲美。

”
纳什也因为提出纳什均衡，创立博弈论，而获得1994年诺贝尔经济学家奖。

纳值均衡意义重大，简单来说，就是它对于经济学具有重大意义。

读友们如果了解经济学看不见的手原理，就知道，古典经济学认为，通过市场这只‘看不见的手’调节，个体追求私利行为，会促进集体利益最大化。

但纳什均衡却违反上述原理：两个囚徒分别追求私利行为，并没有促进集体（囚徒整体）利益最大化，反而是损人不利己。

这正是市场失灵软肋之处，通过博弈论视角可以得到合乎逻辑解释，更有条件找到合适解决方案。

从上述这点，读友们可以“一斑窥全豹”，感受到博弈论重要性。

更重要的是，纳什均衡非常普遍，小至个人沟通，中到公司竞争，大到国家往来，都可以观察到。

Q2：怎样运用纳什均衡？
1、分析囚徒困境。

如上所述，囚徒困境纳什均衡结果是，两个囚徒互相揭发。

发生这个过程并不难理解：
先从心理学视角分析，由于两人相互隔离，彼此无法传递信息、做好串供，就会怀疑对方会出卖自己以求自保。

再从经济学视角分析，囚徒都是“理性经济人”，遵循看不见的手原理，会从利己角度进行选择：
假如他坦白，如果我沉默，得坐5年监狱；如果我坦白，最多才2年；假如他要是沉默，如果我也沉默，我就会被判1年；如果我坦白，就可以被释放，而他会坐5年牢。

综合来说，不管对方坦白与否，对我而言，都是坦白划算。

由于两个囚徒都是这么想，那么，最终都会被判坐牢2年。

也就是说，“都坦白”，是囚徒困境中唯一稳定的“纳什均衡”。

从囚徒困境这个案例，我们可以看到：在一个博弈过程中，无论对方策略选择如何，当事人一方都会选择某个确定策略。

那么，这个确定的策略就被称作支配性策略。

如果两个博弈当事人策略组合，分别构成各自支配性策略，那么这个组合就被定义为纳什均衡。

这是纳什均衡更准确定义。

如果要应对囚徒困境，获得集体利益最优，要从博弈论视角，也就是运用数学思维来归因，我们会发现两个原因：
第一，背叛诱惑，合作报酬。

合作报酬是判刑1年，背叛诱惑却是立即释放。

这使得“都不坦白”不构成稳定纳什均衡。

第二，受骗支付，背叛惩罚。

背叛惩罚是判刑2年，受骗支付却是判刑5年。

这使得“都坦白”构成稳定纳什均衡。

从博弈论视角理解囚徒困境原理，解决方案也就不难得到，意即：让合作报酬＞背叛诱惑；让背叛惩罚，受骗支付。

比如说，警匪片中的黑帮，如果一个黑帮份子入狱，帮内就会让人带话：会照顾好你家里人，并且在你出狱后给你一大笔钱。

如果入狱黑帮份子因为坦白而获释，那么，黑帮的人就会安排刺杀，有仇必报。

这就是让合作报酬＞背叛诱惑。

比如说，黑帮会塑造“忠义文化”，在心理上增加“背叛惩罚”：如果你不讲义气，那么，整个黑社会江湖都会唾弃你，让你出狱后找不到工作。

这就是增加背叛惩罚。

如果你被出卖，黑帮除了给钱，和帮你赡养家人之外，还会安排追杀出卖你的人，帮你报仇。

这就是减少受骗支付。

一增一减，就是让背叛惩罚＞受骗支付。

这其实就是通过制度设计，将不期望看到的纳什均衡，变成期望看到的纳什均衡。

类似的，两家公司合作，为了避免互相猜疑，都不投入，也可以采用上述原则。

例如，可以签署违约条款，让单方违约付出足够成本，使得共同投入，变成唯一稳定纳什均衡。

2、分析智猪博弈。

我们再来看博弈论界另一个经典博弈案例，就是智猪博弈。

智猪博弈说的是，猪圈很长，一头是一个踏板，另一头是一个食槽。

如果在这一头踩下踏板，那一头的食槽就会掉下10份食物。

猪圈里面，有一只大猪，一只猪。

不管谁去踩踏板，都要消耗相当于2份食物能量。

如何踩踏板，有4种情况：
第一种是，大猪小猪都守在食槽边，等着对方去踩踏板。

这样，谁也没得吃。

第二种是，大猪小猪同时踩踏板，然后同时跑向食槽，同时吃。

大猪比较能吃，吃了7份食物，减去跑步消耗2份体能，实得5份；小猪吃
3份，实得1份。

第三种是，大猪守着食槽不动，小猪跑去踩踏板。

这时大猪能吃得更多，独得9份，而且因为没有运动，实得9份；小猪踩完踏板跑到食槽边，就只能吃到1份，减去跑步消耗2份体能，实得﹣1份。

第四种是，小猪守着食槽不动，大猪跑去踩踏板。

这时小猪抢先，能吃到4份，实得4份；大猪跑回来，还能抢到6份，实得4份。

对上述4种情况进行分析，智猪博弈中纳什均衡是：大猪踩踏板，小猪不动。

原因在于，如果大猪单方面改变策略，不去踩踏板，策略组合将变为“大猪不动，小猪不动”，大猪获益将从4减为0，大猪不会这么做。

如果小猪单方面改变策略去踩踏板，策略组合将变为“大猪踩踏板，小猪踩板”，小猪获益将从4减为1，小猪也不会做。

所以，“大猪踩踏板，小猪不动”，各自获益4份食物，是一个稳定纳什均衡。

读友们如果对搭便车问题有印象，就会发现，智猪博弈中，小猪就是搭大猪踩踏板便车，不劳而获。

这与囚徒困境不同，两名囚徒各自心怀鬼胎，但是一荣俱荣、一损俱损，最后纳什均衡就是一损俱损体现。

但在智猪博弈中，小猪明显占
优。

工作和生活中，有很多类似小猪这样搭便车行为。

例如，小房地产商，在大品牌房地产商项目周围拿地，等生地炒熟，让自己项目升值。

例如，小公司等待大公司花费巨资研发，在新市场推出盈利模式被验证产品，再从中找一个细分市场，搭便车分蛋糕。

例如，发展中国家制定“跟随型国家战略”，在科技、产、创新上“搭便车”，由瘦变胖，由小变大。

当然，搭便车有好有坏，如果理解智猪博弈纳什均衡，就可以针对性提出解决方案，鼓励好的搭便车，减少坏的搭便车。

例如，智猪博弈中，养猪的人（第三方）规定，在食槽里锁定一块区域，给踩到踏板的猪独享。

这样，大猪就不用担心，自己出力，到了食槽却发现食物被抢光。

类似的，国家设计专利保护制度目的，允许专利在一定时期内能获得特权，也是激励人和组织去创新，而不是等着搭便车。

在制度完善时，小猪、懒猪或者是慢猪，就会发现守在食槽等待，就不是“占优”博弈策略，也会努力去踩踏板。

e商务文档

博弈论纳什均衡

相关文档推荐：