当前位置：文档之家› 双人零和博弈

双人零和博弈

一、双人零和博弈的概念零和博弈又称零和游戏，与非零和博弈相对，是博弈论的一个概念，属非合作博弈，指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，一方收益多少，另一方就损失多少，所以博弈各方的收益和损失相加总和永远为“零”.双方不存在合作的可能.用通俗的话来讲也可以说是:自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而双方在决策时都以自己的最大利益为目标，想尽一切办法以实现“损人利己”.零和博弈的结果是一方吃掉另一方，一方的所得正是另一方的所失，整个社会的利益并不会因此而增加一分.二、双人零和博弈的模型的建立建立双人零和博弈的模型，就是要根据对实际问题的叙述确定参与人（局中人）的策略集以及相应的收益矩阵（支付矩阵）.我们记双人零和博弈中的两个局中人为A和B;局中人A的策略集为a1,…,am,局中人B的策略集为b1,…,bn;cij为局中人A采取策略ai、局中人B采取策略bj 时A的收益（这时局中人B的收益为- cij）.则收益矩阵见下表表1那么下面我们通过例子来说明双人零和博弈模型的建立: 例1甲、乙两名儿童玩猜拳游戏.游戏中双方同时分别或伸出拳头（代表石头）、或手掌（代表布）、或两个手指（代表剪刀）.规则是剪刀赢布，布赢石头，石头赢剪刀，赢者得一分.若双方所出相同，算和局，均不得分.试列出对儿童甲的赢得矩阵.解本例中儿童甲或乙均有三个策略:或出拳头，或出手掌，或出两个手指，根据例子中所述规则，可列出对儿童甲的赢得矩阵见表2.表2例2 从一张红牌和一张黑牌中随机抽取一张，在对B 保密情况下拿给A 看，若A 看到的是红牌，他可选择或掷硬币决定胜负，或让B 猜.若选择掷硬币，当出现正面，A 赢p 元，出现反面，输q 元;若让B 猜，当B 猜中是红牌，A 输r 元，反之B 猜是黑牌，A 赢s 元.若A 看到的是黑牌，他只能让B 猜.当B 猜中是黑牌，A 输u 元，反之B 猜是红牌，A 赢t 元，试确定A 、B 各自的策略，建立支付矩阵.解因A 的赢得和损失分别是B 的损失和赢得，故属二人零和博弈.为便于分析，可画出如图3的博弈树图.图3中，○为随机点，□分别为A 和B 的决策点，从图中看出A 的策略有掷硬币和让B 猜两种，B 的策略有猜红和猜黑两种，据此可归纳出各种情况下A 和B 输赢值分析的表格，见表4.图3抽到红牌正面反面抽到黑球○□□○□1/2掷硬币让B 猜1/21/2猜红猜黑猜黑猜红1/2让B 猜p-q-rst-u表4对表4中各栏数字可以这样来理解:因让A 看到红牌时或掷硬币或让B 猜.若A 决定选掷硬币这个策略，当出现正面，这时不管B 猜红或猜黑，A 都赢p 元;当出现反面，不管B 猜红或猜黑，A 都输q 元.同样A 选择让B 猜的策略后，他的输赢只同B 猜红或猜黑有关，而与掷硬币的正反面无关.又若抽到的牌是黑牌，A 的决定只能让B 猜，因而掷硬币策略对A 的胜负同样不起作用.考虑到抽牌时的红与黑的概率各为1/2，掷硬币时出现正反面的概率也各为1/2,故当A 采取“掷硬币”策略，而B 选择“猜红”策略时，A 的期望赢得为:⎪⎭⎫ ⎝⎛-q p 212121+t 21=()t q p 241+- 当A 采取让B 猜策略，B 选择“猜红”策略时，A 的期望赢得为:()()⎪⎭⎫ ⎝⎛-+-r r 212121+t 21=()t r +-21 相应可求得其他策略对A 的期望赢得值.由此可列出本例的收益矩阵，见表5.表5三、双人零和博弈的求解定理1（极小极大定理）在零和博弈中，对于给定的支付矩阵U ，如果存在混合战略1σ*=（1σ*1，…1σ*m ）和2σ*=（2σ*1，…2σ*n ）以及一个常数v 满足，对任意j 有∑=mi i ij a 11*σ≥v ，对任意的i 有∑=nj j ij a 12*σ≤v ，那么战略组合（1σ*，2σ*）为该博弈的Nash 均衡.其中，v 为参与人1在均衡中所得到的期望支付，亦称该博弈的值.这个极小极大定理，其基本思想就是:参与人1考虑到对方使自己支付最小的最优反应，从中选择使自己最好的策略.参与人2也遵循同样的思路，这样才能满足Nash 均衡的互为最优反应的条件.这样我们就可以得到双人零和博弈Nash 均衡的计算方法了，如以下定理定理2 对于给定的零和博弈，如果博弈的值v 大于0，则博弈的Nash 均衡（1σ*，2σ*）为以下对偶线性规划问题的解Min ∑=mi i p 1s.t. ∑=mi i ij p a 1≥1 (j=1,…,n)i p ≥0 (i=1,…,m) 和Max ∑=nj j q 1s.t. ∑=nj j ij q a 1≤1 (i=1,…,m)j q ≥0 (j=1,…,n) 其中，Nash 均衡支付∑∑====nj jmi iqpv 1111Nash 均衡战略),,,,(1*1m i vp vp vp =σ，),,,(1*2n j vq vq vq =σ由于此定理只适用于v 大于0的情形，因此对于v 小于等于0的情形，该定理所给出的方法需做适当的修改.命题如果支付矩阵U=mxn ij a )(的每个元素都大于0,即ij a ＞0,那么博弈的值大于0,即v ＞0.定理3 如果支付矩阵U '=mxn ij a )('是由U=mxn ij a )(的每个元素都加上一个常数c 得到，即c a a ij ij +='，那么支付矩阵U 和U '所对应的零和博弈的Nash 均衡战略相同，博弈的值相差c.根据以上定理，可以得到如下求解一般零和博弈Nash 均衡的方法:(1) 若支付矩阵U 中的所有元素都大于零，则可以直接根据定理进行计算;若支付矩阵U 中有小于0的元素,可以通过加上一个常数使它们都大于0,然后再根据定理进行计算. (2) 求解定理中的两个对偶线性规划问题.下面通过实例来说明如何求解双人零和博弈的Nash 均衡.例3 求解下图中战略式博弈的Nash 均衡. 参与人2L M RU参与人1 C D通过求解对偶线性规划问题求零和博弈的Nash 均衡解根据前面的介绍，可知该博弈的支付矩阵为U=⎪⎪⎪⎭⎫ ⎝⎛224132312不难发现，该博弈的支付矩阵U=()33x ij a 的每个元素都大于0，即ij a >0,那么博弈的值大于0，即v>0.设参与人1和参与人2的混合战略分别是1σ=（321,,vp vp vp ）和2σ=（321,,vq vq vq ）,利用对偶线性规划求解方法求解该战略式博弈的Nash 均衡，构造规划问题如下.Min ｛321p p p ++｝s.t. 321422p p p ++≥1 32123p p p ++≥1 32123p p p ++≥1 1p ≥0,2p ≥0,3p ≥0 和Max ｛321q q q ++｝s.t. 32132q q q ++≤1 32132q q q ++≤1 321224q q q ++≤1 1q ≥0,2q ≥0,3q ≥0求解第一个规划问题，得到1p =1/4, 2p =1/4, 3p =0,参与人1的支付v=2.因此，参与人1的混合战略1σ*=（1/2,1/2,0）.同理，对对偶问题求解，得到1q =0，2q =1/4, 3q =1/4,参与人2的损失v=2,因此参与人的混合战略2σ*=（0,1/2,1/2）.所以，该博弈存在一个混合战略Nash 均衡（（1/2,1/2,0）（0,1/2,1/2），）.例4 求解下图中的战略式博弈的Nash 均衡.参与人2L M R U 参与人1 C D通过求解对偶线性规划问题求零和博弈的Nash 均衡解该博弈的支付矩阵为U=⎪⎪⎪⎭⎫ ⎝⎛--203011122 在上树支付矩阵U=33)(x ij a 中，12a <0, 21a <0.为了利用对偶线性规划模型求解博弈的解，构造支付矩阵U '=33')(x ij a ,其中a 'ij=ij a +c.令c=2，那么新构造的支付矩阵为U '=⎪⎪⎪⎭⎫ ⎝⎛425231304 设参与人1和参与人2的混合战略分别是1σ=（v 'p 1, v 'p 2, v 'p 3）和2σ=（v 'q 1, v 'q 2 v 'q 3,）,v 为原博弈的值，v '为新博弈的值，且v '=v+2，利用对偶线性规划求解方法求解新战略式博弈的Nash 均衡，构造规划问题如下.Min ｛321p p p ++｝ s.t. 32154p p p ++≥13223p p +≥1 321423p p p ++≥11p ≥0, 2p ≥0, 3p ≥0Max ｛321q q q ++｝s.t. 3134q q +≤1 32123q q q ++≤1 321425q q q ++≤1 1q ≥0,2q ≥0,3q ≥0通过求解对偶问题，得到1p =0，2p =3/13, 3p =2/13,参与人1的支付v '=13/5, 1q =1/13, 2q =4/13, 3q =0,参与人2的损失v '=13/5.因此，参与人1的混合战略1σ*=（0,3/5,2/5）, 参与人2 的混合战略2σ*=(1/5,4/5,0)，原博弈的值v= v '-2=3/5.所以，博弈存在一个混合战略Nash 均衡（（0,3/5,2/5），(1/5,4/5,0)）.。

e商务文档

双人零和博弈

相关文档推荐：