当前位置:文档之家› 博弈论

博弈论

博弈论1 引言博弈论包括局中人,策略和支付函数三个要素。

有n个局中人参入的博弈称为n人博弈, n≥ 2。

每个局中人有个支付函数,其收益或损失由所有局中人的策略按照该支付函数计算。

每个局中人采用的策略可以是其多个策略中的某一个,或者是策略的某种概率分布。

前者称为纯策略博弈,后者称为混合策略博弈。

纯策略可以看作是混合策略的特殊情形。

根据局中人之间的关系,博弈分为合作博弈和非合作博弈。

每个局中人都希望使自己的利益最大化。

但是在非合作博弈中,由于局中人的利益是互相冲突的,只能寻求一组策略使每个局中人较为满意。

一组策略是指由每个局中人的一种策略构成的策略组合。

如果存在一个策略组合,无论那个局中人单方面地改变其策略,不会使其收益增加,只可能使其收益减少,这个策略组合就叫做納什均衡(或納什均衡解、納什均衡点)。

以下是关于納什均衡的正式定义及其存在性定理(见[1])。

Formal definitionLet (S,f) be a game with n players, where S i is the strategy set for player i, S = S1⨯S2⨯…⨯S n is the set of strategy profiles and f = (f1(x), f2(x), … , f n(x)) is the payoff function for x∈S. Let x i be a strategy profile of player i and x-i be a strategy profile of all players except for player i. When each player i∈ {1, 2, … , n} chooses strategy x i resulting in strategy profile x = (x1, x2, … , x n) then player i obtains payoff f i(x). Note that the payoff depends on the strategy profile chosen, i.e., on the strategy chosen by play i as well as the strategies chosen by all the other players. A strategy profile x*∈S is a Nash Equilibrium (NE) if no unilateral deviation in strategy by any single player is profitable for the player, that is∀i, x i∈S i: f i(x i*, x-i*) ≥f i(x i, x-i*).Nash’s Existence TheoremIf we allow mixed strategies, then every game with a finite many pure strategies has at least one Nash Equilibrium.(有限策略的非合作n人博弈至少有一个納什均衡)2 二人博弈2.1 纯策略博弈局中人I有m个策略A1, A2, … , A m,局中人II有n个策略B1, B2, … ,B n,不同策略下双方的收益如表2.1所示([2]p72)。

表2.1 二人博弈的收益表由每个单元格中前一个数字构成的矩阵A = (a ij)m⨯n是局中人I的收益矩阵,由后一个数字构成的矩阵B = (b ij )m ⨯n 是局中人II 的收益矩阵。

当局中人II 采用某策略B j 时,如果局中人I 采用其m 个策略中的策略A i 可以获得最大收益,称A i 是对B j 的最优反应。

同样,当局中人I 采用某策略A i 时,如果局中人II 采用其n 个策略中的策略B j 可以获得最大收益,称B j 是对A i 的最优反应。

当A i 和B j 互为最优反应时,称(A i , B j )为该博弈的纯策略納什均衡点。

纯策略博弈问题可能有一个,多个或没有納什均衡点。

下面介绍计算纯策略納什均衡点的一种方法。

在局中人I 收益矩阵A = (a ij )m ⨯n 每一列的最大数字上标上*号,在局中人II 收益矩阵B = (b ij )m ⨯n 每一行的最大数字上标上*号。

如果同一位置有两个*号,那么其相应的两个策略是納什均衡点。

例2.1 某博弈问题的博弈表为表2.2。

求其纯策略納什均衡点。

表2.2 某博弈问题的收益表解 在甲方收益矩阵每一列的最大数字上标上*号,在乙方收益矩阵每一行的最大数字上标上*号。

单元格(3, 3)有两个*号,所以策略(A 3, B 3)是此博弈问题的納什均衡点。

2.2混合策略博弈如果没有纯策略納什均衡,可考虑求混合策略納什均衡解。

设局中人I 策略的分布为(x 1, x 2, … ,x m ), 局中人II 策略的分布为(y 1, y 2, … ,y n )。

那么x 1 + x 2 +… + x m = 1, x 1, x 2, … ,x m ≥ 0,y 1 + y 2 + … + y n = 1, y 1, y 2, … ,y n ≥ 0. 局中人I 的期望收益为E 1(X , Y ) =∑∑==m i nj j i ij y x a 11= X T AY .局中人II 的期望收益为E 2(X , Y ) =∑∑==m i nj j i ij y x b 11= X T BY .其中X = (x 1, x 2, … ,x m )T , Y = (y 1, y 2, … ,y n )T 。

例2.2 (现价折扣促销博弈[2]p73) 考虑销售商与消费者之间的博弈。

销售商有“明天打折销售”和“今天打折销售”两个策略,消费者有“明天购买”和“今天购买”两个策略。

双方的收益见表2.3,求混合納什均衡解。

表2.3 销售商与消费者博弈的收益解 由表2.3可以看出此博弈问题没有纯策略納什均衡点。

销售商和消费者的收益矩阵分别为A = ⎪⎪⎭⎫ ⎝⎛4793,B =⎪⎪⎭⎫⎝⎛9347. 现求其混合策略納什均衡解。

为此,设销售商采用两个策略的概率分别为x 和1 - x ,消费者采用两个策略的概率分别为y 和1 - y 。

记X = (x , 1 - x )T , Y = (y , 1 - y )T , 那么(消费者明天购买的期望收益, 消费者今天购买的期望收益)= X T B = (x , 1 - x )⎪⎪⎭⎫⎝⎛9347= (3 + 4x , 9 - 5x ).一个合理的假设是:销售商确定的x 最好使得消费者无论哪一天购买商品都无所谓,即使得3 + 4x = 9 - 5x 。

由此得x = 2/3, 1 - x = 1/3。

另外⎪⎪⎭⎫ ⎝⎛收益销售商今天打折的期望收益销售商明天打折的期望= AY = ⎪⎪⎭⎫ ⎝⎛4793⎪⎪⎭⎫ ⎝⎛-y y 1=⎪⎪⎭⎫⎝⎛+-y y 3469. 基于同样的考虑,令9 - 6y = 4 + 3y ,得y = 5/9, 1 - y = 4/9。

所以销售商的混合策略X = (2/3, 1/3)T , 消费者的混合策略Y = (5/9, 4/9)T 。

下面求销售商和消费者的期望收益。

由于AY 的两个分量(AY )1和(AY )2相等,X 的两个分量和为1,销售商的期望收益E 1(X , Y ) = X T AY = (AY )1 = 9 - 6 ⨯ 5/9 = 17/3.由于X T B 的两个分量(X T B )1和(X T B )2相等,Y 的两个分量和为1,消费者的期望收益E 2(X , Y ) = X T BY = (X T B )1 = 3 + 4 ⨯ 2/3 = 17/3.2.3二人有限零和博弈在二人零和博弈中,一个局中人的收益等于另一个局中人的损失,即b ij = -a ij 。

这时仅用一个局中人的收益矩阵,如A = (a ij )m ⨯n 即可。

寻找纯策略納什均衡点的方法是:在A = (a ij )m ⨯n 每一行的最大数字上标上*号,再每一列的最大数字上标上*号。

如果有一个数字上有两个*号,那么其相应的两个策略是纯策略納什均衡点。

如果没有纯策略納什均衡点,再考虑求混合策略納什均衡解。

设局中人I 策略的分布为(x 1, x 2, … ,x m ), 局中人II 策略的分布为(y 1, y 2, … ,y n )。

局中人II 采用策略B j 时,局中人I 的期望收益为∑=mi i ij x a 1,j = 1, 2, … ,n 。

为了使这些期望收益最大化,可使用以下线性规划模型求局中人I 的最优策略([4]p400)。

Max ws.t.∑=mi i ij x a 1≥ w , j = 1, 2, … ,n ,x 1 + x 2 + … + x m = 1,x 1, x 2, … ,x m ≥ 0. (2.1)从另一方讲,局中人I 采用策略A i 时,局中人II 的期望损失为∑=nj i ij y a 1,i = 1, 2, … ,m 。

为了使这些期望损失最小化,可使用以下线性规划模型求局中人II 的最优策略。

Min vs.t.∑=nj j ij y a 1≤ v , i = 1, 2, … ,m ,y 1 + y 2 + … + y n = 1,y 1, y 2, … ,y n ≥ 0. (2.2)按照线性规划对偶的定义,模型(2.1)和(2.2)互为对偶。

由于它们有可行解,所以都有最优解,并且最优目标函数值相等。

2.4 连续策略博弈在以上几节介绍的博弈问题中,每个局中人仅有几个策略,称为有限策略的博弈问题。

策略可以是连续变量,这时的博弈称为连续策略博弈。

古诺模型是连续策略博弈的一个有名例子([2]p44)。

例2.3 假设寡头市场上只有两个厂商生产完全相同的产品,他们各自决定自己的产量。

假设市场出清价格P 是商品总供给量Q 的线性函数:P = P (Q ) = 8 - Q ;产量为q 时的收益为u = qP (Q ) - 2q 。

问两厂商各生产多少产品供给市场双方收益较为满意。

解 设两厂商的产量分别为q 1和q 2,那么收益函数分别为u 1(q 1, q 2) = q 1P (Q ) - 2q 1 = q 1[8 -( q 1 + q 2)] - 2q 1 = 6q 1 - q 1q 2 - q 12, u 2(q 1, q 2) = q 2P (Q ) - 2q 2 = q 2[8 -( q 1 + q 2)] - 2q 2 = 6q 2 - q 1q 2 - q 22. 此问题需要求解以下极大值:⎪⎩⎪⎨⎧--=--=2221222121116max 6max 21q q q q u q q q q u q q 令11q u ∂∂= 6 - q 2 - 2q 1 = 0, 22q u ∂∂= 6 - q 1 - 2q 2 = 0.两式联立解得q 1 = q 2 = 2。

相关主题