当前位置：文档之家› 第五章(有限理性与进化博弈)

第五章(有限理性与进化博弈)

签协议博弈的复制动态和进化稳定策略
一般两人对称博弈的复制动态和进化稳
定策略

协调博弈的复制动态和进化稳定策略
鹰鸽博弈的复制动态和进化稳定策略
一、签协议博弈的复制动态和进化稳定策略
博弈方2 同意不同意
博弈同意方1 不同意
1，1
0，0
0，0
0，0
图5.7签协议博弈
该博弈有两个纯策略纳什均衡（同意，同意）和（不同意，不同意），其中前一个纳什均衡帕累托优于后一个纳什均衡。现在在理性层次较低的有限理性博弈方组成的大群体成员随机配对反复博弈的分析框架内分析该博弈。假设整个群体中“同意”类型的博弈方比例是x，那么“不同意”类型博弈方的比例当然是1x。

由于有限理性博弈方有很多理性层次，学习和策略调整的方式和速度有很大的不同，因此，必须用不同的机制来模拟博弈方的策略调整过程。
对于有快速学习能力的小群体成员的反复博弈，相应的动态机制称为“最优反应动态”（Bestresponse Dynamics）。另一种情况是学习速度很慢的成员组成的大群体随机配对的反复博弈，策略调整用生物进化的“复制动态”（Replicate Dynamics）机制模拟。通常也把研究有限理性博弈的理论称为“进化博弈论”或“经济学中的进化博弈论”。
道自己的反应函数（意味着知道自己的利润函数），不知道对方的利润（反应）函数，也没有预见能力。不妨设一个寡头生产2.5单位，另一个寡头生产 3单位为第一个时期的结果，来演示一下两个寡头的产量调整过程。

古诺模型的最优反应过程
设生产2.5单位的是寡头1，生产了3单位的是寡
头2。把这两个产量分别代入寡头2和寡头1的反应函数，很容易得到两寡头第二期的产量将分别是1.5单位和1.75单位；然后再把这两个产量分别代入寡头2 和寡头1的反应函数，不难得到第三期双方的产量为 2.125 单位和 2.25单位；依次类推可得到第四期双方
出现），上述变化率为负，即采用 “同意”策略的博弈
方会减少；当该幅度为0时（本例只在 x=1时成立），变化率就等于0，即采用“同意”策略的博弈方比例不
dx dt
0.5
1
x
图5.8 签协议博弈复制动态相位图
* 根据图5.8， x 0 和 x* 1 是上述复制动态的
两个稳定状态，其中 x* 1 是对应大多数初始状态

有限理性博弈的有效分析框架是由有限理性博弈方构成的，一定规模的特定群体内成员的某种反复博弈。博弈方有一定的统计分析能力和对不同策略效果的事后判断能力，但没有事先的预见和预测能力。博弈分析的核心不是博弈方的最优策略选择（这是大多数经济分析、决策分析的核心），而是有限理性博弈方组成的群体成员的策略调整过程、趋势和稳定性。此外，稳定性指群体成员采用特定策略的比例不变，而非某个博弈方的策略不变。有限理性博弈分析的关键是确定博弈方学习和策略调整的模式，或者说机制。
完美就属于有限理性。
二、有限理性博弈分析框架

有限理性意味着博弈方往往不会一开始就找到最优策略，而是在博弈过程中学习博弈，必须通过试错寻找较好的策略；有限理性也意味着一般至少有部分博弈方不会采用完全理性博弈的均衡策略，意味着均衡是不断调整和改进而不是一次性选择的结果，而且即使达到了均衡也可能再次偏离。在有限理性博弈中具有真正稳定性和较强预测能力的均衡，必须是能通过博弈方模仿、学习的调整过程达到，具有能经受错误偏离的干扰，在受到少量干扰后仍能够“恢复”的稳健的均衡。
dx x( x x 2 ) x 2 (1 x) x 2 x 3 dt
根据进化稳定策略的定义，我们要找的是 dx dt 0 的情况，解该方程有x=0 和x=1两种情况。当 x=0 时，上述速率等于 0，即如果初始时刻没
有博弈方采用“同意” 策略，那么采用这种策略的博弈
B B B
A A
A
A A A A A A
B
A A
图5．5初次博弈为相邻2A的最优反应动态
A
A A A A A A
B B
A
图5．6初次博弈为相连3A的最优反应动态
上述分析表明，在题设条件下，所有32种可能的初次博弈情况中，只有一种情况是所有博弈方采用B 的状态，其余31种都会收敛到采用A的状态。这说明 A策略和 B策略都是有限理性博弈方进行上述协调博弈的稳定状态，但前一种稳定状态显然更重要一些，因为博弈方的策略调整收敛到这种情况的机会要大大高于后一种情况。从而在博弈方有限理性条件下给出了（A，A）和（B，B）这两个纳什均衡各自被采用的机会一种趋势性判断。结论是在有限理性框架内，博弈方采用策略 A，实现均衡（A，A）的机会远高于采用B和实现均衡（B，B）的机会。
也就是说，由于该博弈本身是一个有多重纳什均衡的博弈，因此在一次性博弈中，即使博弈方都是高度理性的，博弈结果也有不确定性，很难作出完全保险的预测。这里举例说明最优反应动态的思想方法。设有5个有限理性博弈方，分别处于如图5.2所示的位署上，每个人都与各自 1 的左右邻居就图 5 .1中得益 5 2 矩阵表示的 “协调博弈” （Coordination Game）进行反复博弈，观察他们最终会 3 4 趋于向选择哪个策略。
从上述协调博弈的最优反应动态机制给出的两种稳定状态可以看出，只有所有博弈方都采用 A策略同时具有在博弈方的动态策略调整中会达到，又对少量偏离的扰动有稳健性两个性质。同时具有这两种性质（群体趋向且抗干扰）的稳定状态，在进化博弈论中被称为 “进化稳定策略”。在上述协调博弈中，A 就是一个进化稳定策略，而 B 则不是进化稳定策略。
“同意”和“不同意”两种类型博弈方各自的期望得益和分别为：
u y x 1 (1 x) 0 x
un x 0 (1 x) 0 0
群体成员的平均得益为：
u x u y (1 x) un x 2
博弈方策略类型比例动态变化是有限理性博弈分析的核心，其关键是动态变化的速度（方向可由速度的正负号反映）。通常情况下，博弈方学习模仿的速度取决于两个因素：一是模仿对象的数量大小（可用相应类型博弈方的比例来表示），因为这关系到观察和模仿的难易程度；二是模仿对像的成功程度（可用模仿对象策略得益超过平均得益的幅度表示），因为这关系到判断差异的难易程度和对模仿激励的大小。
，博弈方i 采用 B的得益为
xi (t ) 0 2 xi (t ) 60 2
。根据最优反应动态机制，当
xi (t ) 50 2 xi (t ) 49 xi (t ) 0 2 xi (t ) 60 2 2
时，即 x (t ) 22 61
i
时，博弈方i在t＋1时期会采用A，否则采用B。
第五章有限理性和进化博弈

有限理性博弈及其分析框架
最优反应动态复制动态和进化稳定性：两人对称博弈

复制动态和进化稳定性：两人非对称博弈
第一节有限理性博弈及其分析框架
一、有限理性及其对博弈的影响
完全理性包括（追求最大利益的）理性意识、
分析推理能力、识别判断能力、记忆能力和准确行
为能力等多方面的完美性要求，其中任何一方面不

第二节最优反应动态
博弈方具有较快学习能力（在复杂局面下准确判断和预见能力稍差，但能够对不同策略的结果作出比较正确的事后评估，并能相应调整其策略）的博弈。因此给定前期的经验（博弈结果），每个博弈方本期能找到和采取针对前期其他博弈方（全部或邻近的部分博弈方）策略的最佳反应策略。最适合描述这种理性层次博弈方的策略调整的动态机制，就是所谓的 “最优反应动态”（Best Response Dynamics）。
产量为 1.875单位和 1.937 5单位，……；
上述动态调整过程趋向收敛于两寡头各生产2单
位产量（完全理性博弈的古诺产量），即唯一的纯策略纳什均衡。由于这个稳定状态也具有对微小扰动的稳健性，因此它是这个博弈在上述最优反应动态下的进化稳定策略（ESS）。
第三节复制动态和进化稳定性：两人对称博弈
方就始终不会出现。现实根据是对于有限理性博弈方来说，一定要有模仿的对象才能进行模仿，当x=0 时就不可能有学习模仿的榜样，因此所有博弈方都不会
有意识地改变策略。
当x＞0，也就是开始时有采用 “同意” 策略的博弈
方时，如果采用这种策略的期望得益超过平均得益的
幅度为正（本例中由 0＜x＜1，因此符合），那么上述变化率为正，即采用 “同意” 策略的博弈方会逐渐增加；当上述幅度小于0时（本例因 0＜x＜1，故不可能
A、4A、5A共8种有实质差异。
假设
xi (t ) 为在t时期博弈方i
的邻居中采用A策略
的数量，该数量有0、1、2三ห้องสมุดไป่ตู้可能的值；邻居中采
用B策略的数量相应为 2 xi (t ) ，也有 0、1、2三个可能值。
针对第t期 xi (t ) 的相关情况，博弈方i 采用 A的得益为为
xi (t ) 50 2 xi (t ) 49 2
以采用“同意”策略类型博弈方的比例x为例，
其动态变化速度可以用下列动态微分方程表示： dx
dt x (u y u )
dx
dt
即“同意”类型博弈方比例随时间的变化率。该动态微分方程的意义是，“同意” 类型博弈方比例的变化率与该类型博弈方的比例成正比，与该类型博弈方的期望得益大于所有博弈方平均得益的幅度也成正比。称它为“复制动态”或“复制动态方程”。把采用“同意”策略博弈方的期望得益和群体所有
一、协调博弈（Coordination Game）
博弈方2 A B
博弈 A 50，50 方1 B 0，49

e商务文档

第五章(有限理性与进化博弈)

相关文档推荐：