第四章 进化博弈论
采用A的得益:xi (t ) 50 [2 xi (t )] 49 采用B的得益:xi (t ) 0 [2 xi (t )] 60 当xi (t ) 22 / 61 时,采用A;当xi (t ) 22 / 61 时,采用B
最优反应动态模拟:初次博弈1个A
A
B
A A B A B B A
最优反应动态:有快速学习能力的小群体成员的 反复博弈 复制动态:学习速度很慢的成员组成的大群体随 机配对的反复博弈 进化稳定策略(ESS)
4.2 最优反应动态
4.2.1 协调博弈的有限博弈方 快速学习模型 4.2.2 古诺调整过程
4.2.1 协调博弈的有限博弈方快速学习模型
考虑5个有限理性的局中人之间,相邻局中人相互 博弈,快速学习并动态调整。
4.1.3 合作的行为生态
动物的适应性是在和生存环境的相互作用中形成的。 在竞争中,动物最终选择进化稳定策略(Evolutionary Stable Strategy,简称ESS)——该策略是被种群大多数 成员所采取的,而且不会受到其它对策的侵蚀。 一种ESS一旦确立,社会稳定下来,偏离的行为将 会受到自然的惩罚。 有利它主义和合作行为在动物界普遍存在。该行为 也可能发生在没有亲缘关系的情况:如共生现象。
这时博弈分析的核心不是博弈方的最优策略的选择, 而是有限理性的博弈方组成的群体成员的策略调整过 程、趋势和稳定性,这里的稳定性是指采用特定策略 的成员的比例不变,而非某个博弈方的策略不变。
引例: 签协议博弈的复制动态和进化稳定策略
签协议博弈:
局中人2 同意(y) 不同意(n) 同意(y) 不同意(n)
最优反应动态模拟1 博弈方1 博弈方2 2. 32 1.5 1.75
dr 1 2 收敛条件 | dr || | 1 dq2 dq1
问题:两寡头始终假设对方产量不变
4. 3 复制动态和进化稳定性: 两人对称博弈
设某一群体进行随机配对重复博弈,且该博弈为 对称博弈,即群体中个体无角色区分,所有个体 均具有相同的战略空间。
1,1 0,0 0,0 0,0
在有限理性的前提下,并非所有的局中人开始就能 找到最佳策略(y, y)。下面分析(y, y)是ESS。 假设群体中采用“同意”比例为 x ,则不同策略期 望得益和总平均得益为:
uy x 1 (1 x ) 0 x un x 0 (1 x ) 0 0
u x uy (1 x) un x
2
所以,除x=0外,有: uy x 1 (1 x ) 0 x
u y un , u y u
un x 0 (1 x ) 0 0 u x uy (1 x) un x2
在不断的重复博弈过程中,只要局中人有基本的 判断能力,早晚会发现该差异。于是,得益较差的 局中人会或早或迟模仿另一方。 这意味着两种类型局中人的比例x和1-x不是固定不 变的,而是时间的函数: x(t)和1-x (t)。 局中人策略类型比例的动态变化是进化博弈分析 的核心。
上述比例动态变化的速度取决于模仿的速度。该 速度取决于两个因素:
(1)被模仿对象的数量大小(可用x表示);
(2)被模仿对象的成功程度(可用模仿对象的期 望得益超过平均得益的幅度表示,即 u y u )。 所以,上述比例动态变化的速度可以表示为下列 微分方程:
dx x ( u y u) dt
以采用“同意”策略类型局中人的比例为例,其动 态变化速度可用下列微分方程反映:
dx x ( uy u) x ( x x 2 ) x 2 (1 x ) x 2 x 3 dt
dx x ( uy u) x ( x x 2 ) x 2 (1 x ) x 2 x 3 dt
4.1 有限理性与进化博弈论
第四章 进化博弈论
4.1.1 进化博弈的基础假设——有限理性 传统的博弈均衡,例如Nash均衡及其精炼是以 完全理性都是共同知识(common knowledge)为 前提的。 然而,完全理性在现实中很难满足,当社会经 济环境和决策问题较复杂时,人们必须存在很大的 理性局限。有限理性对人们的决策、行为选择方式 有很大影响,有限理性基础上的博弈分析与完全理 性博弈分析也有很大区别。进化博弈分析是有限理 性博弈分析的基本框架。
4.1.4 有 限 理 性 博 弈 的 分 析 框 架
在有限理性博弈中具有真正稳定性和 较强预测 能力的均衡,必须是能够通过博弈方的模仿、 学习 的调整过程达到的,具有能经受错误偏离的干扰 的 均衡,是在受到少量干扰后仍然能够“恢复”的均衡。
4.1.4 有 限 理 性 博 弈 的 分 析 框 架
局中人2 局 中 人 1
1
A
A B 50,50 0,49
B
49,0 60,60
5 4 3
2
两个NASH均衡,但考虑到对对方理性的信任 问题,风险态度等因素,可能选(A,A)。
局中人2
局 中 人 1
A
A B 50,50 0,49
B
49,0 60,60
反应、策略调整规则推导
xi ( t )表示在t 时期,局中人i 的邻居中采用A 策略的数量; 则采用B策略的数量为2-xi ( t )。 则局中人i :
4.1.2 有限理性及其对博弈的影响
有限理性局中人:不满足完全理性假设的局中人 有限理性意味着一般至少有部分局中人不会采用完 全理性博弈的均衡策略 有限理性意味着均衡是不断调整和改进而不是一次 性选择的结果,而且即使到达了均衡也可能再次偏 离 有限理性局中人会在博弈过程中学习博弈通过试错 寻找较好的策略
B
B B
B
A B B
A
A A A A A A
A A
初次博弈相邻2个A
B
A
A A A A A A
B
B A
A
B A A
初次博弈相连3个A
A
B B A A A A
A
A A
5.2.2 古诺调整过程
古诺模型反应函数
q1 3 q2 q2 2 q 3 1 2
3 2.125 2.25 4……… 1.875 1.9375