当前位置:文档之家› 第五章(有限理性与进化博弈)

第五章(有限理性与进化博弈)


签协议博弈的复制动态和进化稳定策略
一般两人对称博弈的复制动态和进化稳
定策略

协调博弈的复制动态和进化稳定策略
鹰鸽博弈的复制动态和进化稳定策略
一、签协议博弈的复制动态和进化稳定策略
博弈方2 同意 不同意
博弈 同 意 方1 不同意
1,1
0,0
0,0
0,0
图5.7签协议博弈
该博弈有两个纯策略纳什均衡(同意,同意)和 (不同意,不同意),其中前一个纳什均衡帕累托优 于后一个纳什均衡。现在在理性层次较低的有限理性 博弈方组成的大群体成员随机配对反复博弈的分析框 架内分析该博弈。假设整个群体中“同意”类型的博 弈 方比例是x,那么“不同意”类型博弈方的比例当然 是1x。


由于有限理性博弈方有很多理性层次,学习和策 略调整的方式和速度有很大的不同,因此,必须 用不同的机制来模拟博弈方的策略调整过程。
对于有快速学习能力的小群体成员的反复博弈, 相应的动态机制称为“最优反应动态”(Bestresponse Dynamics)。另一种情况是学习速度很 慢的成员组成的大群体随机配对的反复博弈,策 略调整用生物进化的“复制动态”(Replicate Dynamics)机制模拟。 通常也把研究有限理性博弈的理论称为“进化博 弈论”或“经济学中的进化博弈论”。
道自己的反应函数(意味着知道自己的利润函数), 不知道对方的利润(反应)函数,也没有预见能力。 不妨设一个寡头生产2.5单位,另一个寡头生产 3单位为第一个时期的结果,来演示一下两个寡头的 产量调整过程。

古诺模型的最优反应过程
设生产2.5单位的是寡头1,生产了3单位的是寡
头2。把这两个产量分别代入寡头2和寡头1的反应函 数,很容易得到两寡头第二期的产量将分别是1.5单 位和1.75单位;然后再把这两个产量分别代入寡头2 和寡头1的反应函数,不难得到第三期双方的产量为 2.125 单位和 2.25单位;依次类推可得到第四期双方
出现),上述变化率为负,即采用 “同意”策略的博 弈
方会减少;当该幅度为0时(本例只在 x=1时成立), 变化率就等于0,即采用“同意”策略的博弈方比例不
dx dt
0.5
1
x
图5.8 签协议博弈复制动态相位图
* 根据图5.8, x 0 和 x* 1 是上述复制动态的
两个稳定状态,其中 x* 1 是对应大多数初始状态

有限理性博弈的有效分析框架是由有限理性博弈方 构成的,一定规模的特定群体内成员的某种反复博 弈。博弈方有一定的统计分析能力和对不同策略效 果的事后判断能力,但没有事先的预见和预测能力。 博弈分析的核心不是博弈方的最优策略选择(这是 大多数经济分析、决策分析的核心),而是有限理 性博弈方组成的群体成员的策略调整过程、趋势和 稳定性。此外,稳定性指群体成员采用特定策略的 比例不变,而非某个博弈方的策略不变。 有限理性博弈分析的关键是确定博弈方学习和策略 调整的模式,或者说机制。
完美就属于有限理性。
二、有限理性博弈分析框架


有限理性意味着博弈方往往不会一开始就找到 最优策略,而是在博弈过程中学习博弈,必须通 过试错寻找较好的策略;有限理性也意味着一般 至少有部分博弈方不会采用完全理性博弈的均衡 策略,意味着均衡是不断调整和改进而不是一次 性选择的结果,而且即使达到了均衡也可能再次 偏离。 在有限理性博弈中具有真正稳定性和较强预测 能力的均衡,必须是能通过博弈方模仿、学习的 调整过程达到,具有能经受错误偏离的干扰,在 受到少量干扰后仍能够“恢复”的稳健的均衡。
dx x( x x 2 ) x 2 (1 x) x 2 x 3 dt
根据进化稳定策略的定义,我们要找的是 dx dt 0 的情况,解该方程有x=0 和x=1两种情况。 当 x=0 时,上述速率等于 0,即如果初始时刻没
有博弈方采用“同意” 策略,那么采用这种策略的博 弈
B B B
A A
A
A A A A A A
B
A A
图5.5初次博弈为相邻2A的最优反应动态
A
A A A A A A
B B
A
图5.6初次博弈为相连3A的最优反应动态
上述分析表明,在题设条件下,所有32种可能的 初次博弈情况中,只有一种情况是所有博弈方采用B 的状态,其余31种都会收敛到采用A的状态。这说明 A策略和 B策略都是有限理性博弈方进行上述协调博 弈的稳定状态,但前一种稳定状态显然更重要一些, 因为博弈方的策略调整收敛到这种情况的机会要大大 高于后一种情况。从而在博弈方有限理性条件下给出 了(A,A)和(B,B)这两个纳什均衡各自被采用 的机会一种趋势性判断。结论是在有限理性框架内, 博弈方采用策略 A,实现均衡(A,A)的机会远高 于采用B和实现均衡(B,B)的机会。
也就是说,由于该博弈本身是一个有多重纳什均 衡的博弈,因此在一次性博弈中,即使博弈方都是高 度理性的,博弈结果也有不确定性,很难作出完全保 险的预测。 这里举例说明最优反应动态的思想方法。 设有5个有限理性博弈方,分别处于如图5.2所示 的位署上,每个人都与各自 1 的左右邻居就图 5 .1中得益 5 2 矩阵表示的 “协调博弈” (Coordination Game)进行 反复博弈,观察他们最终会 3 4 趋于向选择哪个策略。
从上述协调博弈的最优反应动态机制给出的两 种稳定状态可以看出,只有所有博弈方都采用 A策 略同时具有在博弈方的动态策略调整中会达到,又 对少量偏离的扰动有稳健性两个性质。同时具有这 两种性质(群体趋向且抗干扰)的稳定状态,在进 化博弈论中被称为 “进化稳定策略”。在上述协调 博 弈中,A 就是一个进化稳定策略,而 B 则不是进化 稳定策略。
“同意”和“不同意”两种类型博弈方各自的期 望得 益和分别为:
u y x 1 (1 x) 0 x
un x 0 (1 x) 0 0
群体成员的平均得益为:
u x u y (1 x) un x 2
博弈方策略类型比例动态变化是有限理性博弈分 析的核心,其关键是动态变化的速度(方向可由速度 的正负号反映)。 通常情况下,博弈方学习模仿的速度取决于两个 因素:一是模仿对象的数量大小(可用相应类型博弈 方的比例来表示),因为这关系到观察和模仿的难易 程度;二是模仿对像的成功程度(可用模仿对象策略 得益超过平均得益的幅度表示),因为这关系到判断 差异的难易程度和对模仿激励的大小。
,博弈方i 采用 B的得益为
xi (t ) 0 2 xi (t ) 60 2
。根据最优反应动态机制,当
xi (t ) 50 2 xi (t ) 49 xi (t ) 0 2 xi (t ) 60 2 2
时,即 x (t ) 22 61
i
时,博弈方i在t+1时期会采用A,否则采用B。
第五章 有限理性和进化博弈

有限理性博弈及其分析框架
最优反应动态 复制动态和进化稳定性:两人对称博弈

复制动态和进化稳定性:两人非对称博弈
第一节 有限理性博弈及其分析框架
一、有限理性及其对博弈的影响
完全理性包括(追求最大利益的)理性意识、
分析推理能力、识别判断能力、记忆能力和准确行
为能力等多方面的完美性要求,其中任何一方面不


第二节 最优反应动态
博弈方具有较快学习能力(在复杂局面下准确判 断和预见能力稍差,但能够对不同策略的结果作出比 较正确的事后评估,并能相应调整其策略)的博弈。 因此给定前期的经验(博弈结果),每个博弈方本期 能找到和采取针对前期其他博弈方(全部或邻近的部 分博弈方)策略的最佳反应策略。 最适合描述这种理性层次博弈方的策略调整的动 态机制,就是所谓的 “最优反应动态”(Best Response Dynamics)。
产量为 1.875单位和 1.937 5单位,……;
上述动态调整过程趋向收敛于两寡头各生产2单
位产量(完全理性博弈的古诺产量),即唯一的纯 策略纳什均衡。由于这个稳定状态也具有对微小扰 动的稳健性,因此它是这个博弈在上述最优反应动 态下的进化稳定策略(ESS)。
第三节 复制动态和进化稳定性:两人对称博弈
方就始终不会出现。现实根据是对于有限理性博弈方 来说,一定要有模仿的对象才能进行模仿,当x=0 时 就不可能有学习模仿的榜样,因此所有博弈方都不会
有意识地改变策略。
当x>0,也就是开始时有采用 “同意” 策略的博 弈
方时,如果采用这种策略的期望得益超过平均得益的
幅度为正(本例中由 0<x<1,因此符合),那么上 述变化率为正,即采用 “同意” 策略的博弈方会逐 渐增 加;当上述幅度小于0时(本例因 0<x<1,故不可能
A、4A、5A共8种有实质差异。
假设
xi (t ) 为在t时期博弈方i
的邻居中采用A策略
的数量,该数量有0、1、2三ห้องสมุดไป่ตู้可能的值;邻居中采
用B策略的数量相应为 2 xi (t ) ,也有 0、1、2三个可 能值。
针对第t期 xi (t ) 的相关情况,博弈方i 采用 A的 得益为 为
xi (t ) 50 2 xi (t ) 49 2
以采用“同意”策略类型博弈方的比例x为例,
其 动态变化速度可以用下列动态微分方程表示: dx
dt x (u y u )
dx
dt
即“同意”类型博弈方比例随时间的变化率 。 该动态微分方程的意义是,“同意” 类型博弈方 比 例的变化率与该类型博弈方的比例成正比,与该类型 博弈方的期望得益大于所有博弈方平均得益的幅度也 成正比。称它为“复制动态”或“复制动态方程”。 把采用“同意”策略博弈方的期望得益和群体所 有
一、协调博弈(Coordination Game)
博弈方2 A B
博弈 A 50,50 方1 B 0,49
相关主题