当前位置:文档之家› 第六章:重复博弈与合作行为

第六章:重复博弈与合作行为


方L
1P
Q
H
5,5 6,0 2,0 0,0 0,0
博弈方2
M
0,6 3,3 2,0 0,0 0,0
L
0,2 0,2 1,1 0,0 0,0
P
0,0 0,0 0,0 4,1/2 0,0
Q
0,0 0,0 0,0 0,0 1/2,4
博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第 二阶段采用M,否则采用P;
➢ 无限次重复博弈:一个基本博弈G一直重复博弈下去的 博弈,记为G(∞)
6
基本概念
➢ 策略:博弈方在每个阶段针对每种情况如何行 为的计划。
➢ 子博弈:从某个阶段(不包括第一阶段)开始, 包括此后所有的重复博弈部分。
➢ 均衡路径:由每个阶段博弈方的行为组合串联 而成。
7
重复博弈的得益
平均得益:如果一常数作为重复博弈(有限次重复博弈或
➢ 零和博弈是严格竞争的,重复博弈并不改变这一点。
➢ 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈 的有限次重复博弈一样,博弈方的正确策略是重复一 次性博弈中的纳什均衡策略。
盖 正面

币 反面

猜硬币方
正面 -1, 1
反面 1, -1
1, -1
-1, 1
11
唯一纯策略纳什均衡博弈的有限次重复博弈
0,0
两个罪犯的得益矩阵
不合作 R,S
P,P
满足:R>T>P>S; (S+R)<T+T
9
支付函数
➢ 双方都不合作:
V (all - d,all - d) P P 2P 3P ... P 1 1
➢ 对 的解释:
✓ 贴现率; ✓ 博弈继续的概率; ✓ 一般化:未来收益的重要程度
10
两人零和博弈的有限次重复博弈
17
两市场博弈及重复博弈各均衡的平均得益
➢ 不同策略组合、均衡得益图示
厂商2 得益
(1,4) (1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
18
触发策略
➢ 厂商1:第一阶段选A;如果第一阶段结果是(A, A),则第二阶段选A,如果第一阶段结果是(A, B),则第二阶段选B;第三阶段无条件选B。
max8 1.5 q q 2q max4.5 q q
q2
2
2
2
q2
2
2
q2 2.25,此时他的利润为 5.0625
➢ 高于触发策略第一阶段得益4.5。但从第二阶段开始,厂 商1将报复性地永远采用古诺产量2,这样厂商2也被迫 永远采用古诺产量,从此得利润4。因此,无限次重复 博弈第一阶段偏离的情况下总得益的现值为:
博弈方2:在第一阶段采用H;如果第一阶段结果是(H,H),那么 第二阶段采用M,否则采用Q。
16
两市场博弈的重复博弈(重复两次)
厂 商
A
1B
厂商2
A
B
3,3
1,4
4,1
0,0
两市场博弈
➢ (A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) ➢ 连续两次采用混合策略——(2,2) ➢ (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮换策略 ➢ 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
➢ 定理:设原博弈G有唯一的纯 策略纳什均衡,则对任意正整数 T,重复博弈 G(T)有唯一的子 博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均 衡策略。各博弈方在G(T)中的 总得益为在G中得益的T倍,平 均得益的等于原博弈G中的得 益。
囚徒2
坦 白 不坦白
囚 徒
坦白
-5,-5
0,-8
1 不坦白 -8,0 -1,-1
触发策略:第一阶段采用H,如果前t-1阶段的结果都是 (H,H),则继续采用H,否则采用L。
如果博弈方2采用L,总得益现值为
5 1 1 2 5 1
如果博弈方2采用H,总得益现值为
V 4 V 因此当 1/ 4 时,此触发策略纳什均衡策略
23
两寡头削价竞争无限次重复博弈的民间定理
厂商2 得益
3
重复博弈的三个特征
➢ 阶段博弈之间没有“物质上”的联系(no physical links),也就是说,前一阶段的博弈 不改变后一阶段的结构;
➢ 所有参与人都观察到博弈过去的历史; ➢ 参与人的总支付是所有阶段博弈支付的贴现值
之和。
4
影响重复博弈均衡结果的因素
➢ 博弈重复的次数 ✓ 重复次数的重要性来自于参与人在短期利益和长远 利益之间的权衡。这是重复博弈分析给出的一个强 有力的结果,为现实中观测到许多合作行为和社会 规范提供解释。
否则从此永远是 w 0 。 工人的策略是如果 w w 则接受,否则宁
0
愿作个体户得到 w ,并在以前各期结果都是(w* , y) 0
和当前工资率为 w* 时努力工作,否则偷懒。
33
考虑如下的触发策略
设厂商已采用上述触发策略。由于 w* w0 ,
工人接受工作是最佳反应。用 V 记工人努 e
力工作时无限次重复博弈得益的现值,则
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
有限次重复博弈不一定考虑贴现因素
无限次重复博弈必须考虑贴现问题 (1 ) t1t t 1
8
“囚徒困境”的一般表示
合作 A
不合作
合作 3,3
B 不合作
-1 ,4
合作
合作 T, T
不合作 S, R
4 , -1
第六章
重复博弈与合作行为
1
序惯博弈(sequential game)
➢ 序惯博弈:参与人在前一个决策点的选择决定随后的
子博弈的结构,因此,从后一个决策点开始的子博弈
不同于从前一个决策点开始的子博弈,或者说,同样
结构的子博弈只出现一次;




不分
不借 (1,0)
(2,2)

(-1,0) (0,4)
* 8 2q* q* 2q* 6 2q* q*
max q2
8
q2* q* 1
62
q22q*
1
q*qd2
6 q*
2 24
29
低水平的合作
d
1
c
6 q* 2
4 4 1
6 2q* q* 1 6 q* 2 4 4 1
q* 29 5
9
30
效率工资(efficiency wage)
2
重复博弈(repeated game)
➢ 重复博弈:同样结构的博弈重复多次,其中的每次 博弈被称为“阶段博弈” (stage game).
➢ 以囚徒困境为例,如果每次判刑不是很重(至少不 是无期徒刑),那么,两个囚徒在刑满释放之后再 作案,作案之后再判刑,释放之后再作案,如此等 等,他们之间进行的就是重复博弈,其中每次作案 是一个阶段博弈。
➢ 信息的完备性(completeness)
✓ 当一个参与人的支付函数(特征)不为其他参与人 所知时,该参与人可能有积极性建立一个“好”声 誉以换取长远利益。这一点可以解释为什么那些本 质上并不好的人在相当长的时期内干好事。
5
基本概念
➢ 有限次重复博弈:给定一个基本博弈G(可以是静态博 弈,也可以是动态博弈),重复进行T次G,并且在每 次重复G之前各博弈方都能观察到以前博弈的结果,这 样的博弈过程称为“G的T次重复博弈”,记为G(T)。 而G则称为G(T)的“原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。

V (w* e) V
e
e
V (w* e) (1 ) e
34
考虑如下的触发策略
用 V 记工人选偷懒时无限重复博弈得益的现值,则:
s
V
w* ( pV
(1 p)
14
触发策略的进一步讨论
厂H 商M 1L
H
5,3,3 2,0
三价博弈
L
0,2 0,2 1,1
厂H 商M 1L
H
8,8 9,3 5,3
厂商2 M
3,9 6,6 5,3
L
3,5 1,3 4,4
重复三价博弈的等价博弈:不可信报复
15
触发策略可信性较强的博弈
H
博 弈
M
➢ 厂商2:第一阶段选A,第二阶段无条件选B,如果第 一阶段结果是(A,A),则第三阶段选A;如果第一 阶段结果是(B,A),则第三阶段选B。
➢ 均衡路径:(A,A)—(A,B)—(B,A)
19
有限次重复博弈的民间定理(Folk Theorem)
厂商2 得益
(1,4)
w=(1(1,.11) )
➢ 个体理性得益(Individual Rationality Payoff) : 不管其它博弈方的行为如何,一博弈方在 某个博弈中只要自己采取某种特定的策略, 最低限度保证能获得的得益
(-5,-5)
囚徒2
坦 白 不坦白
囚 坦白 -10,-10 -5,-13
徒 1
不坦白
-13,-5
-6,-6
(-10,-10)
12
有限次重复博弈:连锁店悖论(chain_store paradox)
进 进入 入 者 不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
市场进入博弈
有唯一纯策略纳什均衡 (40,50) 有限次重复的结果仍然是 (进入,默许)
相关主题