当前位置：文档之家› 第六章：重复博弈与合作行为

第六章：重复博弈与合作行为

方L
1P
Q
H
5，5 6，0 2，0 0，0 0，0
博弈方2
M
0，6 3，3 2，0 0，0 0，0
L
0，2 0，2 1，1 0，0 0，0
P
0，0 0，0 0，0 4，1/2 0，0
Q
0，0 0，0 0，0 0，0 1/2，4
博弈方1：在第一阶段采用H，如果第一阶段结果是(H,H)，那么第二阶段采用M，否则采用P；
➢ 无限次重复博弈：一个基本博弈G一直重复博弈下去的博弈，记为G(∞)
6
基本概念
➢ 策略：博弈方在每个阶段针对每种情况如何行为的计划。
➢ 子博弈：从某个阶段（不包括第一阶段）开始，包括此后所有的重复博弈部分。
➢ 均衡路径：由每个阶段博弈方的行为组合串联而成。
7
重复博弈的得益
平均得益：如果一常数作为重复博弈（有限次重复博弈或
➢ 零和博弈是严格竞争的，重复博弈并不改变这一点。
➢ 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样，博弈方的正确策略是重复一次性博弈中的纳什均衡策略。
盖正面
硬
币反面
方
猜硬币方
正面 -1， 1
反面 1， -1
1， -1
-1， 1
11
唯一纯策略纳什均衡博弈的有限次重复博弈
0，0
两个罪犯的得益矩阵
不合作 R，S
P，P
满足：R>T>P>S; (S+R)<T+T
9
支付函数
➢ 双方都不合作：
V (all - d,all - d) P P 2P 3P ... P 1 1
➢ 对的解释：
✓ 贴现率； ✓ 博弈继续的概率； ✓ 一般化：未来收益的重要程度
10
两人零和博弈的有限次重复博弈
17
两市场博弈及重复博弈各均衡的平均得益
➢ 不同策略组合、均衡得益图示
厂商2 得益
(1,4) (1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
18
触发策略
➢ 厂商1：第一阶段选A；如果第一阶段结果是（A， A），则第二阶段选A，如果第一阶段结果是（A， B），则第二阶段选B；第三阶段无条件选B。
max8 1.5 q q 2q max4.5 q q
q2
2
2
2
q2
2
2
q2 2.25,此时他的利润为 5.0625
➢ 高于触发策略第一阶段得益4.5。但从第二阶段开始，厂商1将报复性地永远采用古诺产量2，这样厂商2也被迫永远采用古诺产量，从此得利润4。因此，无限次重复博弈第一阶段偏离的情况下总得益的现值为：
博弈方2：在第一阶段采用H；如果第一阶段结果是(H,H)，那么第二阶段采用M，否则采用Q。
16
两市场博弈的重复博弈（重复两次）
厂商
A
1B
厂商2
A
B
3，3
1，4
4，1
0，0
两市场博弈
➢ (A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) ➢ 连续两次采用混合策略——(2,2) ➢ (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮换策略 ➢ 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
➢ 定理：设原博弈G有唯一的纯策略纳什均衡,则对任意正整数 T，重复博弈 G(T)有唯一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍，平均得益的等于原博弈G中的得益。
囚徒2
坦白不坦白
囚徒
坦白
-5，-5
0，-8
1 不坦白 -8，0 -1，-1
触发策略：第一阶段采用H，如果前t-1阶段的结果都是 (H,H)，则继续采用H，否则采用L。
如果博弈方2采用L，总得益现值为
5 1 1 2 5 1
如果博弈方2采用H，总得益现值为
V 4 V 因此当 1/ 4 时，此触发策略纳什均衡策略
23
两寡头削价竞争无限次重复博弈的民间定理
厂商2 得益
3
重复博弈的三个特征
➢ 阶段博弈之间没有“物质上”的联系（no physical links)，也就是说，前一阶段的博弈不改变后一阶段的结构；
➢ 所有参与人都观察到博弈过去的历史； ➢ 参与人的总支付是所有阶段博弈支付的贴现值
之和。
4
影响重复博弈均衡结果的因素
➢ 博弈重复的次数 ✓ 重复次数的重要性来自于参与人在短期利益和长远利益之间的权衡。这是重复博弈分析给出的一个强有力的结果，为现实中观测到许多合作行为和社会规范提供解释。
否则从此永远是 w 0 。工人的策略是如果 w w 则接受，否则宁
0
愿作个体户得到 w ，并在以前各期结果都是(w* , y) 0
和当前工资率为 w* 时努力工作，否则偷懒。
33
考虑如下的触发策略
设厂商已采用上述触发策略。由于 w* w0 ，
工人接受工作是最佳反应。用 V 记工人努 e
力工作时无限次重复博弈得益的现值，则
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
有限次重复博弈不一定考虑贴现因素
无限次重复博弈必须考虑贴现问题 (1 ) t1t t 1
8
“囚徒困境”的一般表示
合作 A
不合作
合作 3，3
B 不合作
-1 ，4
合作
合作 T， T
不合作 S， R
4 ， -1
第六章
重复博弈与合作行为
1
序惯博弈（sequential game）
➢ 序惯博弈：参与人在前一个决策点的选择决定随后的
子博弈的结构，因此，从后一个决策点开始的子博弈
不同于从前一个决策点开始的子博弈，或者说，同样
结构的子博弈只出现一次；
乙
借
甲
分
不分
不借（1，0）
（2，2）
乙
（-1，0）（0，4）
* 8 2q* q* 2q* 6 2q* q*
max q2
8
q2* q* 1
62
q22q*
1
q*qd2
6 q*
2 24
29
低水平的合作
d
1
c
6 q* 2
4 4 1
6 2q* q* 1 6 q* 2 4 4 1
q* 29 5
9
30
效率工资(efficiency wage)
2
重复博弈(repeated game)
➢ 重复博弈：同样结构的博弈重复多次，其中的每次博弈被称为“阶段博弈” (stage game).
➢ 以囚徒困境为例，如果每次判刑不是很重（至少不是无期徒刑），那么，两个囚徒在刑满释放之后再作案，作案之后再判刑，释放之后再作案，如此等等，他们之间进行的就是重复博弈，其中每次作案是一个阶段博弈。
➢ 信息的完备性(completeness)
✓ 当一个参与人的支付函数（特征）不为其他参与人所知时，该参与人可能有积极性建立一个“好”声誉以换取长远利益。这一点可以解释为什么那些本质上并不好的人在相当长的时期内干好事。
5
基本概念
➢ 有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
即
V (w* e) V
e
e
V (w* e) (1 ) e
34
考虑如下的触发策略
用 V 记工人选偷懒时无限重复博弈得益的现值，则：
s
V
w* ( pV
(1 p)
14
触发策略的进一步讨论
厂H 商M 1L
H
5，3，3 2，0
三价博弈
L
0，2 0，2 1，1
厂H 商M 1L
H
8，8 9，3 5，3
厂商2 M
3，9 6，6 5，3
L
3，5 1，3 4，4
重复三价博弈的等价博弈：不可信报复
15
触发策略可信性较强的博弈
H
博弈
M
➢ 厂商2：第一阶段选A，第二阶段无条件选B，如果第一阶段结果是（A，A），则第三阶段选A；如果第一阶段结果是（B，A），则第三阶段选B。
➢ 均衡路径：（A，A）—（A，B）—（B，A）
19
有限次重复博弈的民间定理（Folk Theorem）
厂商2 得益
(1,4)
w=(1(1，.11) )
➢ 个体理性得益(Individual Rationality Payoff) ：不管其它博弈方的行为如何，一博弈方在某个博弈中只要自己采取某种特定的策略，最低限度保证能获得的得益
（-5，-5）
囚徒2
坦白不坦白
囚坦白 -10，-10 -5，-13
徒 1
不坦白
-13，-5
-6，-6
（-10，-10）
12
有限次重复博弈：连锁店悖论(chain_store paradox)
进进入入者不进入
在位者
默许
斗争
40，50
-10，0
0，300
0，300
市场进入博弈
有唯一纯策略纳什均衡（40，50）有限次重复的结果仍然是（进入，默许）

e商务文档

第六章：重复博弈与合作行为

相关文档推荐：