博弈论(第四章)
个体理性得益(Individual Rationality Payoff )或保 证得益(Reservation Payoff ): 无论其他局中人行为 如何,一局中人在博弈中采取某种特定的策略,能 够最低限度保证得到的得益。 可实现得益(Feasible Payoff):博弈中所有纯策 略组合得益的凸组合(Convex Combination )即纯策 略得益的加权平均数组。
第一节 重复博弈引论
重复博弈的特征
�前一阶段的博弈不改变后一阶段博弈的结构。 �所有局中人都观测到以往博弈过程的支付和策略 。 �局中人的支付是所有阶段博弈支付的贴现值之和或 加权平均值。
第一节 重复博弈引论
基本概念
�分类 有限重复博弈。G(T) 无限重复博弈。G(∞) 随机结束的重复博弈 �策略、子博弈和均衡路径
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
原博弈有惟一的纯策略纳什均衡的博弈,则有 限次重复博弈的惟一均衡即各博弈方在每阶段(即每 次重复)中都采用原博弈的纳什均衡策略。由于这样 的均衡中各博弈方的策略都不存在不可信的威胁或承 诺,因此是子博弈精炼纳什均衡。
第二节 有限次重复博弈
*
*
则偷懒。 设厂商已采用上述触发策略。由于 w
*
> w ,工人接受工作是最佳
0
反应。用 Ve 记工人努力工作时无限次重复博弈得益的现值,则
V = ( w − e) + δV
*
e
e
即
V = ( w − e) (1 − δ )
*
e
记工人选偷懒时无限重复博弈得益的现值,则: 即
w V = w + δ ( pV + (1 − p ) ) 1− δ
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
U厂商2 (1,4) (1.5,3) (3,3) (2.5,2.5) (3,1.5)
(4,1)
(2,2)
U厂商1
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�三次重复博弈 厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第二阶段 选A,如果第一阶段结果是(A,B),第二阶段选B;第三阶段无条 件选B。 厂商2:第一阶段选A,第二阶段无条件选B,如果第一阶段结果是 (A,A),则第三阶段选A;如果第一阶段结果是(B,A),则第 三阶段选B。 根据这个触发策略,3次重复的均衡路径是(A,A)、(A,B) 和(B,A)。双方平均得益为(3+1+4)/3=2.67。
第二节有限次重复博弈
有限次重复博弈的民间( Folk Theorem )定理
设原博弈的一次性博弈有均衡得益数组优于w,那么在 该博弈的多次博弈中,所有不小于个体理性得益的可实现得 益,都至少有一个子博弈精炼纳什的极限的平均得益来实现 它们。
第二节有限次重复博弈
有限次重复博弈的民间( Folk Theorem )定理
* 0
s
s
* Vs = ⎡ (1 − δ ) w + δ(1 − p ) w0 ⎤ ⎣ ⎦ [(1 − δ p )(1 − δ )]
因此当 即
V >V
e
s
*
时,
0 0
1 − δp 1−δ w >w + e = w +e+ e δ (1 − p ) δ (1 − p )
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满足上式 条件,并且威胁一旦产量降低就解雇工人,则各阶段的得益为 y − w,
A B
厂商 1
A 3 B 4
3 1
1 0
4 0
两个纯策略纳什均衡(A,B)、(B,A)和一个 混合策略纳什均衡,即厂商1和厂商2以相同的概率随机 在选择A或B,混合策略双方得益=2。
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�两次重复博弈 ★连续两次采用同一纯策略纳什均衡的路径,则双方得 益分别是(1,4)和(4,1)。 ★两次采用混合策略纳什均衡,则双方平均得益(2, 2)。 ★采用轮换策略,则双方平均得益为(2.5,2.5)。 ★一次纯策略、一次混合策略,则双方得益为(1.5,3) 和(3,1.5)。
第三节无限次重复博弈
一个男孩被视为傻瓜,因为每当别人拿一枚1元硬币和5角 硬币让他选的时候,他总是选5角的。有一个人觉得奇怪,就 问他:“为什么你不拿1元钱的?” 男孩小声回答:“假若我 拿了1元钱的硬币,下次他们就不会拿钱让我选了。”
第三节无限次重复博弈
无限次重复博弈的民间定理
设G是一个完全信息静态博弈,用(e1,…,en)记G的 纳什均衡的得益,用(x1,…,xn)表示G的任意可实现得益。 如果xi>ei对于任意局中人i都成立,而δ足够接近1,那么无 限次重复博弈G(∞,δ)中一定存在一个子博弈精炼纳 什均衡,各局中人的平均得益就是(x1,…,xn)。
多个纯策略纳什均衡博弈的有限次重复博弈
H H 5, 5 厂商1 M 6, 0 L 2, 0 厂商2 M 0, 6 3, 3 2, 0 L 0, 2 0, 2 1, 1
触发策略(Trigger Strategy):首先试探合作,一旦发觉不合 作则也采用不合作相报复的策略。 厂商1:第一次选H;如第一次结果为(H,H),则第二次 选M,如果第一次结果为任何其他策略组合,则第二次选L。 厂商2:同厂商1。
第二节 有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
H H 8, 8 厂商1 M 7, 1 L 3, 1 厂商2 M 1, 7 4, 4 3, 1 L 1, 3 1, 3 2, 2
以上博弈重复n次,结论还是相似的。当重复次数较 多时,平均得益接近于一次性博弈中(H,H)的得益 (5,5)。
第四章 重复博弈
�有限次重复博弈 �无限次重复博弈 �民间(Folk Theorem)定理
第一节 重复博弈引论
为什么研究重复博弈
�普遍性 �长期利益的问题
第一节 重复博弈引论
重复博弈与一般动态博弈的区别
重复博弈的一个阶段就是一个独立 的静态博弈或动态博弈,各个博弈方都 有相应的得益,这是重复博弈与一般动 态博弈的主要区别之一。
L H
厂商 1
L 1 H 0
1 5
5 4
0 4
第三节无限次重复博弈
囚徒困境式博弈的无限次重复
触发策略:第一阶段采取H策略,在t阶段,如果前t-1阶段的结果 都是(H,H),则继续采取H策略,否则采用L。 当贴现值δ较大时,双方采取以上触发策略构成无限次重复博弈的 一个子博弈精炼纳什均衡。 如果局中人2采用一次L策略,则得益u: u=5+1·δ+1·δ2+…=5+δ/(1-δ) 如果局中人2一直采用H策略,则得益u: u’=4+4δ+4 δ2+…=4/(1-δ) 所以,当u>u’时,即5+δ/(1-δ)> 4/(1-δ),δ<1/4时,局中人2 会采用L策略。当u<u’时,即δ>1/4时,采用H策略有利。
∞
t =1
∑
1 − p t −1 u t( ) = 1 + r
∞
t =1
∑
δ t − 1u t
第二节 有限次重复博弈
零和博弈的有限次重复博弈
零和博弈的有限次重复博弈,博弈方的正确策 略就是重复基本博弈的纳什均衡策略。
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
如果基本博弈惟一纯策略纳什均衡本身就是帕 累托效率意义上的最佳策略组合,那么因为符合所 有博弈方的利益,因此有限次重复显然不会改变博 弈方的行为方式。
第三节无限次重复博弈
恶性竞争的无限次重复博弈
2个厂商按垄断产量进行生产并分享利润U,1家厂商单独 改变产量则独得全部利润U,2家厂商同时改变产量则双方均 无利润。则双方无限次重复博弈的策略是什么? 如果是n家厂商呢?
效率工资模型
效率工资模型
模型设定:
首先厂商选择工资率为 w,然后工人选择接受或拒绝。如果拒绝 ,则他作个体户得到收入 w0小于w,如果接受 ,则工人选择努力工作 (负效用为e ),或偷懒(无负效用)。 厂商只能看到产量高低,高产量为 y,低产量是0。 工人努力工作时一定是高产量 y; 不努力时却并不一定是0,而是 高产量 y 的概率为 p,低产量0的概率为1-p。 工人努力工作时,厂商得益为 y-w,工人得益为w-e;工人偷懒时, 厂商期望得益为py-w,工人得益为 w 。
重复博弈的试验
美国Michigen大学教授R.爱克塞罗曾进行计算机程序 竞赛,来决定什么策略最优。 14位程序设计者中有经济学家,计算机专家,政治 家,数学家等,总共进行 5次循环赛,12万次对局 获胜的策略是最简单的策略 ——“以牙还牙”(tit-for- tat)
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈 厂商2
第三节无限次重复博弈
无限次重复博弈的民间定理
U厂商2
(0,5)
(4,4)
(1,1) (5,0)
U厂商1
第三节无限次重复博弈
无限次重复的古诺模型
垄断产量=3,两厂商合作则q1=q2=1.5,u1=u2=4.5 如厂商2不合作,则u2=(8-1.5-q2)q2-2q2=4.5q2-q22 ,一阶导数=0 得q2=2.25 则u2=5.0625。 合作u2=4.5+4.5δ+4.5δ2 +···=4.5/(1-δ) 不合作u2’=5.0625+4δ+4δ2 +···=5.0625+4δ/(1-δ) 当u2≥u2’时,即δ≥0.5249时选择合作。
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈 囚徒2
坦白 不坦白 坦白 -5 不坦白 -8
囚徒 1