当前位置：文档之家› 博弈论(第四章)

博弈论(第四章)

个体理性得益（Individual Rationality Payoff ）或保证得益（Reservation Payoff ）: 无论其他局中人行为如何，一局中人在博弈中采取某种特定的策略，能够最低限度保证得到的得益。可实现得益（Feasible Payoff）:博弈中所有纯策略组合得益的凸组合（Convex Combination ）即纯策略得益的加权平均数组。
第一节重复博弈引论
重复博弈的特征
�前一阶段的博弈不改变后一阶段博弈的结构。 �所有局中人都观测到以往博弈过程的支付和策略。 �局中人的支付是所有阶段博弈支付的贴现值之和或加权平均值。
第一节重复博弈引论
基本概念
�分类有限重复博弈。G（T）无限重复博弈。G（∞）随机结束的重复博弈 �策略、子博弈和均衡路径
第二节有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
原博弈有惟一的纯策略纳什均衡的博弈，则有限次重复博弈的惟一均衡即各博弈方在每阶段（即每次重复）中都采用原博弈的纳什均衡策略。由于这样的均衡中各博弈方的策略都不存在不可信的威胁或承诺，因此是子博弈精炼纳什均衡。
第二节有限次重复博弈
*
*
则偷懒。设厂商已采用上述触发策略。由于 w
*
> w ，工人接受工作是最佳
0
反应。用 Ve 记工人努力工作时无限次重复博弈得益的现值，则
V = ( w − e) + δV
*
e
e
即
V = ( w − e) (1 − δ )
*
e
记工人选偷懒时无限重复博弈得益的现值，则：即
w V = w + δ ( pV + (1 − p ) ) 1− δ
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
U厂商2 (1,4) (1.5,3) (3,3) (2.5,2.5) (3,1.5)
(4,1)
(2,2)
U厂商1
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�三次重复博弈厂商1：第一阶段选A；如果第一阶段结果是（A，A），则第二阶段选A，如果第一阶段结果是（A，B），第二阶段选B；第三阶段无条件选B。厂商2：第一阶段选A，第二阶段无条件选B，如果第一阶段结果是（A，A），则第三阶段选A；如果第一阶段结果是（B，A），则第三阶段选B。根据这个触发策略，3次重复的均衡路径是（A，A）、（A，B）和（B，A）。双方平均得益为（3＋1＋4）/3＝2.67。
第二节有限次重复博弈
有限次重复博弈的民间（ Folk Theorem ）定理
设原博弈的一次性博弈有均衡得益数组优于w，那么在该博弈的多次博弈中，所有不小于个体理性得益的可实现得益，都至少有一个子博弈精炼纳什的极限的平均得益来实现它们。
第二节有限次重复博弈
有限次重复博弈的民间（ Folk Theorem ）定理
* 0
s
s
* Vs = ⎡ (1 − δ ) w + δ(1 − p ) w0 ⎤ ⎣ ⎦ [(1 − δ p )(1 − δ )]
因此当即
V >V
e
s
*
时，
0 0
1 − δp 1−δ w >w + e = w +e+ e δ (1 − p ) δ (1 − p )
努力是工人的最佳选择。
反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为 y − w，
A B
厂商 1
A 3 B 4
3 1
1 0
4 0
两个纯策略纳什均衡（A，B）、（B，A）和一个混合策略纳什均衡，即厂商1和厂商2以相同的概率随机在选择A或B，混合策略双方得益＝2。
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�两次重复博弈 ★连续两次采用同一纯策略纳什均衡的路径，则双方得益分别是（1，4）和（4，1）。 ★两次采用混合策略纳什均衡，则双方平均得益（2， 2）。 ★采用轮换策略，则双方平均得益为（2.5，2.5）。 ★一次纯策略、一次混合策略，则双方得益为（1.5，3）和（3，1.5）。
第三节无限次重复博弈
一个男孩被视为傻瓜，因为每当别人拿一枚1元硬币和5角硬币让他选的时候，他总是选5角的。有一个人觉得奇怪，就问他：“为什么你不拿1元钱的？” 男孩小声回答：“假若我拿了1元钱的硬币，下次他们就不会拿钱让我选了。”
第三节无限次重复博弈
无限次重复博弈的民间定理
设G是一个完全信息静态博弈，用（e1,…,en）记G的纳什均衡的得益，用（x1,…,xn）表示G的任意可实现得益。如果xi>ei对于任意局中人i都成立，而δ足够接近1，那么无限次重复博弈G（∞，δ）中一定存在一个子博弈精炼纳什均衡，各局中人的平均得益就是（x1,…,xn）。
多个纯策略纳什均衡博弈的有限次重复博弈
H H 5, 5 厂商1 M 6, 0 L 2, 0 厂商2 M 0, 6 3, 3 2, 0 L 0, 2 0, 2 1, 1
触发策略（Trigger Strategy）：首先试探合作，一旦发觉不合作则也采用不合作相报复的策略。厂商1：第一次选H；如第一次结果为（H，H），则第二次选M，如果第一次结果为任何其他策略组合，则第二次选L。厂商2：同厂商1。
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
H H 8, 8 厂商1 M 7, 1 L 3, 1 厂商2 M 1, 7 4, 4 3, 1 L 1, 3 1, 3 2, 2
以上博弈重复n次，结论还是相似的。当重复次数较多时，平均得益接近于一次性博弈中（H，H）的得益（5，5）。
第四章重复博弈
�有限次重复博弈 �无限次重复博弈 �民间（Folk Theorem）定理
第一节重复博弈引论
为什么研究重复博弈
�普遍性 �长期利益的问题
第一节重复博弈引论
重复博弈与一般动态博弈的区别
重复博弈的一个阶段就是一个独立的静态博弈或动态博弈，各个博弈方都有相应的得益，这是重复博弈与一般动态博弈的主要区别之一。
L H
厂商 1
L 1 H 0
1 5
5 4
0 4
第三节无限次重复博弈
囚徒困境式博弈的无限次重复
触发策略：第一阶段采取H策略，在t阶段，如果前t-1阶段的结果都是（H,H），则继续采取H策略，否则采用L。当贴现值δ较大时，双方采取以上触发策略构成无限次重复博弈的一个子博弈精炼纳什均衡。如果局中人2采用一次L策略，则得益u： u＝5＋1·δ＋1·δ2＋…＝5＋δ/(1-δ) 如果局中人2一直采用H策略，则得益u： u’＝4＋4δ＋4 δ2＋…＝4/(1-δ) 所以，当u>u’时，即5＋δ/(1-δ)> 4/(1-δ)，δ<1/4时，局中人2 会采用L策略。当u<u’时，即δ>1/4时，采用H策略有利。
∞
t =1
∑
1 − p t −1 u t( ) = 1 + r
∞
t =1
∑
δ t − 1u t
第二节有限次重复博弈
零和博弈的有限次重复博弈
零和博弈的有限次重复博弈，博弈方的正确策略就是重复基本博弈的纳什均衡策略。
第二节有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
如果基本博弈惟一纯策略纳什均衡本身就是帕累托效率意义上的最佳策略组合，那么因为符合所有博弈方的利益，因此有限次重复显然不会改变博弈方的行为方式。
第三节无限次重复博弈
恶性竞争的无限次重复博弈
2个厂商按垄断产量进行生产并分享利润U，1家厂商单独改变产量则独得全部利润U，2家厂商同时改变产量则双方均无利润。则双方无限次重复博弈的策略是什么？如果是n家厂商呢？
效率工资模型
效率工资模型
模型设定：
首先厂商选择工资率为 w，然后工人选择接受或拒绝。如果拒绝，则他作个体户得到收入 w0小于w，如果接受，则工人选择努力工作（负效用为e ），或偷懒（无负效用）。厂商只能看到产量高低，高产量为 y，低产量是0。工人努力工作时一定是高产量 y; 不努力时却并不一定是0，而是高产量 y 的概率为 p，低产量0的概率为1-p。工人努力工作时，厂商得益为 y-w,工人得益为w-e；工人偷懒时，厂商期望得益为py-w，工人得益为 w 。
重复博弈的试验
美国Michigen大学教授R.爱克塞罗曾进行计算机程序竞赛，来决定什么策略最优。 14位程序设计者中有经济学家，计算机专家，政治家，数学家等，总共进行 5次循环赛，12万次对局获胜的策略是最简单的策略 ——“以牙还牙”（tit－for－ tat）
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈厂商2
第三节无限次重复博弈
无限次重复博弈的民间定理
U厂商2
(0,5)
(4,4)
(1,1) (5,0)
U厂商1
第三节无限次重复博弈
无限次重复的古诺模型
垄断产量＝3，两厂商合作则q1=q2=1.5，u1=u2=4.5 如厂商2不合作，则u2＝(8-1.5-q2)q2-2q2=4.5q2-q22 ,一阶导数＝0 得q2＝2.25 则u2＝5.0625。合作u2＝4.5＋4.5δ＋4.5δ2 ＋···＝4.5/(1-δ) 不合作u2’＝5.0625＋4δ＋4δ2 ＋···＝5.0625+4δ/(1-δ) 当u2≥u2’时，即δ≥0.5249时选择合作。
第二节有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈囚徒2
坦白不坦白坦白 -5 不坦白 -8
囚徒 1

e商务文档

博弈论(第四章)

相关文档推荐：