当前位置：文档之家› 重复博弈.ppt

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系，即前一阶段博弈的结果不改变后一阶段的结构（比如剪刀、石头、布的重复）；
2. 所有参与人观察到博弈过去的历史； 3. 参与人的总支付（报酬）是所有阶段博弈支付的
贴现值之和（局中人关心的不仅是现阶段收益，还包括未来收益，因而有积极性做出不同于一次性博弈的最优选择）。
{合作，不合作} {不合作，合作} {不合作，不合作} • 三阶段博弈？ • N阶段博弈？
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈：局中人的选择无法建立在对手前阶段行动的基础上
• 重复博弈：过去的行动历史可以被观察到，局中人的选择可以建立在其他局中人过去行动的基础上
如：过去你欺骗我，这次我不与你合作
中科院博弈论课程-乔晗
动；（针锋相对）
• trigger strategies: 从合作开始，一直到有一方不合作，然后永远选择不合作。（触发）
……
局中人1
合作不合作
局中人2
合作
不合作
3,3
-1,4
4，-1
0，0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中，局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2
1+1 1+5 1+0 1+4 5+1 5+5 5+0 5+4 0+1 0+5 0+0 0+4 4+1 4+5 4+0 4+4 1+1 1+0 1+5 1+4 0+1 0+0 0+5 0+4 5+1 5+0 5+5 5+4 4+1 4+0 4+5 4+4
中科院博弈论课程-乔晗
14
无名氏定理（folk theorem）
• 在无限期重复博弈中，如果每个局中人都对未来足够重视，即δ足够大，那么任何程度的合作都可以作为一个精炼Nash均衡结果出现。
• 合作程度：整个博弈中合作出现的频率 100%合作：每一次都合作 0%合作：每一次都不合作
中科院博弈论课程-乔晗
中科院博弈论课程-乔晗
5
重复博弈分类
• 有限次重复博弈：博弈在某一特定的时刻（或次数）后结束
• 无限次重复博弈：博弈一直会进行下去，没有结束博弈有可能结束，但局中人不知道什么时候结束
中科院博弈论课程-乔晗
6
重复博弈的策略空间
• 重复博弈之所以会导致合作，是因为改变了局中人的策略空间
• 一次性博弈：合作，不合作 • 两阶段博弈： {合作，合作}
以牙还牙，以眼还眼 • 触发（trigger strategy）策略:
一开始我跟你合作，如果你与我合作，我就会一直合作下去，但只要有一次你不合作，我就永远不合作
冷酷策略，即使对方不小心犯错误，也会导致合作破裂
中科院博弈论课程-乔晗
12
合作的价值与耐心
• 贴现率：明天的1元钱今天值多少？ 0<δ<=1
中科院博弈论课程-乔晗
3
重复博弈
• 一次性囚徒困境：只考虑眼前利益 • 重复博弈：合作可能是最好的选择 • 重复博弈使理性人走出囚徒困境 • 非合作博弈得出合作的结果：博弈论的伟大成就
• 重复博弈(repeated game)：同样结构的博弈重复多次，其中的每次博弈被称为“阶段博弈”(stage game).
局中人1
合作不合作
中科院博弈论课程-乔晗
局中人2
合作
不合作
3,3 4，-1
-1,4 0，0
11
两种策略
• 理论和实践证明，有两种策略是人们最普遍使用tit-for-tat）策略：每一次行动都建立在对手前一次行动的基础上，比如：开
始合作，如果你今天不合作，我明天就不与你合作，如果你明天又选择合作，我后天就与你合作
重复博弈
中科院博弈论课程-乔晗
1
重复博弈
• 囚徒困境：合作对双方都有利，个体理性决定了不合作的结果
• 现实社会：存在大量合作人类文明是合作的结果社会进步通过合作取得
• 社会合作程度越高，就越发达，人们生活福利越好
• 如何走出囚徒困境，把不合作转变为合作？
中科院博弈论课程-乔晗
2
重复博弈
• 重复博弈是一种完全信息动态博弈，其中一个同样结构的博弈至少重复两次，并且先前的博弈结果可以被观测到.
(1)未来支付的价值 (2)博弈继续的概率 (3)两者的结合：
明天的1元钱等于今天的a元钱明天得到1元钱的可能性为b 则δ=ab • 一般化解释：未来收益的重要程度
中科院博弈论课程-乔晗
13
合作的价值与耐心
• 贴现率δ ：可以笼统的理解为“耐心” • 未来收益的重要性：与人的年龄、健康、婚姻家
庭、宗教信仰等因素有关 • 59岁现象:滥用职权是因为更加重视眼前利益导致 • 婚姻美满、家庭幸福的人更重视未来收益 • 相信“来世回报”的人更重视未来利益 • 宗教：有利于促进社会成员合作
15
两阶段重复博弈
• 两阶段的囚徒困境 ➢ 两个局中人进行静态博弈两次 ➢ 第一次博弈的结果在第二次博弈开始前可以被观测到 ➢ 整个博弈的支付是局中人在两个阶段支付之和，即贴现率为1.
局中人 1 L1 R1
局中人 2
L2 1, 1
R2 5, 0
0, 5
4, 4
中科院博弈论课程-乔晗
16
两阶段囚徒困境的博弈树
进行报复或报答，从而使得合作成为可能
• 双方都选“总是不合作”，合作不会出现 • 双方都选“总是合作”，合作会出现吗？
中科院博弈论课程-乔晗
10
重复博弈的策略空间
• 双方“总是合作”不是Nash均衡：给定一方选择“总是合作”，另一方的最优选
择是“总是不合作” • 怎样的策略既满足个体理性，又能导致合作出现？
过去合作愉快，这次还选择合作
• 过去的行动历史多样，每个人的策略空间扩大，使得合作成为可能
中科院博弈论课程-乔晗
8
重复博弈的策略空间
囚徒困境博弈重复多次，策略举例：
• All-D: 不论过去什么发生，总是选择不合作； • All-C: 不论过去什么发生，总是选择合作； • 合作-不合作交替进行；（合作程度） • tit-for-tat：从合作开始，之后每次选择对方前一阶段的行

e商务文档

重复博弈.ppt

相关文档推荐：