重复博弈.ppt
中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2
1+1 1+5 1+0 1+4 5+1 5+5 5+0 5+4 0+1 0+5 0+0 0+4 4+1 4+5 4+0 4+4 1+1 1+0 1+5 1+4 0+1 0+0 0+5 0+4 5+1 5+0 5+5 5+4 4+1 4+0 4+5 4+4
中科院博弈论课程-乔晗
14
无名氏定理(folk theorem)
• 在无限期重复博弈中,如果每个局中人都对未来 足够重视,即δ足够大,那么任何程度的合作都 可以作为一个精炼Nash均衡结果出现。
• 合作程度:整个博弈中合作出现的频率 100%合作:每一次都合作 0%合作:每一次都不合作
中科院博弈论课程-乔晗
中科院博弈论课程-乔晗
5
重复博弈分类
• 有限次重复博弈: 博弈在某一特定的时刻(或次数)后结束
• 无限次重复博弈: 博弈一直会进行下去,没有结束 博弈有可能结束,但局中人不知道什么时候结束
中科院博弈论课程-乔晗
6
重复博弈的策略空间
• 重复博弈之所以会导致合作,是因为改变了局中 人的策略空间
• 一次性博弈:合作,不合作 • 两阶段博弈: {合作,合作}
以牙还牙,以眼还眼 • 触发(trigger strategy)策略:
一开始我跟你合作,如果你与我合作,我就会一直合作 下去,但只要有一次你不合作,我就永远不合作
冷酷策略,即使对方不小心犯错误,也会导致合作破裂
中科院博弈论课程-乔晗
12
合作的价值与耐心
• 贴现率:明天的1元钱今天值多少? 0<δ<=1
中科院博弈论课程-乔晗
3
重复博弈
• 一次性囚徒困境:只考虑眼前利益 • 重复博弈:合作可能是最好的选择 • 重复博弈使理性人走出囚徒困境 • 非合作博弈得出合作的结果:博弈论的伟大成就
• 重复博弈(repeated game):同样结构的博 弈重复多次,其中的每次博弈被称为“阶段 博弈”(stage game).
局中人1
合作 不合作
中科院博弈论课程-乔晗
局中人2
合作
不合作
3,3 4,-1
-1,4 0,0
11
两种策略
• 理论和实践证明,有两种策略是人们最普遍使用tit-for-tat)策略: 每一次行动都建立在对手前一次行动的基础上,比如:开
始合作,如果你今天不合作,我明天就不与你合作,如果你 明天又选择合作,我后天就与你合作
重复博弈
中科院博弈论课程-乔晗
1
重复博弈
• 囚徒困境: 合作对双方都有利,个体理性决定了不合作的结果
• 现实社会:存在大量合作 人类文明是合作的结果 社会进步通过合作取得
• 社会合作程度越高,就越发达,人们生活福利越 好
• 如何走出囚徒困境,把不合作转变为合作?
中科院博弈论课程-乔晗
2
重复博弈
• 重复博弈是一种完全信息动态博弈,其中一个同 样结构的博弈至少重复两次,并且先前的博弈结 果可以被观测到.
(1)未来支付的价值 (2)博弈继续的概率 (3)两者的结合:
明天的1元钱等于今天的a元钱 明天得到1元钱的可能性为b 则δ=ab • 一般化解释:未来收益的重要程度
中科院博弈论课程-乔晗
13
合作的价值与耐心
• 贴现率δ :可以笼统的理解为“耐心” • 未来收益的重要性:与人的年龄、健康、婚姻家
庭、宗教信仰等因素有关 • 59岁现象:滥用职权是因为更加重视眼前利益导致 • 婚姻美满、家庭幸福的人更重视未来收益 • 相信“来世回报”的人更重视未来利益 • 宗教:有利于促进社会成员合作
15
两阶段重复博弈
• 两阶段的囚徒困境 ➢ 两个局中人进行静态博弈两次 ➢ 第一次博弈的结果在第二次博弈开始前可以被观测到 ➢ 整个博弈的支付是局中人在两个阶段支付之和,即贴 现率为1.
局中人 1 L1 R1
局中人 2
L2 1, 1
R2 5, 0
0, 5
4, 4
中科院博弈论课程-乔晗
16
两阶段囚徒困境的博弈树
进行报复或报答,从而使得合作成为可能
• 双方都选“总是不合作”,合作不会出现 • 双方都选“总是合作”,合作会出现吗?
中科院博弈论课程-乔晗
10
重复博弈的策略空间
• 双方“总是合作”不是Nash均衡: 给定一方选择“总是合作”,另一方的最优选
择是“总是不合作” • 怎样的策略既满足个体理性,又能导致合作出现?
过去合作愉快,这次还选择合作
• 过去的行动历史多样,每个人的策略空间扩大, 使得合作成为可能
中科院博弈论课程-乔晗
8
重复博弈的策略空间
囚徒困境博弈重复多次,策略举例:
• All-D: 不论过去什么发生,总是选择不合作; • All-C: 不论过去什么发生,总是选择合作; • 合作-不合作交替进行;(合作程度) • tit-for-tat:从合作开始,之后每次选择对方前一阶段的行