当前位置:文档之家› 4 完全信息动态博弈

4 完全信息动态博弈

完全信息动态博弈
Complete Information Dynamic Game
主要内容
博弈的扩展式表述 子博弈精练Nash均衡 应用举例
2

扩展式表述(博弈树)一般需确定的要素 参与人集合 参与人行动顺序 参与人的行动空间(集合) 参与人的信息集 参与人的支付函数 外生事件的发生概率/概率分布 扩展式表述的三个基本要素 参与人的集合 每个参与人的策略集合 由策略组合决定的每个参与人的支付
B 坦白 (0,-10) (-10,0) (-1,-1)
坦白
(-8,-8)
17
子博弈精练纳什均衡
定义:扩展式博弈的战略组合是一个子博弈精练纳什均衡,如果: 它是原博弈的纳什均衡; 它在每一个子博弈上都是纳什均衡。 战略是参与人行动规则的完备描述,它要告诉参与人在每一种可预 见的情况下(即每一个决策结)上选择什么行动,即使这种情况实 际上没有发生(甚至参与人并不预期它会发生)。 只有当一个战略规定的行动规则在所有可能的情况下都是最优的, 它才是一个合理的可置信的战略,子博弈精练纳什均衡就是要剔除 那些只在特定情况下是合理的而在其他情况下不合理的行动规则。
子博弈的信息集和支付向量都直接继承自原博弈。
习惯上,任何博弈的本身称为自身的一个子博弈。
15
一个例子
A
开发
不开发
X
大 小
1/2
X
大 小
1/2
1/2
1/2
B
不开发
开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4)
(8,0) (-3,-3)
(1,0) (0,8)
(0,0)
(0,1)
(0,0)
(-1,-1)
10
智猪博弈的扩展式表述(练习)
小猪
按 大猪 按 等待
5,1 9,-1
等待
4,4 0,0
11
主要内容
博弈的扩展式表述 子博弈精练Nash均衡 应用举例
12
思考问题:为什么需要“子博弈精炼纳什均衡”?
对完全信息动态博弈,考虑以下问题: 一个博弈可能有多个(甚至无穷多个)纳什均衡,究竟哪个更 合理? 纳什均衡假定每一个参与人在选择自己的最优战略时假定所有 其他参与人的战略是给定的,但是如果参与人的行动有先有后, 后行动者的选择空间依赖于前行动者的选择,前行动者在选择 时不可能不考虑自己的行动对后行动者的影响。 子博弈精练纳什均衡的一个重要改进是将“合理纳什均衡”与 “不合理纳什均衡”分开。
21
先动优势的例子
沃尔马是山姆·华尔顿于1969年创立的一家很庞大的也是很成功的折扣零售 连锁店公司。上世纪70—80年代,其它类似的公司纷纷倒闭时,沃尔马却保 持快速增长,从1976年的153家分店发展到1986年的1009家,且盈利性更强。 到1985年末,山姆·华尔顿已是美国最富有的人之一。 沃尔马成功的关键在于其市场进入与市场扩张策略。在60年代,人们通常都 认为折扣店只能在10万或以上人口的城市中才能成功经营,但山姆·华尔顿 不同意这种看法并决定在美国西南部的小镇上开店,到1970年已经有30家沃 尔马店开设在阿肯色、密苏里和俄克拉荷马的小镇上。一个10万人口以下的 小镇所具有的市场容量并不太大,但却足够容纳下一个大型折扣店,并能让 它获得一定的利润。 到70年代中期,当其它连锁店的经营者意识到这一点时,沃尔马已经大 量占领了这样的市场。对于小镇来说,开出一家折扣连锁店可以盈利。如果 开出两家来,有限的市场容量会使两家都亏损。沃尔马的策略就是先发制人, 力图抢先一步,在其他小镇开设分店。到1986年,它每年赚取4.5亿美元利 润。到1993年,它已有1800多家分店并赚取15亿美元的年利润。
博弈的基本类型:完全信息、不完全信息博弈 静态博弈、动态博弈
13
子博弈精炼纳什均衡
一个纳什均衡称为精练纳什均衡,当只当参与人的战略在每个子博 弈中都构成纳什均衡,也就是说,组成精练纳什均衡的战略必须在 每一个子博弈中都是最优的。 一个精练纳什均衡首先必须是一个纳什均衡,但纳什均衡不一定是 精练纳什均衡。
B
开发
不开发
(4,4)
(8,0) (-3,-3)
(1,0) (0,8)
(0,0)
(0,1)
(0,0)
7
博弈数表述(2)
B知道自然的选 择;但不知道A的 选 择 (或 A、 B同 时决策)
A
开发
不开发
N
大 小
1/2
N


1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4)
不同的博弈树可以代表相同的博弈,但是有一个基本规则:一个参 与人在决策之前知道的事情,必须出现在该参与人决策结之前。
9
囚徒困境博弈的扩展式表述
A
坦白
抵赖 坦白
B
抵赖
B
抵赖 坦白
B
坦白
A
抵赖 坦白
A
抵赖
坦白 抵赖
(-8,-8)
(0,-10)
(-10,0) (-1,-1) (-8,-8) (0,-10) (-10,0)
参与人集合 参与人行动顺序 参与人的行动空间 参与人的信息集 参与人的支付函数 外生事件的概率分布
A
开发
参与人(A,B,N) 初始结 不开发
N

1/2
结,决策结 小
N


1/2 1/2
1/2
信息集
B
不开发 开发

B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4)
(8,0) (-3,-3)
(1,0) (0,8)
22
几点说明

逆向归纳法求解子博弈精练纳什均衡的过程,实质上是重复剔除劣 战略的过程:从最后一个决策结依次剔除每个子博弈的劣战略,最 后生存下来的战略构成精练纳什均衡。
用逆向归纳法求解的子博弈精练纳什均衡也要求“所有的参与人是 理性的”是共同知识。 如果博弈由多个阶段组成,则从逆向归纳法得到的均衡可能并不非 常令人信服。
泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威 胁战略的纳什均衡从均衡中剔除,从而给出动态博弈的一个合理的 预测结果,简单说,子博弈精练纳什均衡要求均衡战略的行为规则 在每一个信息集上是最优的。
14
子博弈(sub-game)
子博弈:是原博弈的一部分,它本身也可以作为一个独立的博弈进 行分析: 子博弈必须从一个单结信息点开始:只有决策者在原博弈中确切地 知道博弈进入一个特定的决策结时,该决策结才能作为一个子博弈 的初始结。如果信息集包含两个以上的决策结,则这两个都不可以 作为子博弈的初始结。
23
作业
请将“囚徒困境”、“斗鸡博弈”用博弈树来表示,并找出它们的均衡。
坦白
坦白 -5,-5
抵赖
0,-8 进

-3,-3
退
2,0
抵赖
-8,0
-1,-1
退
0,2
0,0
24
主要内容
博弈的扩展式表述 子博弈精练Nash均衡——承诺与威胁 应用举例
25
承诺威胁的可信性
承诺与威胁:参与人在博弈前,对另一博弈说“不管你怎么选择,我一定选 择X策略”。这种承诺或威胁可能影响对手的选择。如情侣博弈中,如女生 在博弈前对男生说:“只要你不陪我去看芭蕾,则我们分手”,如果男生相 信女生说的话,而又不愿意分手,则他只好去看芭蕾,尽管他可能很想去看 足球。 承诺与威胁的可信性:承诺与威胁可能是不可信的,如女生说“如果你不陪 我去看芭蕾,我就去自杀”,男生就可能不相信。不可信的承诺对博弈均衡 是没有影响的。 不可信的威胁的例子:小孩不听话,父母说要打死他等。 可信的威胁或承诺:要改变均衡,必须要让威胁或承诺可信。如美国打伊拉 克,阿富汗前,先派遣大批军舰前往该地区,因为这种威胁需要成本。如市 场博弈,不管对方什么策略,先做广告或建厂房,也是一种可信的承诺。 思考:为什么老师要让部分学生考试不及格;罪犯违法,为什么要刑罚,甚 至死刑?
不完全承诺:承诺只是增加了某个行动的成本而不是使该活动完全没 有可能.
27
完全承诺
完全承诺:使自己选择某一行动的成本无穷大(对方看到后,肯定 相信你,因为你付出这么大成本,假如你实施,你的损失也很大);
赌徒坎下自己的手指,以示以后不赌了,因为即使想赌,没有手指也不方便。 婚姻中的承诺:彩礼、昂贵的婚礼可以理解为一种对婚姻的承诺; 订金、抵押物做为对交易的承诺; “安营扎寨”; 固定资产投资可以作为承诺; 所有权的承诺作用; 假定企业一开始定价80,如果前两个消费者购买了,企业将有积极性在50的 价格下向第三个顾客出售。预期到这一点,前两个顾客将不会购买。如果企 业向保证,任何降价的差额将返还顾客,前两个顾客将会购买。因为企业事 实上不会降价了。
5
(0,0)
(0,1)
(0,0)
博弈数的基本结构
结: 包括决策结和终点结两类;决策结是参与人行动的始点,终点结 是决策人行动的终点. 结满足传递性和非对称性 x之前的所有结的集合,称为x的前列集P(x),x之后的所有结的集 合称为x的后续集T(x)。 枝: 枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与 人的一个行动选择. 信息集: 每个信息集是决策结集合的一个子集,该子集包括所有满足 下列条件的决策结:
(8,0) (-3,-3)
(1,0) (0,8)
8
(0,0)
(0,1)
(0,0)
相关主题