当前位置:文档之家› 博弈论基础讲义-第四章

博弈论基础讲义-第四章

第四章动态不完全信息博弈第一节. 序贯均衡的内涵一.问题的提出1.序贯理性2.一致信念二.序贯均衡的内涵1.例子2.定义a.行为战略b.序贯理性c.一致信念3.存在性三.序贯均衡的计算1.例子:一般计算2.例子:分析应用第二节. 序贯均衡的应用一.教育和信号传递1.假设2.分析二.垄断限价模型1.假设2.分析三.声誉模型1.假设2.分析四.序贯均衡之再精炼1.剔除劣弱战略2.直观标准3.垄断限价模型第四章不完全信息动态博弈第一节.序贯均衡的内涵一.问题的提出1.序贯理性——参与人在所有情况决策都是理性的,即在给定信念的条件下,以及其他参与人的选择条件下,自身选择是最优的例1:子博弈最优——纳什均衡(,)L l是否合理?——如果参与人2有机会选择,肯定选r而不是l;——(,)L l不是子博弈精炼纳什均衡。

例2:单点信息集最优——纳什均衡(,,)D a l是子博弈纳什均衡;——但如果参与人2有机会选择,但肯定选择d;——(,,)D a l不满足单点信息集理性。

例3:多点信息集最优——纳什均衡(,)A r是子博弈精炼纳什均衡;——(,)A r不满足多点信息集理性。

2.一致信念例1:与客观事实一致u=是否合理?——参与人2的信念2/3——2/3u=是不合理的,因为任何到达参与人2信息集都不可能产生此后验概率;——后验信念必须与先念信念保持一致。

例2:前后信念一致——参与人2的第2个信息集上的信念,是否合理?——不合理,给定参与人战略和第1个信息集的信念,利用贝叶斯法则计算信念与此不一致;——参与人前后信念保持一致。

例3:独立偏离——参与人3的信念0.9u =是否合理?——参与人1和参与人3的偏离是独立的,所以参与人3的合理信念为0.1u =;——不同参与人之间的偏离是独立的总结,一致信念要求:参与人偏离最小化,,参与人之间偏离是独立的;二.序贯均衡的定义1.例子——定义参与人1在信息集1.1和1.3以及参与人2在2.2上的序贯理性;——定义信息集1.3和2.2的信念?2.定义a.行为战略:参与人在某个信息集到行动集映射,——如果某个状态真正发生,参与人如何决策;——序贯理性是否满足?b.序贯理性:在任何信息集上,参与人在给定信念和所有后续行为战略,选择自身行为战略最大化预期效用。

在单结信息集上,参与人i 的行动满足:max [,] is i is s arg U x σσρ-∈ (1)在多结信息集上,参与人i 的行动满足:max ()[,] is is i is s arg x U x σπσρ-∈∑ (2)——含义,在任何信息集上行动总是最优。

c.信念一致性:在任何信息集上参与人的信念必须和行动保持一致。

如果参与人i 信念集有正概率到达,则:()()()is y sP x x P y σπσ∈=∑ (3)如果参与人i 的信息集是零概率到达,则:lim () ()lim ()k is k P x x P y σπσ=∑ (4) ——k σ是让所有信息集都到达的行为战略;——k σσ→,收敛于现有行为战略;——仅仅需求存在一个序列满足以上条件。

d.满足(1)(2)(3)和(4),则称行为战略和信念系统(,)σπ是序贯均衡。

仅满足(1)(2)和(3),则称为弱序贯均衡,但弱序贯均衡不一定是纳什均衡。

如例子中121(,,)b w z 是弱序贯均衡,但不是纳什均衡,关键在于参与人1在1.1和1.3行为没有协调一致。

标准4是非常关键的,正式把定义非均衡路径上的信念,从而定义非均衡路径上参与人的合理行为。

3.存在性a.存在性定理——任何博弈都存在代理人标准式的颤抖手均衡;——任何代理人标准式的颤抖手均衡一定是序贯均衡。

b.和纳什均衡的关系——是纳什均衡;——可利用反证法和库恩等价定理证明。

三.计算 1.例子——在信息集2.2时,参与人2的最优行为战略为'L;——给定参与人2的最优选择,参与人1在信息集1.1的最优行为战略为L。

2.例子:考虑下图扩展式博弈,求解所有的序贯均衡3,8 2,61,0 -2,7 -1,9 -1,7——首先考虑在信息集2.3时最优行动:333: 80(1)8: 77(1)7: 69(1)93e f g αααααααα⋅+⋅-=⋅+-=⋅+-=-由此可得结论:3337/8 ;2/37/8;2/3 ;e f g ααα≥⇒≤≤⇒≤⇒最优选择最优选择最优选择——分析纯战略序贯均衡3. 7/8A e α≥⇒最优选择此时参与人1最优行为战略为121.1 1.2x x →→,则这与7/8α≥矛盾。

3. 2/37/8B f α≤≤⇒最优选择为此时参与人1的最优行为战略为121.1, 1.2y y →→。

所以,根据标准4扰动行为战略满足:12121227εαεεεεε=⇒≤≤+序贯均衡:[]123,, 2/37/8y y f α≤≤3. 2/3C g α≤⇒最优选择为此时参与人1最优行为战略121.1 1.2,2/3x y α→→≤则与矛盾。

——分析混合行为战略序贯均衡33. 7/8A e f α=⇒和混合.. 7/8α=的唯一可能就是1x 和2x 的使用概率为0,或参与人1在信息集1.2上选择2x 和2y 无差异。

由此可以得到参与人2的最优行为战略:3(1)0 x 1/42(1)0 x=2/3x x x x --≤⇒≤--=⇒7/8α=时考虑参与人1的最优行为战略: 1/4x ≤,构造扰动战略11212778εαεεεε==⇒=+ 2/3x =,此时在信息集1.1最优选择为1x ,1.2的最优选择:171 y=187y α==⇒+ …序贯均衡:12337[, , (1)] x 1/48y y x e x f α=⋅+-≤ 1223371621 [, , ]87733x x y e f α=++ 33. 2/3B f g α=⇒和的混合2/3α=的唯一可能就是1x 和2x 选择概率都为0,此时要求3f 使用概率大于等于2/3。

所以,扰动的行为战略满足:11212223εαεεεε==⇒=+ …序贯均衡:12332[, , x (1)] x 2/33y y f x g α=⋅+-⋅≥3.例子:问在什么条件下(c,eg)是一个序贯均衡——构造扰动行为战略[1212,,1εεεε--]——在信息2.2最优行为是e 的条件:33(1)1/2ααα⋅≤-⇒≤,也就是:1211221/222εαεεεε=≤⇒≥+——参与人在2.3时信息集β满足:211211240.824εεβεεεε=≥=++——所以g 要成为最优选择的条件:0.20.82 x 8x ⨯≥⨯⇒≥第二节.序贯均衡的应用一.信号传递模型1.假设——存在两个参与人,信号发送者和信号接受者;——信号接受者没有私人信息,信号发送者有两种类型,t和2t;1——信号发送者首先发送信号,信号接受者在观察到发送者信号再决定自己的行动。

2.分析求解分离均衡:不同类型参与人发送不同的信号12, t H t T →→——此时参与人2的后验信念为1, q=0p =——此时参与人2的最优选择为(,)H T——显然类型为2t 的参与人肯定不是最优选择12, t T t H →→——此时参与人2的后验信念为0, q=1p =——此时参与人2的最优选择为(,)T H——此时类型为2t 的参与人肯定不是最优选择。

混同均衡:不同类型参与人发送相同的信号12, t H t H →→——此时参与人2的后验信念为0.8, 0q 1p =≤≤——此时参与人2在信息集2.2最优选择为H ;——如果参与人类型为2t 没有积极性偏离,则参与人2在2.3信息集应该选择T ,由此要求1/2q ≤——所以混同均衡为(,,) p=0.8 q 0.5H H T ≤12, t T t T →→——此时参与人2的后验信念为0.8 0p 1q =≤≤——此时参与人2在信息集2.3最优选择为H ;——如果参与人1类型为1t 的没有积极性偏离,则参与人2在2.2选择为T ,也就是要求0.5p ≤——所以混同均衡为(,,) p 0.5 q=0.8T H T ≤教育学历和信号发送的关系二.动态非对称息讨价还价1.假设——工会和企业老板就员工工资进行讨价还价;——员工的保留效用0,企业利润π服从[]0,H π上的均匀分布,企业利润是老板的私人信息;——在第一阶段,工会提出工资要求1w ,如果企业老板接受,则博弈结束,老板支付为1w π-,工会为1w ;如果拒绝,则博弈进入第二阶段;——在第二阶段,工会同样提出工资要求2w ,如果老板接受,则企业老板得到2w π-,工会得到2w ;如果拒绝,则双方各得到0; ——现在假定双方的贴现因子都为δ。

2.分析和求解——假定只有一个阶段博弈,则工会最优工资w :0H H H www πππ-⨯+⨯ 所以*/2H w π=——给定工会最优战略12(,)w w ,企业在第一阶段最优决定为:如果1ππ>,则接受工资1w ;反之则拒绝,1π满足:1211121[] 1w w w w δπδππδ-⋅-=⋅-=-即:——给定企业老板的第一阶段的最优决策,工会的后验信念为企业利润服从1[0,]π上的均匀分布,所以工会最优工资*21/2w π= ——由此可以得到:1122w πδ=-——工会第一阶段的最优决策为:11111max /2H H Hw arg w πππδπππ-∈⨯+⨯⨯ ——最优一阶条件为:11122*1222022(2)(2)2(43)H H w w w w πδδδδδπδ--+⨯=----=⨯-——所以序贯均衡为:工会第一阶段提出工资*1w ,第二阶段为*1/2;π企业在第一阶段如果*1ππ>则接受*1w ,反之则拒绝,在第二阶段如果*2w π>则接受,反之则拒绝。

三.声誉模型1.囚徒困境S2S1坦白抗拒坦白+2,+2 8,+0 抗拒+0,8 +7,+72.假设——假定囚徒有α类型为合作类型,1α-类型为自私类型——合作类型坚持冷酷战略,一开始抗拒,一旦发现对手选择坦白,则坦白到永远——自私类型的支付矩降如上图所示——以上博弈重复有限次T,并且每一阶段都能被下一阶段所观察δ=到,假定贴现因子13.分析——如以上博弈重复3次,合作是否会出现?..自私类型选择合作的最小收益:[778](1)[022]αα⨯+++-⨯++..自私类型选择不合作的最大收益:[822](1)[822]αα⨯+++-⨯++所以如果满足:4/9α≥显然在第一阶段合作是自私类型的最优选择。

——无论α多么小,只要重复次数足够大,合作肯定会出现 ..合作的最小收益:[77...8](1)[02...2]αα⨯++++-⨯+++..不合作的最大收益:[82...2](1)[82...2]αα⨯++++-⨯+++..自私类型人在第一阶段合作的条件:5(1)8(1)08/(53)T T ααα-⨯--≥⇒≥+..更加一般地,只要重复次数足够大,则所有0t T ≤,自私参与人总选择合作..机制分析…合作收益 5(1)T α-⨯…不合作收益 (1)α-…合作收益是长远收益,随着时间增加而增加,而不合作收益是眼前的利益..如果考虑贴现因子,则合作收益随着贴现因子与δ增加而增加 …合作的最小收益11[77...78](1)[02...22]T T T Tαδδδαδδδ--⨯++++-⨯+++ …不合作的最小收益11[82...22](1)[82...22]T T T T αδδδαδδδ--⨯++++-⨯+++…两者差距随着贴现因子增加而增加 1158(1)1Tδαδαδ⎡⎤--+⨯--⎢⎥-⎣⎦四.序贯均衡之再炼1.剔除劣战略标准——如果对于某一类型参与人i t ,满足以下条件,则我们称m 为i t 类型严格劣信号,[,,][,,]S i i a aMaxU m a t Min m a t < ——如果可能,i t 类参与人发送信号m 的概率为0,即信号接受者后验信()0i P t m =——以上信号传递模型存在两个信号混同均衡:(,,), 0.8, 1/2H H T p q =≤(,,), 0.5 0.8T H T P q ≤= ——利用以上标准检验: ..检验混同均衡1 对于类型1t 存在以下关系:11[,,]3[,,]0S a a MaxU H a t Min T a t =>= 11[,,]2[,,]1S a a MaxU T a t Min H a t =>=对于类型2t 存在以下关系:1111[,,]2[,,]1[,,]3[,,]0S a a S a a MaxU H a t Min T a t MaxU T a t Min H a t =>==>=T H 和都不是1t 和2t 类型的严格劣信号,因此,0.5q ≤是合理后验信念。

相关主题