当前位置：文档之家› 博弈论基础讲义-第四章

博弈论基础讲义-第四章

第四章动态不完全信息博弈第一节. 序贯均衡的内涵一.问题的提出1.序贯理性2.一致信念二.序贯均衡的内涵1.例子2.定义a.行为战略b.序贯理性c.一致信念3.存在性三.序贯均衡的计算1.例子：一般计算2.例子：分析应用第二节. 序贯均衡的应用一.教育和信号传递1.假设2.分析二.垄断限价模型1.假设2.分析三.声誉模型1.假设2.分析四.序贯均衡之再精炼1.剔除劣弱战略2.直观标准3.垄断限价模型第四章不完全信息动态博弈第一节.序贯均衡的内涵一.问题的提出1.序贯理性——参与人在所有情况决策都是理性的，即在给定信念的条件下，以及其他参与人的选择条件下，自身选择是最优的例1：子博弈最优——纳什均衡(,)L l是否合理？——如果参与人2有机会选择，肯定选r而不是l；——(,)L l不是子博弈精炼纳什均衡。

例2：单点信息集最优——纳什均衡(,,)D a l是子博弈纳什均衡；——但如果参与人2有机会选择，但肯定选择d；——(,,)D a l不满足单点信息集理性。

例3：多点信息集最优——纳什均衡(,)A r是子博弈精炼纳什均衡；——(,)A r不满足多点信息集理性。

2.一致信念例1：与客观事实一致u=是否合理？——参与人2的信念2/3——2/3u=是不合理的，因为任何到达参与人2信息集都不可能产生此后验概率；——后验信念必须与先念信念保持一致。

例2：前后信念一致——参与人2的第2个信息集上的信念，是否合理？——不合理，给定参与人战略和第1个信息集的信念，利用贝叶斯法则计算信念与此不一致；——参与人前后信念保持一致。

例3：独立偏离——参与人3的信念0.9u =是否合理？——参与人1和参与人3的偏离是独立的，所以参与人3的合理信念为0.1u =；——不同参与人之间的偏离是独立的总结，一致信念要求：参与人偏离最小化,，参与人之间偏离是独立的；二.序贯均衡的定义1.例子——定义参与人1在信息集1.1和1.3以及参与人2在2.2上的序贯理性；——定义信息集1.3和2.2的信念？2.定义a.行为战略：参与人在某个信息集到行动集映射，——如果某个状态真正发生，参与人如何决策；——序贯理性是否满足？b.序贯理性：在任何信息集上，参与人在给定信念和所有后续行为战略，选择自身行为战略最大化预期效用。

在单结信息集上，参与人i 的行动满足：max [,] is i is s arg U x σσρ-∈ （1）在多结信息集上，参与人i 的行动满足：max ()[,] is is i is s arg x U x σπσρ-∈∑ （2）——含义，在任何信息集上行动总是最优。

c.信念一致性：在任何信息集上参与人的信念必须和行动保持一致。

如果参与人i 信念集有正概率到达，则：()()()is y sP x x P y σπσ∈=∑ （3）如果参与人i 的信息集是零概率到达，则：lim () ()lim ()k is k P x x P y σπσ=∑ （4） ——k σ是让所有信息集都到达的行为战略；——k σσ→，收敛于现有行为战略；——仅仅需求存在一个序列满足以上条件。

d.满足（1）（2）（3）和（4），则称行为战略和信念系统(,)σπ是序贯均衡。

仅满足（1）（2）和（3），则称为弱序贯均衡，但弱序贯均衡不一定是纳什均衡。

如例子中121(,,)b w z 是弱序贯均衡，但不是纳什均衡，关键在于参与人1在1.1和1.3行为没有协调一致。

标准4是非常关键的，正式把定义非均衡路径上的信念，从而定义非均衡路径上参与人的合理行为。

3.存在性a.存在性定理——任何博弈都存在代理人标准式的颤抖手均衡；——任何代理人标准式的颤抖手均衡一定是序贯均衡。

b.和纳什均衡的关系——是纳什均衡；——可利用反证法和库恩等价定理证明。

三.计算 1.例子——在信息集2.2时，参与人2的最优行为战略为'L；——给定参与人2的最优选择，参与人1在信息集1.1的最优行为战略为L。

2.例子：考虑下图扩展式博弈，求解所有的序贯均衡3,8 2,61,0 -2,7 -1,9 -1,7——首先考虑在信息集2.3时最优行动：333: 80(1)8: 77(1)7: 69(1)93e f g αααααααα⋅+⋅-=⋅+-=⋅+-=-由此可得结论：3337/8 ;2/37/8;2/3 ;e f g ααα≥⇒≤≤⇒≤⇒最优选择最优选择最优选择——分析纯战略序贯均衡3. 7/8A e α≥⇒最优选择此时参与人1最优行为战略为121.1 1.2x x →→，则这与7/8α≥矛盾。

3. 2/37/8B f α≤≤⇒最优选择为此时参与人1的最优行为战略为121.1, 1.2y y →→。

所以，根据标准4扰动行为战略满足：12121227εαεεεεε=⇒≤≤+序贯均衡：[]123,, 2/37/8y y f α≤≤3. 2/3C g α≤⇒最优选择为此时参与人1最优行为战略121.1 1.2,2/3x y α→→≤则与矛盾。

——分析混合行为战略序贯均衡33. 7/8A e f α=⇒和混合.. 7/8α=的唯一可能就是1x 和2x 的使用概率为0，或参与人1在信息集1.2上选择2x 和2y 无差异。

由此可以得到参与人2的最优行为战略：3(1)0 x 1/42(1)0 x=2/3x x x x --≤⇒≤--=⇒7/8α=时考虑参与人1的最优行为战略： 1/4x ≤，构造扰动战略11212778εαεεεε==⇒=+ 2/3x =，此时在信息集1.1最优选择为1x ，1.2的最优选择：171 y=187y α==⇒+ …序贯均衡：12337[, , (1)] x 1/48y y x e x f α=⋅+-≤ 1223371621 [, , ]87733x x y e f α=++ 33. 2/3B f g α=⇒和的混合2/3α=的唯一可能就是1x 和2x 选择概率都为0，此时要求3f 使用概率大于等于2/3。

所以，扰动的行为战略满足：11212223εαεεεε==⇒=+ …序贯均衡：12332[, , x (1)] x 2/33y y f x g α=⋅+-⋅≥3.例子：问在什么条件下（c，eg）是一个序贯均衡——构造扰动行为战略[1212,,1εεεε--]——在信息2.2最优行为是e 的条件：33(1)1/2ααα⋅≤-⇒≤，也就是：1211221/222εαεεεε=≤⇒≥+——参与人在2.3时信息集β满足：211211240.824εεβεεεε=≥=++——所以g 要成为最优选择的条件：0.20.82 x 8x ⨯≥⨯⇒≥第二节.序贯均衡的应用一.信号传递模型1.假设——存在两个参与人，信号发送者和信号接受者；——信号接受者没有私人信息，信号发送者有两种类型，t和2t；1——信号发送者首先发送信号，信号接受者在观察到发送者信号再决定自己的行动。

2.分析求解分离均衡：不同类型参与人发送不同的信号12, t H t T →→——此时参与人2的后验信念为1, q=0p =——此时参与人2的最优选择为(,)H T——显然类型为2t 的参与人肯定不是最优选择12, t T t H →→——此时参与人2的后验信念为0, q=1p =——此时参与人2的最优选择为(,)T H——此时类型为2t 的参与人肯定不是最优选择。

混同均衡：不同类型参与人发送相同的信号12, t H t H →→——此时参与人2的后验信念为0.8, 0q 1p =≤≤——此时参与人2在信息集2.2最优选择为H ；——如果参与人类型为2t 没有积极性偏离，则参与人2在2.3信息集应该选择T ，由此要求1/2q ≤——所以混同均衡为(,,) p=0.8 q 0.5H H T ≤12, t T t T →→——此时参与人2的后验信念为0.8 0p 1q =≤≤——此时参与人2在信息集2.3最优选择为H ；——如果参与人1类型为1t 的没有积极性偏离，则参与人2在2.2选择为T ，也就是要求0.5p ≤——所以混同均衡为(,,) p 0.5 q=0.8T H T ≤教育学历和信号发送的关系二.动态非对称息讨价还价1.假设——工会和企业老板就员工工资进行讨价还价；——员工的保留效用0，企业利润π服从[]0,H π上的均匀分布，企业利润是老板的私人信息；——在第一阶段，工会提出工资要求1w ，如果企业老板接受，则博弈结束，老板支付为1w π-，工会为1w ；如果拒绝，则博弈进入第二阶段；——在第二阶段，工会同样提出工资要求2w ，如果老板接受，则企业老板得到2w π-，工会得到2w ；如果拒绝，则双方各得到0； ——现在假定双方的贴现因子都为δ。

2.分析和求解——假定只有一个阶段博弈，则工会最优工资w ：0H H H www πππ-⨯+⨯ 所以*/2H w π=——给定工会最优战略12(,)w w ，企业在第一阶段最优决定为：如果1ππ>，则接受工资1w ；反之则拒绝，1π满足：1211121[] 1w w w w δπδππδ-⋅-=⋅-=-即:——给定企业老板的第一阶段的最优决策，工会的后验信念为企业利润服从1[0,]π上的均匀分布，所以工会最优工资*21/2w π= ——由此可以得到：1122w πδ=-——工会第一阶段的最优决策为：11111max /2H H Hw arg w πππδπππ-∈⨯+⨯⨯ ——最优一阶条件为：11122*1222022(2)(2)2(43)H H w w w w πδδδδδπδ--+⨯=----=⨯-——所以序贯均衡为：工会第一阶段提出工资*1w ，第二阶段为*1/2;π企业在第一阶段如果*1ππ>则接受*1w ，反之则拒绝，在第二阶段如果*2w π>则接受，反之则拒绝。

三.声誉模型1.囚徒困境S2S1坦白抗拒坦白+2,+2 8,+0 抗拒+0,8 +7,+72.假设——假定囚徒有α类型为合作类型，1α-类型为自私类型——合作类型坚持冷酷战略，一开始抗拒，一旦发现对手选择坦白，则坦白到永远——自私类型的支付矩降如上图所示——以上博弈重复有限次T，并且每一阶段都能被下一阶段所观察δ=到，假定贴现因子13.分析——如以上博弈重复3次，合作是否会出现？..自私类型选择合作的最小收益：[778](1)[022]αα⨯+++-⨯++..自私类型选择不合作的最大收益：[822](1)[822]αα⨯+++-⨯++所以如果满足：4/9α≥显然在第一阶段合作是自私类型的最优选择。

——无论α多么小，只要重复次数足够大，合作肯定会出现 ..合作的最小收益：[77...8](1)[02...2]αα⨯++++-⨯+++..不合作的最大收益：[82...2](1)[82...2]αα⨯++++-⨯+++..自私类型人在第一阶段合作的条件：5(1)8(1)08/(53)T T ααα-⨯--≥⇒≥+..更加一般地，只要重复次数足够大，则所有0t T ≤，自私参与人总选择合作..机制分析…合作收益 5(1)T α-⨯…不合作收益 (1)α-…合作收益是长远收益，随着时间增加而增加，而不合作收益是眼前的利益..如果考虑贴现因子，则合作收益随着贴现因子与δ增加而增加 …合作的最小收益11[77...78](1)[02...22]T T T Tαδδδαδδδ--⨯++++-⨯+++ …不合作的最小收益11[82...22](1)[82...22]T T T T αδδδαδδδ--⨯++++-⨯+++…两者差距随着贴现因子增加而增加 1158(1)1Tδαδαδ⎡⎤--+⨯--⎢⎥-⎣⎦四.序贯均衡之再炼1.剔除劣战略标准——如果对于某一类型参与人i t ，满足以下条件，则我们称m 为i t 类型严格劣信号,[,,][,,]S i i a aMaxU m a t Min m a t < ——如果可能，i t 类参与人发送信号m 的概率为0，即信号接受者后验信()0i P t m =——以上信号传递模型存在两个信号混同均衡：(,,), 0.8, 1/2H H T p q =≤(,,), 0.5 0.8T H T P q ≤= ——利用以上标准检验： ..检验混同均衡1 对于类型1t 存在以下关系：11[,,]3[,,]0S a a MaxU H a t Min T a t =>= 11[,,]2[,,]1S a a MaxU T a t Min H a t =>=对于类型2t 存在以下关系：1111[,,]2[,,]1[,,]3[,,]0S a a S a a MaxU H a t Min T a t MaxU T a t Min H a t =>==>=T H 和都不是1t 和2t 类型的严格劣信号，因此，0.5q ≤是合理后验信念。

e商务文档

博弈论基础讲义-第四章

相关文档推荐：