:定义: 纳什均衡策略式博弈中策略组合是个纳什均衡如果给定•策略式博弈中,策略组合s כ是一个纳什均衡,如果给定其他参与者选择了策略组合s כ−i ,对每一个参与者i 而言选收益都不低于选择其他任何策略即择策略的s*i 收益都不低于选择其他任何策略。
即,u i (s כ) ≥ u i (s i , s כ−i ) for every s i ∈S i •s*i ∈arg Max u i (s i , s כ−i )= u i (s כ1, …, s כi-1, s i , s כi+1, …s כN )for all for alli ∈I •s*i ∈B i (s*-i ) for all i ∈I(Vickrey 例:二级价格密封拍卖(Vickrey 拍卖)•SPA(c r c, r ):–入场费:c=0–拍卖底价:r=0–策略:b i (v ) ∈{ No} ∪[ r , ∞)v ∈[0, 1]支付:如果不报价收益为–支付:如果不报价,收益为0如果报价,那么-- if i i i i v z c b z>⎧(,,)()() if - if i i i i i i ii i u b z c p b v z c b z c b z⎪=−−=⎨⎪<⎩–其他竞拍人的最高报价z = Max {b -i }–p (b i ):当出现平局时的竞拍人i 赢得拍卖的概率例:英式拍卖(级价格公开叫价)一级价格公开叫价按钮拍卖(button auction)•button auction–每个人都有一个按钮,–按着按钮:表示继续参加拍卖–不按按钮:表示退出,一旦退出不能再次加入–当只有个人仍然按着按钮时,价格不再上升,拍卖当只有一个人仍然按着按钮时价格不再上升拍卖结束。
–假设:当竞拍人按着按钮时,不知道有多少人还按着(v) ∈{ No} ∪[ r, ∞)v∈[0, 1]•竞拍人的策略集:bi如果–c=0, r=0, b(v)=v是每个竞拍人的弱占优策略–w E= v(2)=w2–E[w E]= E[w2]第十讲混合策略夏纪军上海财经大学经济学院L10L10. 混合策略均衡• A. 混合策略• B. 期望支付函数期望支付数• C. 混合策略纳什均衡C• D.D. 报警博弈• F. Approaching Cars •G. 专家诊断博弈例猜硬币博弈Player 2•例:猜硬币博弈1, -1-1, 1Tail(1-q )Head (p )Head (q )Player 1Player 2-1, 11, -1Tail (1-p )Player 1•混合策略–参与者1:Head 1•以p 的概率选择Head,以1-p 的概率选择Tail•概率分布:α1=(Prob(s 1=Head), Prob(s 1=Tail)=(p , 1-p )参与者–2:•以q 的概率选择Head,以1-q 的概率选择Tail 概率分布(P b(H d)P b(T il)1•概率分布:α2=(Prob(s 2=Head), Prob(s 2=Tail)=(q , 1-q )混合策略定义•定义:–参与者的混合策略是定义在参与者纯策略集上的一个概率分布设定了选择每个纯策略的概率概率分布,设定了选择每个纯策略的概率。
–S i ={s i 1,s i 2, …, s i k }–αi =(Prob(s i 1), …., Prob(s ik ))–参与者i 的混合策略集:∆S i–混合策略组合:α=(α1,α2,…,αn )A A.混合策略Player 2L (C (R (1L (q 1) C (q 2)R (1-q 1-q 2)Player 1T (p 1)0, 23, 31, 1M (4, 00, 42, 3参与者Player 1M (p 2),,,B (1-p 1-p 2)3, 45, 10, 7•1:–纯策略集:{T, M, B }混合策略–混合策略:α1=(p 1, p 2,1-p 1-p 2)•α1(T)=p 1, α1(M)=p 2, α1(B)=1-p 1-p 2.2:•参与者2: –α2=(q 1, q 2,1-q 1-q 2)B B. 期望支付函数Player 2Head(q)Tail(1-q)Player 1Head (p)-1 , 11, -1 Tail(1-p)1, -1-1 , 1•给定策略组合(α1, α2)= ((p, 1-p), ( q,1-q))A{(H H)(H T)(T H)(T T)}–A={(H,H), (H,T), (T,H), (T,T)}–g(α1, α2)(H H)(1(H T)(1(T H)(1)(1(T T))=(pqο(H,H), p(1-q)ο(H,T), (1-p)qο(T,H), (1-p)(1-q)ο(T,T))–参与者1 的期望支付E)(H H)+(1(H T)Eu1(α1, α2) = pq u1(H,H)+p(1-q)u1(H,T)+(1-p)qu1(T,H)+ )+(1-p)(1-q)u1(T,T)B B.期望支付函数Player 2Head(q)Tail(1-q )Head (p)11Player 1Head (p)-1 , 11, -1Tail(1-p)1, -1-1 , 1•给定策略组合(α1, α2)=((p , 1-p ), ( q,1-q ))–参与者1 的期望支付Eu 1(α1, α2) = pq u 1(H,H)+p (1-q )u 1(H,T)+(1-qu (T,H)+ )+(1-)(1-u (T,T)(p )q 1())(p )(q )1()= p [q u 1(H,H)+(1-q )u 1(H,T)]+(1-) [qu (T,H)+ )+(1-u (T,T)](p )[q 1(,))(q )1(,)]= p ·u 1(H, α2)+(1-p ) ·u 1(T, α2 )=p · (1-2)+(1-) · (2q-1p (q )(p )(q )B B.期望支付函数Player 2Head(q)Tail(1-q )Player 1Head (p)-1 , 11, -1Tail(1p)11•给定策略组合, 1-), ( 1-Tail(1-p)1, -1-1 , 1((p ,p ),(q,q ))–参与者1 的期望支付•Eu α, α) =pEu (H, α)+(1-pEu (T, α2(1,2)p 1(,2)(p )p 1(,2)=p·(1-2q )+(1-p )·(2q-1)–2参与者2 的期望支付函数•Eu 2(α1, α2) = qEu 2(α1,H) + (1-q )Eu 2(α1,T)=q·p-)+(1-)·(1-2 q (2p 1)+(1q )(12p )B B. 期望支付函数Player 2L CL C RPlayer1T0, 23, 31, 1 M4, 00, 42, 3Player 1M ,,,B3, 45, 10, 7•混合策略: α1=( p1, p2, p3); α2=(q1, q2, q3)•参与者1的期望支付:–EU1(α1, α2) = p1[q1·0+ q2·3 + q3·1]+ p[q·4+q·0+q·2]2123+ p3[q1·3 + q2·5 + q3·0]=α(T) EU(T, α)+α(M) EU(M, α)+α(B) EU(B, α) 112112112B B.期望支付函数–EU α, α)1(1,2)=α1(T) EU 1(T, α2)+α1(M) EU 1(M, α2)+α1(B) EU 1(B, α2))EU ∑–1111211112(,)()(,s S EU s s αααα∈=)()()∑2211222112(,,s S EU s s u s s αα∈=⎡11221121122112(,)()()(,)s S s S EU s s u s s αααα∈∈⎤=⎢⎥⎣⎦∑∑11221122112,()()(,)s S s S s s u s s αα∈∈=∑策略式博弈(含混合策略)定义个•: ( vNM 偏好策略式博弈) 一个vNM 策略式博弈由以下几部分构成:–参与者集合–每个参与者的纯策略集–每个参与者对所有混合策略组合的偏好关系,以及表示该好关系的期望支付函数。
⎡(,)()()(,)i i i i i i i i i i i i i i s S s S EU s s u s s αααα−−−−−−∈∈⎤=⎢⎥⎣⎦∑∑()()(,)i i i i i i i s s u s s αα−−−=∑,i i i is S s S −−∈∈C C.混合策略均衡•定义:–一个混合策略组合α* 是一个(混合策略)纳什均衡,如果对所有的参与者i 都有:EU i (α*i , α*-i ) EU i (αi , α*-i ) ∀αi ∈∆S i .•纯策略NE :策略式博弈中,策略组合s 是一个纳什均衡,如果对每一个参与者i 都有u s ) ≥ u s , s −) for every s ∈S i ()i (i ,i )y i iC C.混合策略均衡混合策略组合•α* 是纳什均衡当且仅当对所有的参与者都有α*i ∈B i (α*-i )•如果每个参与者都有最优反应函数b i (α-i ),那么混*合策略组合α 是纳什均衡的充分必要条件是:–α*i = b i (α*-i ) i =1,2,…,NC C.混合策略均衡:例1Player 2Player 2HeadTailHead -1 , 11, -1Player 1,,Tail1, -1-1 , 1p 1-p•参与者1 的最优反应函数B 1(q ):q1-qp 1Max p ∈[0,1]Eu 1(p , q ) = p·(1-2q )+(1-p )·(2q-1)–Eu ′1=2-4qB 1(q )1/2•For q <0.5, p =1•For q>0.5, p =0For q=05[01]1q1/2•For q=0.5, p ∈[0,1]C C.混合策略均衡:例1Player 2Player 2HeadTailHead -1 , 11, -1Player 1,,Tail1, -1-1 , 1p 1-p•参与者2 的最优反应函数B 2(p ):q1-qMax q ∈[0,1]Eu 2(p , q ) =q·(2p-1)+(1-q )·(1-2q )–Eu ′2=4 p-2p 1B 2(p )B 1(q )•For p <0.5, q =0•For p>0.5, q =1For =05[01]1/2•For p =0.5, q ∈[0,1] 1q1/2C C.混合策略均衡:例1Player 2•参与者1的最优反应函数B 1(q ):–For q <0.5, p =1F <05y Head Tail Pl 1Head -1 , 11, -1p –For q <0.5, p =0–For q=0.5, p ∈[0,1]•2B ):q1-qPlayer 1Tail1, -1-1 , 11-p参与者的最优反应函数2(p )–For p <0.5, q =0–For p>0.5, q =1F 05[01]Mixed strategyNash equilibriump1–For p =0.5, q ∈[0,1] •((0.5,0.5)((0.5,0.5))1/2NE :((0.5,0.5)((0.5, 0.5)) –p = 0.5 ∈B 1(0.5)–q = 0.5 ∈B 2(0.5)1q1/2The Stag hunt例2:The Stag hunt ()()•给定α1=(p ,1-p ) 和α2=(q ,1-q ) –参与者1•EU 1(α1, α2)= pq·2 +p (1-q )·0 + (1-p )q·1 + (1-p )(1-q )·1=2 pq-p-q+1∂EU 1/∂p=2q-1–最优反应函数•For q >0.5, p =1;•For q <0.5, p =0;Hare(1-q)Stag (q)Hunter 2•For q =0.5, p ∈[0.1].(2,2)(0,1)Stag(p)Hunter 1(1,0)(1,1)Hare(1-p)Hunter 1The Stag hunt例2:The Stag hunt ()()•给定α1=(p ,1-p ) 和α2=(q ,1-q ) –参与者1 的最优反应⎧q1NE 2•1 1 if 0.5()[0,1] if 0.5if q B q q >⎪==⎨1/2NE 3–类似的,参与者2 的最优反应0 if 0.5q ⎪<⎩⎧p1/21NE 1•2 1 if 0.5()[0,1] if 0.5if 05p B p p >⎪==⎨–所以,存在三个混合策略纳什均衡•NE1:((10)(10));NE2:((01)(01));NE3:((55)(55))0 if 0.5p ⎪<⎩NE1: ((1,0),(1,0)); NE2: ((0,1),(0,1)); NE3: ((.5,.5),(.5,.5))期望支付函数的性质I S }•策略式博弈{I, S i , u i }, 给定混合策略组合(α1,…,αn )(,)()(,)i i i iiiiiEU s EU s αααα−−=∑•例子: 狩猎博弈给定)i is S ∈–(α1,α2 ), 参与者1的期望支付Eu 1(α1 ,α2 ) = p· u 1(S, α2) + (1-p )·u 1(H, α2)Max p harestag Hunter 2(2,2)(0,1)stagHunter 1(1,0)(1,1)hareHunter 1Appendix•Maxα∈[0,1]U(α)= α·x + (1-α)·y()()–如果x>y: α*=1y–如果x<y: α*=0–如果x=y: α*∈[0.1]•如果我们知道0<α*<1, 那么一定有x= y.如果我们知道,那么就有≤y •α*=0, x y.同理•Max p ∈[0,1] Eu 1(α1,α2 ) = p· u 1(S, α2) + (1-p )·u 1(H, α2)–u (S, α) >u (H, α) : p =1如果1(,2)1(,2)p –如果u 1(S, α2) <u 1(H, α2) : p =0–u (S )=(H ):[01]如果1(S, α2) u 1(H, α2) : p ∈[0.1]Hunter 2harestag Hunter 2(2,2)(0,1)11staghareHunter 1(1,0)(,)同理M E )(S )(1)(H •Max p ∈[0,1]Eu 1(α1,α2 ) = p· u 1(S, α2) + (1-p )·u 1(H, α2)•令α*=((p*,1-p*), (q*,1-q*))是纳什均衡,–如果0<p*<1, ,即,α1*(S)>0, α1*(H)>0•那么一定有u (S, α*) =u (H, α*) .那么定有1(,2)1(,2)–NE3: ((.5,.5),(.5,.5))•(S,*)=0.5*2+0.5*0=1u 1(S, α2) 0.520.501•u 1(H, α2*)=0.5*1+0.5*1=1•*,S =u *,H hare stag Hunter 2u 2(α1, S )u 2(α1, H )(2,2)(0,1)stagHunter 1(1,0)(1,1)hareHunter 1同理)()()(•Max p ∈[0,1]Eu 1(p , q ) = p· u 1(S, α2) + (1-p )·u 1(H, α2)•α*=((p*,1-p*), (q*,1-q*是纳什均衡,令((p ,p ),(q ,q ))是纳什均衡–如果p *=0, α1*(S)=0, α1*(H)=1>0•(S *)(H *)那么就有u 1(S, α2) ≤u 1(H, α2) .–NE1: ((1,0),(1, 0))•(S *)=1*2+0*0=2u 1(S, α2) 12+002•u 1(H, α2*)=1*1+0*1=1hare stag Hunter 2(2,2)(0,1)stagHunter 1(1,0)(1,1)hareHunter 1l i iD. Employee Monitoring•员工可以选择努力工作或偷懒员以选择努力作或偷懒•工资:$ w,但是一旦被发现偷懒那么得到0。