当前位置:文档之家› 尼科尔森《微观经济理论——基本原理与扩展》(第9版)笔记和课后习题详解-博弈定价模型(圣才出品)

尼科尔森《微观经济理论——基本原理与扩展》(第9版)笔记和课后习题详解-博弈定价模型(圣才出品)

第15章博弈定价模型15.1 复习笔记1.基本概念博弈指一种互动决策,即每一行为主体的利益不仅依赖它自己的行为选择,而且依赖于别人的行为选择,以致它所采取的最好行动有赖于其竞争对手将选择什么行为。

博弈论,又称对策论或游戏论,它所研究的是行为者之间策略相互依存和相互作用的一种决策理论。

博弈可以是合作的,在这种情况下,局中人能够达成协议;博弈也可以是非合作的,在这种情况下,不可能达成任何协议。

所有博弈都具有以下三个基本要素:局中人、策略、报酬。

(1)局中人局中人是指博弈中每个策略的决策者。

这些局中人可以是个人、厂商,或者是整个国家。

所有局中人具有有能力在一组可能的行为集合中作出选择的特征。

(2)策略策略指博弈中局中人每个回合的行动。

根据考察的博弈的不同,一个策略可能是非常简单的行动,也可能是非常复杂的行动。

但是每个策略都被认为是有明确定义的、特定的一个回合的行动。

(3)报酬报酬指的是博弈中局中人的最终收益。

报酬通常是用局中人获得的效用水平来测度的,通常会被货币报酬所替代(如厂商的利润)。

一般情况下,假设局中人能够对博弈的报酬根据偏好程度由高到低进行排序,以寻求可达到的最高序列的报酬。

(4)符号一般情况下没有正式的符号来标记一个博弈,但是符号能澄清事实。

通常,将一个两个局中人之间的博弈标记为:其中,和分别代表对于局中人和可以采用的策略组合。

和表示和选择特定策略时局中人可以得到的效用。

2.博弈的描述(1)规范形式的博弈规范形式的博弈,又称标准式博弈,在规范形式的博弈中,所有参与者同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。

规范形式的博弈一般用支付矩阵的形式来描述。

规范形式的博弈非常容易刻画静态博弈,因为此时非常容易确定博弈各方的策略。

规范形式的博弈也可以刻画一些动态博弈。

在静态博弈中,由于参与人是一次性行动,可以不考察该计划在各种情况下对行动的规定,只要指出参与人选择什么样的策略就可以了;而对于动态博弈来说,由于各个参与人的行动有先后顺序,这样某参与人的策略就需要规定该参与人在各种情况下的行动。

通过找出参与人在动态博弈中的所有策略,就可以通过规范形式的博弈来刻画一个动态博弈。

(2)外延式博弈外延式博弈用来描述谁在何时行动,在该时点上它能做什么,它行动时知道哪些信息,以及与参与人行动相联系的最终支付。

对于外延式博弈,一般采用博弈树的方式进行描述,博弈树的构成要素主要有结、枝、路径、信息集。

一般而言,假设每个参与人都具有完全信息:每个人都知道其他人是谁,都知道其他人的可能行动,都知道所有参与人的支付情况。

也就是说,每个参与人都知道博弈树的完整结构,并且知道其他人也了解这些信息。

在一些博弈中,参与人并不总是确切地知道轮到自己行动时,博弈进行到博弈树中的什么位置。

当其他参与人的行动不是清晰可见时就会产生这()(),,,,,A B A BG S S U a b U a b⎡⎤⎣⎦ASBS A BAUBU A B种不确定性。

一般将刻画参与人所掌握的信息的多寡的集合称为信息集。

显然,信息集中的节点越多,意味着参与人越不能确定博弈进行到哪一个节点上,说明参与人的信息越少。

如果一个信息集中只有一个节点,这说明该参与人知道另一参与人在这之前的确切选择,这时称参与人在该点有完美信息。

同一个信息集中,参与人可能采取的行动在每个节点处必须相同;否则,节点就可以被分辨,从而不能达到参与人无法分辨信息集的每一个节点这一要求。

较为适合描述动态博弈的外延式博弈也能描述静态博弈。

3.占优策略均衡与纳什均衡(1)占优策略均衡:囚徒困境模型一般来说,由于每个博弈方的效用(支付)是博弈中所有参与者的策略的函数,因而每个博弈方的最优策略选择依赖于所有其他博弈方的策略选择。

但在一些特殊的博弈中,一个博弈方的最优策略可能并不依赖于其他博弈方的策略选择。

也就是说,不论其他博弈方选择什么样的策略,他的最优策略是唯一的,这样的最优策略被称为“占优策略”。

在博弈中,如果所有的博弈方都有占优策略存在,从而博弈将在所有博弈方的占优策略的基础上达到均衡,则这种均衡称为“占优策略均衡”。

囚徒困境模型是占优策略均衡的一个典型例子。

囚徒困境模型指两个被捕获的囚犯之间的一种特殊“博弈”,说明为什么甚至在合作对双方有利时,保持合作也是困难的。

囚徒两难处境的故事包含着一个一般性的结论,这个结论适用于任何一个力图维持其成员合作的集团。

这是博弈论中的一个经典例证,同一市场上的寡头在力图达到垄断结果时的博弈类似于两个处于两难处境的囚徒的博弈。

具体情况如下:两囚徒被指控为一桩罪案的同案犯。

他们被分关在不同的牢房且无法互通信息。

各囚徒都被要求坦白罪行。

如果两囚徒都坦白,各将被判入狱5年;如果两人都不坦白,则很难对他们提起刑事诉讼,因而两囚徒可以期望被从轻发落为入狱2年;另一方面,如果一个囚徒坦白而另一个囚徒不坦白,坦白的囚徒就只需入狱1年,而另一个将被判入狱10年。

那么囚徒将会怎么选择呢?下面的支付矩阵归纳了各种可能的结果。

(其中“得益”是负的,表格右下角单元格意思是两个囚徒各2年徒刑)。

该表说明,这两个囚徒面临着一种困境。

如果他们都不坦白(以一种会遵守的方法),那么两人只需入狱仅仅2年。

但他们不能相互讲话,如果囚徒A不坦白,他就冒着被B利用的危险。

因为不管囚徒A怎么选择,囚徒B坦白总是最优方案。

同样,囚徒A坦白也总是最优方案,所以囚徒B必须担心要是自己不坦白,就会被利用。

因此,两囚徒大概都会坦白并入狱5年。

总之,在上述囚徒两难处境的模型中,对囚徒个人而言,选择坦白总比选择抵赖有较高的收益,但从2人支付的总和来看,双方都抵赖(合作或串谋)的结果是最优的。

因而,囚徒困境模型就深刻地揭示了社会和经济生活中的一种普遍情形,即“个人理性”与“集体理性”的矛盾,这就是“困境”。

现实生活中有很多囚徒困境的例子,如国家间的军备竞赛、厂商间的价格战、公共物品的搭便车问题等。

(2)纳什均衡及其存在性纳什均衡是以美国数学家约翰·纳什(John Nash)命名的一种策略集,在这一策略集中,每一个博弈者都确信,在给定竞争对手策略的情况下,他选择了最好的策略,也就是说,给定其他人的策略,任何个人都没有积极性去选择其他策略,从而这个均衡就没有人有积极性去打破。

1950年,纳什曾证明,对任何有限博弈(指参与人和策略集都有限的博弈)来说,至少存在一个纳什均衡(这个均衡可能是混合策略纳什均衡)。

关于纳什均衡存在性的定理称为纳什定理。

纳什定理指,如果一个博弈的参与人是有限的,并且每一个参与人只有有限个策略,那么该博弈至少存在一个纳什均衡。

纳什定理只给出了纳什均衡的存在性,但没有说明其是否唯一。

实际上,一个博弈可能存在多个纳什均衡。

需要指出的是,占优策略均衡一定是纳什均衡,但纳什均衡不一定是占优策略均衡。

4.子博弈与子博弈精炼纳什均衡(1)子博弈子博弈是原博弈的一部分,指一个决策结点及属于该决策结点的所有后续结点构成的一个博弈。

要注意的是:必须从单结的决策结点开始;必须包括后面所有的决策结点和终点;在信息不完美时不能切割信息集。

(2)子博弈精炼纳什均衡对于所有的子博弈都是最优的纳什均衡,称为子博弈精炼纳什均衡。

子博弈精炼纳什均衡要求参与人应该是序贯理性的。

序贯理性指不论过去发生了什么,参与人应该在博弈的每一时点上最优化自己的决策。

一个精练均衡首先是一个纳什均衡,但纳什均衡不见得是精炼均衡,只有那些不包括不可置信威胁的纳什均衡才是精练纳什均衡。

确定进入博弈的子博弈精炼纳什均衡的过程可以一般化:即首先确定一个博弈的纳什均衡,然后检验该纳什均衡在各个子博弈上面能否诱致纳什均衡,通过这一检验,就说该纳什均衡是一个子博弈精炼纳什均衡,否则,就不是。

但这一方法无疑是繁琐的。

对于完美信息的动态博弈,可以用逆向归纳的方法比较简便地确定子博弈精炼纳什均衡。

简单地说,所谓逆向归纳就指首先在最接近终点的子博弈上面确定一个纳什均衡,然后把这一纳什均衡带来的结果作为新的终点,继续寻最接近这一终点的子博弈纳什均衡,反复下去,直到原博弈的终点。

5.重复博弈(1)重复博弈的含义与“以牙还牙”策略动态博弈是一种反复进行的博弈。

重复博弈是动态博弈的一种特殊情况,在重复博弈中,同一个博弈被重复多次。

与一次性博弈不同,重复博弈中的所有博弈方过去的行为都是观测得到的,因而某一博弈方可以通过自己在本阶段博弈中的策略选择,来报复其他博弈方在以前的阶段博弈中的行为,即“以牙还牙”的策略。

也就是指所有成员从一开始就合作,对于每一个成员来说,只要其他成员是合作的,则他就把合作继续下去。

但只要有一个成员背弃合作协议一次,其他成员就从此再也不与其合作了。

(2)有限次重复博弈模型博弈重复次数有限,意味着存在所有博弈方都可以预测到的“最后一次”。

在最后一局博弈中,所有的对局者都明白,如果某一博弈方选择了自己的占优策略,给其他参与人造成损失,则其他博弈方不可能报复,因而在最后一次博弈中都会选择占优策略,从而构成与单次博弈相同的占优策略均衡。

有限次的博弈与一次性的博弈在本质上没有什么不同,每次博弈出现的都是一次性博弈的均衡结果。

(3)无限次重复博弈模型在无限次重复博弈中,如果参与人有足够的耐心,那么任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精练均衡得到。

或者说,只要时间足够长(或博弈次数足够多),时间贴现率足够低,那么参与人总是有动力为了将来利益而惩罚另一个参与人,即使该惩罚损害了当前利益。

6.动态博弈与策略行动在动态博弈中,参与人为了使得其他参与人的选择对自己有利,往往采取一些行动来影响其他参与人对于自己行为的预期。

这些行为称为策略行动。

相关主题