逆向归纳法的认知基础崔晓红1.引言逆向归纳法是博弈论中一个比较古老的概念,它的提出最早可以追溯到泽梅罗(1913)针对国际象棋有最优策略解的证明,后来人们将其推广到了更广泛的博弈中,例如,在有限完美信息扩展型博弈中,就是用逆向归纳法(BI)来证明子博弈完美均衡(SPE)的存在以及求解SPE,其基本思路是从动态博弈中的最后一个阶段开始,局中人都遵循效用最大化原则选择行动,然后逐步倒推至前一个阶段,一直到博弈开始局中人的行动选择,其逻辑严密性毋庸置疑。
然而,当从终点往前推到某一决策点时,BI完全忽略了到达该决策点的以往历史行动,而这一历史行动当然会影响处于该决策点的局中人有关其对手将来如何采取行动的信念,例如,一个局中人如果观察到对手在过去没有按照BI进行行动选择,那么他就有理由相信他的对手仍会采取同样的模式进行下去,但是通过这种信念修正以后所做的选择就会与BI矛盾。
为了达到均衡解,为了能按BI进行推理求解,我们需要对局中人的信念或者说知识增加一些限制性条件,也就是说在什么样的前提下,BI是合理的,显然,仅仅要求每个局中人都理性是不够的,所有的局中人都必须知道所有的局中人都是理性的,所有的局中人都必须知道所有局中人都知道所有局中人都是理性的……等等以至无穷,在这样的认知条件基础下,我们就不会偏离BI,即,“在完美信息扩展型博弈中,理性的公共知识蕴含了BI”(Aumann 1995)。
本文旨在通过构造完美信息扩展型博弈的认知模型来考察BI的这一认知条件。
文章第二部分先通过一些简单例子对一些问题进行非形式上的讨论;第三部分介绍Aumann结构如何表达知识和信念;第四部分给出完美信息扩展型博弈的认知模型并用形式化的方给出BI的认知条件。
2. 实例分析2.1 蜈蚣博弈图1是一个长度为3的蜈蚣博弈,博弈每前进一个阶段,桌子上就增加一美元,局中人1,2轮流采取行动,轮到某个局中人采取行动时,他可以拿走桌子上的钱,博弈结束,或者钱留在桌子上继续博弈,另外,局中人都是理性的,也就是说都遵循期望效用最大化原则。
如图所示:3图1 蜈蚣博弈1根据BI,此博弈有唯一子博弈完美均衡,那就是局中人1采取行动T1,拿走桌子上的一美元博弈结束。
假设局中人1采取的行动是L1,并且桌子上又增加了一美元,此时由局中人2开始行动,这时的局中人2会觉得很奇怪,他最初是确定局中人1会根据BI进行推理拿走桌上的钱的,但局中人1并没有那样做,局中人2就想局中人1可能不理性,如果再来一次的话,说不定会给他留下三美元,如此盘算之后,局中人2就会理性地选择行动L2,希望继续博弈。
现假设局中人1非常理性,并且认为局中人2也是理性人而且知道局中人2会对自己采取行动L1有如上分析的信念,那么局中人1一开始没有拿走那一美元是为了下一步行动能得到三美元。
那么在随后的博弈阶段即局中人1采取行动L1之后我们能不能假设存在有理性的公共信念,从而得到BI解呢?不可以。
局中人1行动L1之后理性的公共信念是不可能的:如果局中人2相信局中人1是理性的,行动L1之后,他会拿走桌上的二美元;如果局中人1一开始相信局中人2是理性的并且相信局中人2在她采取行动L1之后仍然相信局中人1是理性的,那么她一开始就会拿走一美元结束博弈,现在局中人1在她采取行动L1后对局中人2的信念并没有发生变化,这样的话就有两种可能:(a)局中人1不理性选择了行动L1,或者(b)局中人1是理性的,采取行动T1,但是相信如果她选择策略L1的话,局中人2是理性的并且相信局中人1也是理性的,(a)和(b)相互排斥,局中人2在观察到行动L1后不会同时相信这两种可能。
2.2 有限次重复囚徒困境博弈在一次性囚徒困境博弈中如图2所示,局中人各自从个人利益出发的理性选择结果(博弈解)就是(D,D)即(坦白,坦白),个体理性选择的结果并非帕累托最优,不符合集体理性的要求,囚徒陷入了理性的困境。
D图2 有限次重复囚徒困境博弈若这一博弈重复进行k 次,情况会有什么不同呢?假设局中人都知道重复的次数,并且能够观察到以往所有的博弈历史,即局中人在以往各阶段所实际采取的行动,且各阶段的支付如上图所示,显然这一博弈是完美信息扩展型博弈,且存在唯一子博弈完美均衡(SPE ):局中人均采用坦白策略。
这很容易由BI 推理得出:在最后一个阶段,局中人理性选择的结果就是囚徒困境唯一的纳什均衡,双方均“坦白”;这样,逆向归纳至前一阶段,局中人仍然以“坦白”策略为唯一理性选择。
依次类推,可以知道SPE 中,局中人在每一阶段均会采用“坦白”策略作为自己的唯一选择。
但是,经由BI 得到的SPE 很不符合直观,现实生活中处于如此情境的局中人更愿意采取“针锋相对”(tit-for-tat )策略,这一策略可以简述为:“你上次如何对我,我下次就怎么对你”,也就是说局中人都试图为了下次的博弈建立合作的声誉。
现在我们来分析如果局中人都是理性的,并且都具有理性的公共知识(CKR ),最终得到的博弈解是“针锋相对”还是SPE 。
现假设在CKR 基础上局中人采取策略C (合作)而不是D (对抗也即坦白),我们已经知道局中人采取合作的目的是为了下一次合作建立良好的声誉同时鼓励对方也这么做。
但在博弈的最后阶段,双方都知道这是最后一次博弈并且是理性的,这里的理性独立于对对手采取策略的信念,于是在这一阶段大家都没有合作的动机,都将采取对抗(占优策略),而且,由于CKR ,他们也知道对方也会采取D ;而在博弈的倒数第二个阶段,局中人为下次博弈建立合作声誉是没有用的,于是局中人仍会采用对抗策略,如此反复直至博弈的第一个阶段,对抗策略一直是博弈的最优策略。
3. 知识和信念的语义表达3.1 单个主体的知识和信念的表达我们先从单个主体的信念出发,首先假设要考察的对象是一系列状态(state )或可能世界,这里的状态或世界一般解释为局中人面对的所有与决策有关的外在因素的客观描述,记3,3 1,4 4,1 2,2C C D为ω∈Ω,其中为状态空间。
Ω的一个子集称为一个事件,用以描述博弈中发生的种种事件。
如果ΩE ⊆ΩE ω∈,我们就说事件E 在状态ω处发生了。
定义一个可能函数:P ΩΩ→2是将每个状态ω∈Ω映射为Ω的一个非空子集,表示局中人在状态ω处认为()P ω中的状态都是可能的,它应满足如下性质:性质3.1.1(1)()P ω≠∅(2)如果()P ωω′∈,那么()()P P ωω′⊆ (3)如果()P ωω′∈,那么()()P P ωω′⊆.定义3.1.1(信念框架)一个信念框架就是一个二元组F=,P Ω,其中状态集Ω≠,P 满足性质3.1的三条性质,它们分别又对应于关系的持续性,传递性以及欧性。
∅ 如果某一事件E 在局中人认为可能的状态()P ω中的每一状态都发生了,我们称局中人相信该事件,于是从可能函数P 就可以得到一个信念算子,定义为:22B Ω→Ω},{:()E BE P E ωω∀⊆Ω=∈Ω⊆,满足如下三条性质:性质3.1.2(1)B Ω=Ω (必然性) (2)()B E F BE BF =∩∩ (合取性) (3)如果,那么. (单调性) E F ⊆BE BF ⊆另外,对应于可能函数的三条性质,信念还有如下三条性质: 性质3.1.3(1) (一致性) ,E BE B ∀⊆Ω⊆¬¬E E BE E (2) (正内省) ,E BE BB ∀⊆Ω⊆ (3) (负内省),E BE B ∀⊆Ω¬⊆¬(这里的符号“¬”表示集合的补,即\E ¬=Ω)另外我们都知道局中人相信的事件不一定真的发生,也就是说局中人相信的也可能是一个假象,但他相信自己所相信的是正确的。
于是,我们说可能函数不具有自反性,但它具有二阶自反性:,,ωω′∀∈Ω如果(),P ωω′∈那么().P ωω′′∈于是也有:,()E B BE E ∀⊆Ω¬=Ω∪ 知识具有许多与信念相同的性质,但它们之间有一个显著的区别就是信念不必为真,而 所知道的一定是真的。
为了表达它们之间的不同,我们首先引入信息函数。
设为一个状态集,上的一个划分可以表示局中人的信息或者说知识,我们说函数ΩΩ:I ΩΩ→2是信息函数,如果它满足如下两条性质:性质3.1.4(1)()I ωω∈(2)如果()I ωω′∈,那么()()I I ωω′=注意如果I 是满足以上性质的信息函数,它就是Ω的一个划分,相反,任何的一个划分 Ω也会生成一个信息函数I 。
由信息函数I ,我们同样能得到知识算子:22K ΩΩ→定义为: {:()}KE I E ωω=∈Ω⊆于是我们有不同于信念的知识的性质:,E KE E ∀⊆Ω⊆又称为知识公理。
如果可能函数和信息函数有如下关系:,ωω′∀∈Ω 性质3.1.5(R1)()()P I ωω⊆(R2)如果()I ωω′∈,那么()()P P ωω′=我们就说此时的信念是以信息为基础,且仅仅依赖于信息。
从而有KB -框架; 定义3.1.2 :一个KB -框架(知识和信念的框架)是一个三元组F =,.I P Ω使得状态集,并且I 满足自反性,传递性和欧性,P 满足持续性,传递性和欧性且都 Ω≠∅满足性质(R1)和(R2).相应于性质(R1)和(R2),知识和信念算子满足下面两个性质: 性质3.1.6 (1) ,E KE B ∀⊆Ω⊆E E (2),E BE KB ∀⊆Ω⊆在KB -框架下,局中人相信的仍有可能不是真的,而且仍然相信自己所相信的是正确的,但 是否相信自己知道自己所相信的却不一定。
例如,设{,}ωω′Ω=,{}E ω′=,()(){}P P ωωω′′==,()(){,}I I ωωωω′′==,显然有BE ω∈,但BKE ω∉。
现假设这一条件成立,即 (C1) 成立,于是知识就坍塌成信念, ,E BE BK ∀⊆Ω⊆E E 即 (C2) ,E BE K ∀⊆Ω=这两个条件其实是等价的,我们现在给出证明。
命题3.1.1 (C1)等价于(C2)证 (1)(C1)⇒(C2)这个方向我们只需要证明,先假设BE KE ⊆ω∀∈Ω,如果BE ω∈,由(C1)可知BKE ω∈,由B 的定义,就有()P KE ω⊆,此时,ω′∀∈Ω,如果()P ωω′∈,则KE ω′∈,由K 的定义,有()I E ω′⊆,由性质3.1.5(R1)知()()P I ωω⊆,于是()I ωω′∈,再由 性质3.1.4(2)()()I I ωω′=,得到()I E ω⊆,从而有KE ω∈。
(2)(C2)(C1)⇒假设,ω∀∈Ω如果BE ω∈,由B 的定义,有()P E ω⊆,同时,由条件(C2),我们有KE ω∈, 再由K 的定义,有()I E ω⊆,现对()P ωω′∀∈,由性质3.1.5(R1)()I ωω′∈,再根据性 质3.1.4(2)有()()I I ωω′=,从而()I E ω′⊆,于是KE ω′∈,则()P KE ω⊆,再由B 的定义,就有BKE ω∈。