第一讲(博弈论的产生)
“战略”的适用范围
• 很多事物都会考虑到战略,因此“博弈论”适用范 围非常广。
– 经济学、政治学、哲学、法学、商业以及社会问题和 国际关系的分析。甚至也被应用于生物学。 – 博弈论虽源于数学,但本课程避开运用微积分等数学 方法,利用非技术性手段向学生们介绍博弈论,并使 之掌握博弈论的相关知识用以分析理解人类行为。
蓝鸟
进入 不进入
B 认罪 抵赖 A 认罪 –8, –8 0, –10 抵赖 –10, 0 –1, –1
• 节点2表示小偷B掌握的(不完全)信息,该节点被称之为 信息集(information set)。 Ø 当一方在不知情地情况下进行决策,或者对方同时决策,就将该 参与者多有可能的选择都列在从一个节点出发的分支中,表示信息的 不完全。 • 当信息比较充分时,通常采用扩展时。而对于缺乏信息的 博弈,标准式可能更为合适和方便。
约翰
追求金发女郎 追求其他女士
哈雷德 追求金发女郎
追求其他女士
0,0 1,2
2,1 1,1
• 那么,两只猪各会采取什么策略? • 答案是:小猪将选择“搭便车”策略,也就是舒舒 服服地等在食槽边;而大猪则为一点残羹不知疲 倦地奔忙于踏板和食槽之间。
2 PDF 文件使用 "pdfFactory Pro" 试用版本创建
什么是博弈论?
• 博弈论是研究人们如何进行决策,以及这 种决策如何达到均衡的科学。 • 博弈论以新古典经济学完全理性的假设为 基础。其原因是:
– 完全理性的行为比非理性的行为更加容易预测。 – 为经济系统中的效率评价提供了标准。
• 理性人的目的是使收益最大化。参与者以争夺得的 收益多少来决定胜负。
• 简而言之,博弈论是研究战略的理论。
4 PDF 文件使用 "pdfFactory Pro" 试用版本创建
收益矩阵的推导
• 收益矩阵能够简单明确的表现出博弈中各方的可 选战略和其相应的收益情况的具体信息。
– E.g.成绩博弈 (Grade game) – 在座的每位同学将会被随机的与另一位同学组成一组。 你们不知道会与谁分到一组。当我叫到名字的时候请 在α和β中任选一个报给我。 – 分数设定规则如下:如果你选α,而你的组员选β, 你的分数为A,组员分数为C;如果都选α,则分数都 为B-;如果你选β,而你的组员选α,你的分数为C, 而你的组员为A;如果都选β,则分数都为B+。
你 α β
组员 α Β 你 0,组员0 你3,组员-1 你-1,组员3 你2,组员2
金发女郎的双人博弈及其收益矩阵:
• 有两个或两个以上的男士。 • 有多个魅力十足的女士,且女士至少比男士多一人。 • 只有一个金发女郎。 • 相对于其他女士,男士们更喜欢金发女郎,不过有女伴总 比没 人陪伴要好。
“智猪博弈”(Pigs’ payoffs)
• 那么,“博弈论”中有哪些非技术性的方法可以用 来分析战略呢?
– 可以用来描述两个或多个参与人的决策和效用的工具 有:
• 标准式,表现为收益矩阵(payoff table) 。 • 扩展式,表现为决策树。
1 PDF 文件使用 "pdfFactory Pro" 试用版本创建
“智猪博弈”
• 小猪踩踏板将一无所获,不踩踏板反而能吃上食 物。对小猪而言,无论大猪是否踩动踏板,不踩 踏板总是好的选择。 • 大猪明知小猪是不会去踩动踏板的,自己亲自去 踩踏板总比不踩强吧,所以只好亲力亲为了。 • “小猪躺着大猪跑”的现象是由于故事中的游戏规 则所导致的。规则的核心指标是:每次落下的事 物数量和踏板与投食口之间的距离。 • 如果改变一下核心指标,猪圈里还会出现同样的 “小猪躺着大猪跑”的景象吗?试试看。
课程基本信息
• • • • 课程名称:《博弈论》 上课时间:周一(18:15 – 19:45) 教室:教学楼B607 任课教师:汪琪(经济贸易管理学院)
– 联系方式:peggywq@ – Office hour:16:00-17:00 Mon.
第一讲 博弈论现实生活中,人们在做决策时往往是有限理性 的,因为人不可能搜集到所需的全部信息。
– 搜集信息需要成本,即大量的时间、精力和财力。人 的精力和时间永远是有限的。 – 即使能够搜集到所有信息而做出收益最优的决策行 为,这本身反而是最不理性的行为。
• Cost efficiency
• 如果根据理性行为的假设,人们在为自己谋求利 益最大的时候就应该要精打细算。那么太精明是 否就等于高明呢?
改变方案二
小猪 踩踏板 不踩 大猪 踩踏板 4, 4 4, 5 不踩 5,4 0, 0
改变方案三
小猪 踩踏板 不踩 大猪 踩踏板 -1, 9 9, 0 不踩 0, 9 0, 0
尼姆游戏的决策树
一个商业案例 – 金雀与蓝鸟
• 金雀是城里唯一的一家电信公司,蓝鸟试图进入 这个市的电信市场。如果蓝年进入,金雀有两个 选择:一是降价展开价格战;二是让蓝鸟进入并 与之共享市场,并消减产量,保持价格不变。 • 蓝年的进入是一个不确定时间(contingency)。
收益矩阵的推导
• 上述信息可以汇总成以下的收益矩阵: 组员 α β 你A,组员C 你 α 你B-,组员Bβ 你C,组员A 你B+,组员B+
如果考虑参与者都是理性人(分数等级越高越能带来更 多的效用和满足),你的选择会是怎样的?
博弈的构成要素
• 一个博弈必须包含的四个要素:
– 2个或2个以上的参与者(player)。
博弈的“收益”要素
• 如果参与者的目的是使得对方成绩最高(当组 员成绩提高,你会感到更加愉快)那么上述收 益矩阵应该如何变化,你的选择会是怎样的? 组员 α Β 你 α 你 0,组员0 你-1,组员3 β 你3,组员-1 你2,组员2
需要注意的是,就算同学们都是以提高对方成绩为目的的 热心人,但是使自己收益最大的理性人假设仍旧是博弈中 人们行为的准则。
“智猪博弈”原版
小猪 踩踏板 不踩 大猪 踩踏板 -1,9 5, 4 -1, 10 0,0 不踩
改变方案一
小猪 踩踏板 不踩 10,-1 大猪 踩踏板 -1, 9 -1, 10 0, 0 不踩
“智猪博弈”
• 方案一的结果是小猪大猪都不去踩踏板了。小猪 去踩,大猪将会把食物吃完;大猪去踩,小猪将 也会把食物吃完。谁去踩踏板,就意味着为对方 贡献食物,所以谁也不会有踩踏板的动力了。 • 方案二的结果是小猪、大猪都会去踩踏板。谁想 吃,谁就会去踩踏板。反正对方不会一次把食物 吃完。小猪和大猪相当于生活在物质相对丰富的 “共产主义”社会,所以竞争意识却不会很强。 • 方案三的结果是小猪和大猪都在拼命地抢着踩踏 板。等待者不得食,而多劳者多得。每次的收获 刚好消费完。
“智猪博弈”
• 改变方案一:减量方案。投食仅原来的一半分量。 • 改变方案二:增量方案。投食为原来的一倍分量。 • 改变方案三:减量加移位方案。投食仅原来的一 半分量,但同时将投食口移到踏板附近。 • 哪种改变方案好呢? • 该博弈案例对我们有什么启发呢? • 尝试画出不同方案的收益矩阵。
– 假设吃光所有的食物的收益为10,而争吃到一半的收 益为5;去踩踏板要花力气因而减少1收益。
• 游戏规则:
– 猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边 有个踏板,每踩一下踏板,在远离踏板的猪圈的另一 边的投食口就会落下少量的食物。如果有一只猪去踩 踏板,另一只猪就有机会抢先吃到另一边落下的食物。 当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好 吃光所有的食物;若是大猪踩动了踏板,则还有机会 在小猪吃完落下的食物之前跑到食槽,争吃到另一半 残羹。
• 博弈是参与者在一定的环境条件下与既定的规则下,同时或先 后,一次或者是多次选择策略并实施,从而得到某种结果的过 程。
博弈的“收益”要素
• 在博弈中,每个参与者都有自己的收益或是目的。有时目 的相同(e.g.获得更多的资源),有时却可能不同。 • 改变一下成绩博弈:
– 用数字代替成绩等级(A:3, B+:2,B:1,B-:0,C:-1) – 你以自己的利益最大为目的,你的选择是否会变化?
• 决策树的每一树枝节点代表了一种战略选择。
3 PDF 文件使用 "pdfFactory Pro" 试用版本创建
• 相机战略(contingent strategy)是在不确定事件发 生时才会采取的战略。 • 也就是“如果-----就----”式的规则。 • 标准式中的战略一般都是相机战略。 金雀与蓝鸟的收益矩阵:
– 案例:旅行者困境
旅行者困境
• 两个旅行者从一个出产细瓷花瓶的地方回来,都 买了花瓶。可是在机场提行李的时候发现两人的 花瓶都碎了。于是,他们向航空公司索赔。航空 公司估计花瓶的价值在10000元以内,但不知道 具体价格,于是让两个旅行者分别填写价格,如 果价格一样,如数赔偿。如果写的不一样,就认 为写得低的人说了真话,按地价格赔偿,并奖励 说真话的人200元,而对说假话的人则罚款200元。 • 这两个旅行者会写多少钱呢?
• 具有主观能动性的参与者,其选择和决策与其他参与者相遇作 用,相互影响。
– 博弈要有参与与各方争夺的资源或收益(the payoff)。
• 人们参与博弈是受到利益的影响和吸引。
– 参与者有自己能够选择的决策(strategy)。
• 战略是直接地针对某一个具体问题所采取的应对方式。
– 参与者拥有一定量地信息(information)。
金雀 如果蓝鸟进入, 就接受 3,5 0,10 如果蓝鸟进入, 就展开价格战 -5,2 0,10
囚徒困境博弈(prisoners’ dilemma)
• 假设有两个小偷A和B联合犯事、私入民宅被警察 抓住。警方将两人分别置于不同的两个房间内进 行审讯,对每一个犯罪嫌疑人,警方给出的政策 是:如果一个犯罪嫌疑人坦白了罪行,交出了赃 物,于是证据确凿,两人都被判有罪。如果另一 个犯罪嫌疑人也作了坦白,则两人各被判刑8年; 如果另一个犯罪嫌人没有坦白而是抵赖,则以妨 碍公务罪(因已有证据表明其有罪)再加刑2年, 而坦白者有功被减刑8年,立即释放。如果两人都 抵赖,则警方因证据不足不能判两人的偷窃罪, 但可以私入民宅的罪名将两人各判入狱1年。 • 克格勃们的小花招。