Computer Engineering and Applications 计算机工程与应用2009,45(23)1引言复杂适应系统(Complex Adaptive System )是美国计算机科学家霍兰于1994年首次提出[1]其基本思想是:系统中的成员主体能够与环境以及其他主体进行持续不断的交互作用,在此过程中不断地“学习”和“积累经验”,并根据所学经验改变自身的结构和行为方式,由此在整体层次上突现出新的结构、现象和更复杂的行为[2]。
复杂适应系统的复杂性源于其主体的适应性,即“适应性造就复杂性”[3]。
经济系统就是一个典型的复杂适应系统,是一个有自组织能力和进化能力的综合体。
经济系统中存在各种政治因素、人为因素、随机因素和偶然事件的影响和干预,一切经济行为及其效应都是相互依赖和相互影响的一系列决策的结果,这种决策行为是双方的一种博弈行为[4],在研究经济行为及其效应问题就不能不考虑博弈主体决策行为的相互依赖和相互影响[5],不能不考虑他们的个体理性以及所获信息对博弈均衡的制约和影响[6]。
由于系统中的各个经济主体往往表现为有限理性,因此经济主体不可能正确地选择最佳策略,一次性达到均衡,而是通过成员间的某种反复博弈,选择有利的策略逐渐模仿下去,而最终达到一种进化稳定均衡状态。
这种以达尔文的自然选择思想为基础,能够包含有限理性博弈方的学习和策略调整过程,研究博弈方行为和策略动态稳定性,从而适用于分析和预测有限理性博弈的分析理论,就是进化博弈理论[7]。
基于多智能体(Agent )的整体建模仿真方法是在CAS 理论指导下研究复杂系统的一种有效方法[8],它结合自动机网络模型和计算机仿真技术来研究复杂系统。
在复杂经济系统博弈对象具有以下特征:由于经济系统的复杂性,系统中进行博弈的博弈对象数量巨大;博弈对象不固定,博弈对手经常变换;在具体的博弈过程中,每次博弈一般在两个经济体之间进行;博弈对象的理性层次不一致,经济行为的变化更多是一种缓慢进化的过程,博弈对象是有限理性的[9]。
该文以基于多智能体的整体建模仿真方法为指导,应用Multi-Agent 的软件仿真建模平台Swarm 进行仿真,在计算机仿真生成的经济博弈环境中对A -gent 的对称博弈进行仿真。
按照以上的思想为指导,以生物进化的复制动态机制来模拟仿真复杂系统经济体的学习与调整机制,在计算机上建立对称合作竞争博弈仿真模型(EGM ),该仿真模型主要研究在仿真基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.70761003);国家社会科学基金项目(the NationalSocial Science Foundation of China under Grant No.08BTQ028)。
作者简介:杨波(1973-),男,博士研究生,讲师,研究方向为:企业信息化、知识管理;徐升华(1952-),女,博士生导师,教授,研究方向为:企业信息化、知识管理。
收稿日期:2009-05-08修回日期:2009-06-09复杂系统多智能体建模的博弈进化仿真杨波,徐升华YANG Bo ,XU Sheng-hua江西财经大学信息管理学院,南昌330013School of Information Management ,Jiangxi University of Finance &Economics ,Nanchang 330013,China E-mail :yb_lh@YANG Bo ,XU Sheng -hua.Evolutionary simulation game based on module of complex multi -agent puterEngineering and Applications ,2009,45(23):6-8.Abstract :Adopted by the method of evolutionary simulation game based on ensemble module of Complex Multi-Agent Aystem ,the article builds a module of evolutionary simulation game —EGM.By making use of Swarm simulation software ,the module is decribed and defined.EGM is applied to different symmetric game models and the result is obtained.It reveals that the initial probability of selection strategies and gains matrix have different effects on the gaining of dynamic stability strategy in differentsymmetric game models ,and it can obtain different evolutionary stable strategies.Key words :complex system ;multi-agent ;evolutionary game ;Swarm ;ensemble modeling and simulation method 摘要:采用基于复杂系统多智能(Multi-Agent )体的整体建模仿真方法,利用Swarm 仿真软件平台建立进化博弈仿真模型(EGM),对该模型进行了描述和定义,运用EGM 对各类对称博弈模型进行仿真运行,并对结果进行分析。
仿真结果表明在不同类型的对称博弈中初始策略选择概率和收益矩阵对动态稳定策略的获得有不同的影响,在给定不同的收益矩阵和初始策略选择概率下可以获得不同的进化稳定策略。
关键词:复杂系统;多智能体;进化博弈;Swarm ;整体建模仿真DOI :10.3778/j.issn.1002-8331.2009.23.002文章编号:1002-8331(2009)23-0006-03文献标识码:A 中图分类号:TP1862009,45(23)a ,a c ,b b ,cd ,d C RCR 博弈方2博弈方1图1两人博弈收益矩阵的复杂经济环境中,有限理性的Agent 在博弈过程中采取的行为,研究不同类型对称博弈达到进化均衡的过程,初始策略选择概率和收益矩阵对不同对称博弈进化稳定策略的影响。
2EGM 模型结构在模型EGM 中,有限理性的博弈对象根据自身的属性及所处的外部环境,按照特定的行为规则进行决策,在反复博弈过程学习、模仿,不断调整博弈策略,提高博弈所得,最后达到进化稳定状态。
模型中的每个博弈对象都是一个智能Agent ,模型是由博弈环境和大量Agent 构成,即EGM=<environment ,A -gents>。
2.1环境定义经济生活中的博弈行为是与博弈对象所在的外部环境密切相关,外部环境主要是影响Agent 之间的交互的拓扑结构,在博弈过程中,每个Agent 所处的环境又由外部环境和所有其他Agent 组成的内部环境所组成[10],在EMG 模型中,所有A -gent 所处的外部环境被模拟成现实生活中的空间环境,环境由一个100×100的网格组成,这里选择最简单的环境设置,网格是Agent 活动空间,Agent 可以在网格中前后左右4个方向自由移动。
每个Agent 在每次仿真周期t 内可以在4个方向中随机选择一个遇到的Agent 进行博弈。
在本模型中Agent 由属性、规则、行为和学习算法构成。
在博弈过程中,按照Agent 的移动规则,随机在网格中与相遇的Agent 进行博弈。
Agent 从t 时刻随机选择策略开始进行博弈,根据Agent 本次博弈的收益,学习确定t +1时刻博弈要采用的策略。
2.2Agent 的属性、规则、行为定义及学习算法描述2.2.1Agent 属性定义在EMG 模型中Agent 的主要属性包括:ID 号、CStrategy (本次所选策略)、N Strategy (下次所选策略)、Proceed (本次收益)。
CStrategy 记录当前Agent 的策略选择,根据所选策略计算本次收益并记录到Proceed ,经过学习算法计算确定下次的博弈策略。
2.2.2Agent 规则定义在EMG 模型中Agent 的主要规则是移动规则,为使进化过程具有更好的随机性,Agent 在环境中的空间位置是可以随机改变,Agent 的博弈的拓扑关系图和相互关系是不固定的,A -gent 的博弈对手和博弈关系不断变化。
仿真开始时Agent 随机分布在100×100个网格空间中,在每次仿真时钟t 内随机向4个方向移动,如果遇到其他Agent 就进行一次博弈。
具体的规则如下:每个Agent 在t 时刻都随机地选择移动一个方向,如果这个方向上的位置为空,在t 时刻就移动到该位置,如果该位置已经存在其他Agent ,则不移动,同时与该Agent 进行本次博弈,在t +1时刻重新移动位置,寻找本次的博弈对象。
2.2.3Agent 行为定义Agent 的博弈行为,指的是博弈对象在进行博弈时所采取的行为策略,并根据博弈双方所采取的策略和得益矩阵计算本次博弈的所得。
假设整个模型中博弈对象的策略集合S i ,S i ={s 1,s 2,s 3,…,s n },s i 表示其中某个可选策略,策略集可以是有限的,也可以是无限的,在本模型中Agent 的策略集合为两个,S ={s 1,s 2},即Agent 可以分别选择s 1(合作)、s 2(不合作)纯策略,也可以以某个概率选择混合策略。
在模型中以2×2对称博弈为例给出得益矩阵如图1所示,其中a 、b 、c 、d 为常数。
该博弈的特征是两个博弈方在策略和利益方面都是对称的,一个博弈方究竟是在博弈方1的位置博弈还是在博弈方2的位置博弈并没有区别。
这种博弈在进化博弈中适合用相似个体组成的群体成员之间随机配对反复博弈的分析[11]。
在环境空间的Agent 可用坐标表示,如(xy ),表示Agent 在横坐标x ,纵坐标y 处;用C 表示选择“合作”策略的Agent 集合,R 表示选择“不合作”策略的Agent 集合;若在t 时刻(gh )与(xy )相遇,则发生一次博弈,设E gh ,xy (t )为(gh )与(xy )在t 时刻博弈时(gh )的收益值,若(gh )∈C ,则:E gh ,xy(t )=a ,(xy )∈Cb ,(xy )∈∈R (1)若(gh )∈R ,则:E gh ,xy(t )=c ,(xy )∈Cd ,(xy )∈∈R (2)2.2.4Agent 学习算法描述每个Agent 都有一定的认知能力和学习能力,每个Agent 不是完全理性的,也不是严格按照效用最大化进行决策,在多数情况下是通过了解以前博弈的历史,通过学习模仿,动态调整策略,并且智能体在相互作用中不断学习、积累经验。