在本文中, 基于自组织映射(SOM)神经网络的任务分配方法被提出用于存在不确定因素的动态环境的多机器人系统。
它能够动态地控制一群移动机器人来实现在不同位置的多个任务以致于预期数量的机器人将从任意的初始位置到达每一个目标位置。
在此方法中,机器人运动与规划任务分配相结合,因此一旦给定全局任务机器人便开始运动。
机器人导航可以保证当存在一些不确定因素,比如一些机器人出故障的情况下动态调整使每个目标位置仍将有预期数量的机器人到达。
该方法能够应对不断变化的环境,其有效性通过仿真实验得到验证。
自1970年代以来多机器人系统在各种各样的任务中已经得到多方面研究。
在将总体任务分为几个子任务、将团队分为单个机器人并同时执行子任务时,移动机器人团队可以很快且高效的完成被分配的任务。
多机器人系统相比单个机器人有更加明显的优势,比如更快的操作,更高的效率和更好的可靠性。
关键的挑战是协调与合作这些机器人完成总体任务时实现令人满意的表现。
多机器人系统的任务分配是控制一群移动机器人使他们到达指定的目标位置, 使每个机器人之间进行协调与合作。
已经有一些有效控制一组机器人移动到目标位置的相关研究。
大多数算法在静态的环境中提出了对任务分配问题,例如,[1]图像匹配算法, [2]单纯的网络算法,[3]分布式拍卖算法, [4]遗传算法,[5]机器人的基本算法,和[6]动态禁忌搜索算法。
这些算法主要关注任务分配问题而不考虑机器人运动问题。
其结果是机器人不能移动直到他们的目的地被指定。
此外,这些方法不能处理移动目标。
分析师et al。
[7]提出了使用出于流体自发的模式形成的模式形成原则,流体加热和冷却从上面可以生成卷或六角模式的算法。
获取自我行为的模式构成原理的关键思想是构建一个合适的动态系统,在此系统中动态变化可以被识别的机器人系统。
该算法执行二维或三维空间中自治移动机器人到目标任务的分配。
然而,它不能用在复杂的情况下,例如多数机器人被分配到同一个目标位置。
此外,这种方法不能够处理移动目标的情况。
受到生物系统自组织导致许多复杂的模式出现在同质细胞现象的启发,沈,开发了称为“数字荷尔蒙模型”的模型,通过假设一个机器人作为一个细胞自组织形成一个全局多机器人系统。
它适用于一些掌握和监控给定区域或建筑物的任务;自主修复全局模式的漏洞; 通过绕道避免陷阱。
为了搜索和锁定目标任务该算法不能处理包含多个目标和动态目标的情况。
如果有两个目标和四个机器人,所有的机器人离一个目标近而远离另一个,结果将导致一个目标吸引所有的四个机器人而另一目标没有机器人到达。
该算法没有考虑机器人之间谈判与合作。
无人驾驶飞行器(无人机) 任务分配的研究有相似的问题,它分配一群无人机通过几个目标位置同时避免威胁。
无人机通常只处理静态环境。
胡,提出了一个解决合作控制方案,通过将全局问题分解成子问题,包括目标任务、路径规划、协调无人机截获、轨迹的生成与遵循。
首先,泰森多边形图法的方法形成一个全局地图,描述了飞机位置、目标位置、威胁点位置和可能减少这种威胁的路径。
基于泰森多边形图法,以每台飞机到每个目标距离中等、中等躲避威胁成本来计算最好的路径。
然后每台飞机被分配到一个目标,最小化了到目标的团队路径长度,最小限度地减少团队威胁曝光,到达目标飞机数量的最大化,最多数量的目标被访问。
在这之后,当目标拦截的时间协调性被考虑时,每辆车到其各自目标的路径将被规划好。
最后,这个路径用来控制每辆车的速度。
当其他一些动态威胁出现后,再重新规划车辆的路径,以避免动态威胁。
这是一个端到端解决方案,着重于几个不同的方面,比如通过泰森多边形图法构建地图、使用博弈论进行目标管理,拦截管理和轨迹生成。
这个解决方案不关注移动目标和动态威胁以及车辆动态性,比如添加新的车辆或一些车辆突然出故障。
由于森多边形图法的限制,此方案不适合动态环境。
其他的研究都集中在优先级控制的小群机器人,通常先将一项任务分成多个子任务,通过机器人之间的竞争以及少量的合作。
宫田康弘,提出了一种处理由一群机器人在一个未知的静态环境下将一个物体从一个地点运输到另一个地点运输问题的方法。
这种方法着重于如何优先的将运输任务分配成许多子任务和如何将子任务分配到不同的机器人。
子任务可能包括搜索工作区,识别需要被移动的对象,移走活动障碍,处理一个对象。
这个任务分配的定义侧重于不同的子任务和这些子任务优先级。
这个方法仅适合小群机器人在静态环境中。
Uchibe,提出了将任务分配给一群机器人的方法,这种方法提前为任务设计模型,然后动态的将模型分配给不同的机器人。
这种方法集中解决模型选择的冲突。
它适合于一个小群机器人有可以分为几个子任务的任务,如,由几个机器人运输物体等。
勃兰特,提出了另一个多机器人系统任务分配问题,并提出了一个解决该问题的算法。
它侧重于通过承包商进行不同任务的创建,以及不同的感兴趣并执行任务的招包者。
招包者与承包单位想要得到最大的好处应协商。
招包者之间更多的是竞争以及很少的合作。
有一些可用的方法来处理动态环境或机器人修改后出现故障。
然而,为了动态环境而更改算法,可能出现稳定问题或额外的计算成本。
虽然有提出了许多神经网络(NN)方法用于机器人系统,但他们中的大多数处理单一机器人或完全已知的环境。
本文中,一种新型的基于自组织映射(SOM)神经网络方法被开发用来解决多机器人系统任务分配问题,侧重于在静态或动态环境有大量的机器人和大量目标的自组织问题。
由于自组织性能,提出的新方法对不确定的动态环境是稳定的、健壮的、合适的。
在提出的方法中,机器人运动规划与任务分配相结合,因此一旦给定全局任务机器人便开始运动。
这群移动机器人可以自动安排整个任务,无论何时环境改变时,比如一些机器人抛锚,一些机器人和一些任务被添加或某些任务修改,动态的调整其运动。
本文组织如下,第二节中定义多机器人系统的任务分配问题。
第三节介绍了基于SOM 神经网络算法多机器人系统任务分配。
第四节中提供仿真任务结果。
简要讨论和一些结论给出建议的方法在分别部分V和VI给出。
在多机器人系统中,主要的挑战是在执行一个任务时多机器人的协调与合作。
在本文中,假设有一群自主移动机器人在有界区域随机的分布,而且一些目标点也随机的分配在这个工作区内。
每一目标需要一个特定数量的机器人在那个位置来完成一项任务。
目标是以最小或接近最小总成本动态分配一组机器人到每一目标附近。
对每个机器人,成本评估是其从初始位置到最终位置的距离。
总成本被定义为每一个机器人成本的总和。
当每个目标所需数量的时,这个任务便完成。
一个示例工作区域和最初的机器人和目标位置被显示在图1,点代表初始移动机器人的位置和方块代表目标位置。
此外,它假定了机器人是具有基本导航避障和位置识别功能的相同移动机人。
本文仅介绍了如何动态分配机器人目标和如何控制移动机器人的运动。
本文的多机器人系统任务分配不仅强调预期数量的机器人到每一个目标位置的分配,而且也减少总机器人旅行距离从他们的初始位置到目标位置,在那里这个目标可以是静态或活动。
受到中枢神经系统普遍存在的皮质地图的启发,Kohonen首先在1980年提出SOM算法,随后得到扩展。
它的理论基础是:在哺乳动物的大脑中存在一段有序的处理单元,每个部分用于特定的任务,每组神经元感应特定类型的输入信号。
术语“秩序”通常指空间排列。
这些单元由那些在某些产生有意义的组织过程中可变的参数来决定。
因为它的普遍适用性和易处理性,该算法很快就成为一个有价值的工具并且应用于许多现实世界的问题。
SOM神经网络方法基于结合竞争学习原理和拓扑神经元的结构,这样相邻神经元有类似权重向量的倾向。
他们有联系相类似的输入输出接近对方能力系,他们的输入更相似,输出地图上的节点越接近。
本文方法提出的动机来自于多机器人系统和SOM算法之间相似的特征和现象。
首先,一个多机器人系统可以被认为是一个当其自身或环境改变时可以改变其基本结构的自组织系统。
第二,SOM 算法的竞争性、合作性和自组织的特点吸引了多机器人系统。
因此,SOM 算法可以适应在动态环境中,控制移动机器人自动实现合作与竞争任务的一个多机器人系统。
该模型着重于在合理的计算时间内多机器人之间的协调,强调降低总成本和每台机器人工作量的平衡。
假设在一个工作区随机分布有K 台机器人和K 个目标。
给定的适用于多机器人系统SOM 神经网络模型在图2中给出。
这个模型有两个层次的神经元。
第一层是包括两个神经元(Xi,Yi)的输入层,这代表二维工作区第i 个目标点的笛卡尔坐标Ti 。
所有目标的坐标构成输入数据集。
第二层是包括KM 神经元(R11,…..RMM)的输出层,这代表K 个人机器人的坐标和计划路径。
在这里,对每台机器人M 个神经元形成一组。
每一个输出层的神经元是与输入层的神经元完全连接。
输出神经元与输入神经元的连接强度是由一个二维的权向量Rkm={Wkmx ,Wkmy},k=1,2,….K ;m=1,2,…M ,给出的,每台机器人的M 个神经元权重向量随着机器人的初始坐标位置而初始化的。
引入K 组输出神经元的原因是在每台机器人工作量平衡的条件下记录K 台机器人的动态轨迹。
当完成任务分配的过程,M 个目标吸引来自KM 个输出神经元的M 个神经元为K 台机器人形成k 条路径。
每台机器人有自己的路径从初始位置通过几个目标。
所有的M 个目标将被访问。
K 组中M 个神经元序列是机器人路径规划的客观条件。
在自组织网络中,神经元有获得包含输入向量空间特性的权重向量的倾向。
在一开始,网络由权重向量{Wkmx ,Wkmy},k=1,2,….K ;m=1,2,…M 初始化,这是机器人的初始位置。
目标坐标随着输入数据集在经过一次迭代后以随机顺序在网络中给出。
在每次迭代中, 所有的目标以一个随机的顺序给出,然后每个目标一个接一个的输入到网络,直到输入最后的目标。
这种数据集以随机顺序的输入策略影响该算法的鲁棒性,减少其对初始工作空间结构和输入数据集序列的依赖。
对于一个作为输入的给定目标,输出神经元根据指定的标准[Nk,Nm ]←min{Dikm ,i=1,2...M;k=1,2...K;m=1,2...M;and{k,m}∈⊙}竞争成为赢家,其中[Nk,Nm]表明从第k 组输出神经元而来的第m 个神经元是赢着,⊙是在一次迭代中还没有成为赢家的一系列神经元,加权距离Dikm=|Ti-Rkm|(1+P ),|Ti-Rkm|= 表示欧几里得距离,Rkm={Wkmx ,Wkmy},k=1,2,….K ;m=1,2,…M ,从第k 组输出神经元而来的第m 个神经元的坐标,参数P 控制的每个机器人工作负载的公平分配,它被定义为p=(Lk-V )/(1+V),Lk 是第k 台机器人的路径长度,k=1,2,….K ;V 是机器人路径n 21()j i ij i d xw ==-∑的平均长度。