含未知信息的轮式移动机器人编队确定学习控制彭滔;刘成军【摘要】This paper investigates the formation control of wheeled mobile robots(WMR)with unknown information under nonholonomic constraints.Firstly,based on the leader-follower method and the virtual structure method,the forma-tion control is transformed into the problem that the followers track their virtual leader. Secondly,a radial basis function neural network(RBF NN)is used to learning the unknowninformation(closed-loop system dynamics)of WMR,and a stable adaptive RBF NN controller and the stable adaptive tuning law of RBF NN parameters are derived in the sense of the Lyapunov stabilitytheory.According to deterministic learning,a partial persistentexcitation(PE)condition of some inter-nal signals in the closed-loop system is satisfied in the control process of tracking a recurrent reference trajectory,and an accurate approximation of the unknown closed-loop system dynamics is achieved by the RBF NN parameters convergence to their optimal weights. Finally,a RBF NN learning controller which effectively utilizes the learned knowledge without re-adapting the RBF NN parameters is proposed to achieve the closed-loop stability and improve the control performance, and simulation studies are included to demonstrate the correctness and effectiveness of the proposed approach.%本文研究含未知信息的轮式移动机器人(wheeled mobile robots,WMR)的编队控制问题.首先,基于领航-跟随法和虚拟结构法,将WMR编队控制问题转化为跟随机器人对参考虚拟机器人的跟踪控制问题.然后,利用径向基函数神经网络(radial basis function neural networks,RBF NN)对WMR的未知系统动态进行学习,以及根据李雅普诺夫稳定性理论设计了稳定的自适应RBF NN控制器和RBF NN权值估计的学习率.依据确定学习理论,闭环系统内部信号在对回归轨迹实现跟踪控制的过程中满足部分持续激励(persistent excitation,PE)条件.随着PE条件的满足,RBF NN权值估计收敛到其理想权值,实现了对未知闭环系统动态的准确学习.最后,利用学习结果设计了RBF NN学习控制器,保证了控制系统的稳定与收敛,实现了闭环稳定性和改进了控制性能,并通过仿真验证了所提控制方法的正确性和有效性.【期刊名称】《控制理论与应用》【年(卷),期】2018(035)002【总页数】9页(P239-247)【关键词】未知信息;移动机器人编队;非完整约束;系统动态;学习控制【作者】彭滔;刘成军【作者单位】重庆理工大学电气与电子工程学院,重庆400054;重庆理工大学电气与电子工程学院,重庆400054【正文语种】中文【中图分类】TP2421 引言(Introduction)近30年来,移动机器人编队因具有广泛的应用前景,使其成为机器人领域中的研究热点[1–2].经过多年的研究,现在已经形成了领航–跟随法(leader-follower)[3–4]、基于行为法(behavior based)[5–7]和虚拟结构法(virtual structure)[8–9]3种最常用的方法,其中领航–跟随法具有数学分析简单,机器人编队运动安全高效和易于形成和保持队形等优点,已广泛应用于移动机器人编队控制研究的各领域.现有的研究结果主要是基于机器人的线速度和角速度为控制输入的运动学模型,设计运动学控制器完成编队控制.这使得跟踪速度控制器决定了系统控制的稳定性,为达到编队控制目标需要“完美的”速度跟踪控制[10].这些研究结果大多没有考虑移动机器人的动力学特性,缺乏对高度非线性,不确定性和系统干扰等的鲁棒性;而在实际情况中存在诸多的非线性、扰动和不确定性等因素,例如作用于移动机器人的噪声、扰动、摩擦、负载变化以及未建模动态等.为保证移动机器人跟踪期望速度达到编队控制误差收敛到零,需要考虑机器人的动力学特性.在文献[11]和[12]中,Dierks等通过联合多层神经网络将单移动机器人的轨迹跟踪控制扩展到编队领航跟随控制,该方法用神经网络学习机器人编队的完整动力学和神经网络观测器估计机器人的线速度和角速度,设计了神经网络输出反馈控制器实现了稳定.在文献[13]中,Hou等利用反步技术(backsteping)和模糊逻辑方法为含有不确定动力学和外部扰动的移动机器人提出了自适应控制方法,该方法通过模糊系统在线学习机器人平台的动力学和运动学,使得这些信息不再为必须的先验知识;在文献[14]中利用神经网络对含有不确定动力学和外部扰动的多智能体一致性问题提出了鲁棒自适应控制方法,并将该方法推广到多智能体的编队控制中.在文献[15]中,Defoort等对含有界不确定扰动时变机器人编队问题设计了二阶滑模鲁棒控制器,该方法只需要测量机器人之间的相对构形而不必要测量或估计领航机器人的速度.在文献[16]中,申动斌等对打滑状态下的多机器人编队控制采用领导者–跟随者策略协调各机器人的运动,利用二阶滑模控制方法设计了控制器,使得机器人编队在运动过程中能够形成期望的队形.在文献[17]和[18]中,李艳东等利用神经网络对动力学不确定部分进行了在线估计,设计了自适应控制器和滑模控制器.这些研究结果包含了移动机器人的动力学模型,所提方法中的神经网络单纯地是一个逼近器,每次(即便重复相同的控制任务)都要对神经网络重新训练,对于系统未知动力学的学习问题都未研究.上述文献中所提出的自适应神经网络控制方法都是基于神经网络的通用逼近性展开的,对神经网络是否真的逼近了机器人系统中的未知信息没有进行深入的探讨.本文研究含未知信息轮式移动机器人(WMR)的编队控制问题,基于确定学习方法综合运用移动机器人的运动学和动力学模型,利用径向基函数神经网络(RBF NN)学习WMR的未知闭环系统动态,依据李雅普诺夫稳定性理论设计了稳定的自适应RBF NN控制器和RBF NN权值估计的学习率.闭环系统内部信号在对回归轨迹实现跟踪控制的过程中,满足部分持续激励(PE)条件,使得RBF NN权值估计收敛到其理想权值,实现了对未知闭环系统动态的准确学习.最后,利用学习结果设计了RBF NN学习控制器,保证了控制系统的稳定与收敛,实现了闭环稳定性和改善了控制性能,并用仿真研究验证了所提控制方法的正确性和有效性.2 系统模型(System model)2.1 移动机器人模型(WMR model)如图1中所示的WMR,其运动学和动力学模型为[19]其中:q=[x y θ]T为位姿向量,(x,y)表示后轴中点在全局坐标系中的坐标,θ为方向角;驱动轮间距为2R,半径为r,d为后轴到前端的距离;V=[υ ω]T为广义速度向量,υ和ω分别为线速度和角速度;为惯性矩阵,为向心力和哥氏力矢量,为重力矢量,为表面摩擦力矢量,τd为未知扰动,为控制转换矩阵,τ为控制输入向量.一般地,已知,和难以准确获知.当WMR在水平二维平面内运动时,有矩阵其中:m是WMR的质量,I为WMR的绕轮轴参考点的转动惯量.WMR的动力学方程(1)可改写为其中式(2)中的未知部分可以用一个非线性函数表示为则式(2)可写为图1 领航–跟随机器人编队结构示意图Fig.1 Leader–follower formation sketch 2.2 编队模型(Formation model)如图1所示,对WMR编队用领航–跟随法和虚拟结构法,设队形规划中期望距离为ld,期望角度为φd,用Rl,Rf和Rr分别表示领航WMR和跟随WMR和参考虚拟目标WMR(注下标l代表领航,f代表跟随和r代表参考),则Rf跟踪Rl可转化为跟踪Rr,Rr的姿态可描述为qr=[xryrθr]T,可定义运动学误差系统为由于WMR受非完整约束,每个WMR的方向角在队形变换时不相等,选择θr满足[20]其中βr=θl−θr∈ (−π,π].对式(4)两边微分可得其中:ϕ=φd− β,β =θl− θf.令WMR编队满足下列假设条件:假设1 WMR编队成员间有无延迟的无线通信.假设2Rl的参考线速度和角速度是有界的,并能将测得的Vl通过通讯传递给Rf. 假设 3Rf能测得l,φ和Vf,且Vf有界.3 控制目标(Control objective)本文的研究内容不包括WMR的路径规划,队形规划和避障等问题.根据领航–跟随法可知,Rf的位姿qf=[xfyfθf]T可由Rl的位姿qf=[xlylθl]T及(ld,φd)唯一决定.因此,只要控制(l,φ)使和则可达到期望队形.根据虚拟结构法,控制任务转化为设计一个光滑的速度控制器V使时,WMR编队从当前队形趋近目标队形,即为误差系统(5)渐近稳定时,设计动力学控制器对含未知信息的动力学系统(1)(或(3))稳定.4 自适应神经网络控制(Adaptive neural network control)为了镇定运动学误差系统(5),使Rf到达Rr的位姿,文献[20]中提出了如下速度控制Vfc,可以使得式(5)渐近稳定:其中:定义速度误差Ef为则式(5)可转换为其中对式(7)两边微分,并将式(3)代入可得定义则式(9)可写成由RBF NN的万能逼近性质,对未知闭环系统动态Hf存在一个理想权值向量W∗使得其中:S(Z)=diag{S1(Z),···,Sn(Z)},S(·)为高斯函数,为逼近误差,且‖ϵ(Z)‖≤ ϵ∗(ϵ∗>0);∀Z∈Ω⊂ R5(Ω为紧集).对动力学误差系统(10),设计控制输入和权值估计学习率为其中:控制增益矩阵Kf=diag{kfi},kfix>0;为RBF NN权值估计,是用来逼近的;Γ为常数对角矩阵,σ为较小的正常数.对于式(8)(10)和(11)构成的闭环系统,选取如下李雅普诺夫函数:其中对V1求导得因为对∀θe∈ (−π,π)成立,则有当时,式(14)严格小于零.利用三角不等式可得又因为其中0<k4<2,则其中选择适当的Kf以使得Kf1> 0.让由控制对象(3)(5)和(10),控制器(6)和(11)构成的闭环误差系统为其中定理1 考虑闭环误差系统(16),对给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈Ω0和可得:1)闭环系统(16)中的所有信号保持最终一致有界;2)适当选择设计参数,存在一个有限时间T,使误差信号Ef收敛到零的小领域内,∀t≥T.证 1)从式(15)可知,当t→∞,有所以Ef和最终一致有界,又因为Z和S(Z)有界,则输入τ有界.由此可得,闭环系统中的所有信号都最终一致有界.2)选取李雅普诺夫函数求导得利用三角不等式有其中s∗为‖S(Z)‖的上界[21].于是式(17)可表示为其中选择适当的Kf以使得Kf2> 0.让显然,选择足够大的k5可使得δ2足够小.由式(18)可得不等式(19)意味着对给定的存在一个有限时间T,使得∀t≥ T,Ef满足‖Ef‖ <ι1,ι1为小的残差集.通过选取大的Kf可使Ef足够小,即通过选取适当的设计参数,可使Ef在有限时间T内收敛到零的小领域内[22]. 证毕.5 确定学习(Deterministic learning)根据确定学习理论[23],系统(16)在时间T后利用RBF NN的局部特性,沿着跟踪轨迹ψ(q(t))|t≥T可表示为其中:Sξ(Z)为S(Z)的子向量,为相应权值子向量,下标ξ和分别代表靠近和远离轨迹ψ(q(t))|t≥T的区域,ϵξ为局部逼近误差,且‖ϵξ‖是很小的值.定理2 考虑闭环误差系统(20),对任意给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈Ω0和合理地选取控制参数,则沿着跟踪轨迹ψ(q(t))|t≥T,RBF NN权值收敛到理想权值的小领域内,未知闭环系统动态Hf可由和来局部准确逼近,其中证令则式(20)可表示为将上式写成矩阵形式为由定理1知,RBF NN的输入Z(t)时间T后为回归轨迹,回归子向量Sξ(Z)满足PE条件[23],根据文献[24]中的引理1可知系统(21)的标称系统一致指数稳定.对于系统(21)根据文献[25]的引理4.6,权值误差在有限时间T1(T1>T)内指数收敛到零的小领域内,领域的大小由NN逼近能力和状态跟踪误差决定.未知闭环系统动态可由整个RBF神经网络和准确逼近,即其中‖ϵ′‖和‖ϵ′′‖是很小的值,表明整个RBF神经网络和沿着轨迹ψ(q(t))|t≥T能够逼近未知闭环系统动态到任意准确度.从式(22)可知,对于经历的回归轨迹ψ(q(t)),存在小的正常数ι2,沿着ψ(q(0))存在一个局部区域Ωψ满足[23]其中ϵ∗2接近ϵ∗. 证毕.6 学习控制(Learning control)运用学习结果,对动力学误差系统(10),可用RBF NN学习控制器(23)替代自适应RBF NN控制器(11)实现学习控制其中:为未知闭环系统动态的局部准确逼近,是学习过程中存储的RBF NN常数权值. 定理3 由控制对象(3),控制器(6)和(23)构成的闭环系统,对任意给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈ Ω0和可得:1)闭环系统中的所有信号保持最终一致有界;2)适当选择设计参数,存在一个有限时间T2,使误差信号Ef收敛到零的小领域内,∀t≥T2.证将式(23)代入式(10)得选取李雅普诺夫函数为对V3求导化简可得由三角不等式可得其中k6>0,由此可得其中选择适当的Kf以使得Kf3> 0.取令由于学习阶段的准确逼近使ϵ∗2很小,因此ι3和δ3也很小.从式(25)可得则有类似定理1的证明,可得闭环系统中所有信号保持最终一致有界.从式(26)可知,不用选择大的设计参数k6,Ef能指数收敛到零的一个小领域内,即存在一个有限时间T2>0,对任意的t>T2,误差Ef收敛到零的一个小领域内. 证毕.7 系统控制性能分析((The analysis of system control performance)综合上述分析,对比自适应RBF NN控制器(11)和RBF NN学习控制器(23)的控制性能有:i)使用自适应RBF NN控制器(11)时不满足PE条件,与许多自适应NN控制的文献获得的结果一样,能保证有界,但不能保证它收敛到零的一个小区域内.为保证误差Ef 收敛到零的一个小领域内,须选择足够大的k5(即足够大的Kf),以使δ2足够小.然而,较大的k5容易引起高增益控制,应在实际应用中避免.ii)使用RBF NN学习控制器(23),由于学习阶段的准确逼近,不需选择大的控制参数k6(即Kf)就能保证ι3和δ3足够小,从而保证误差Ef收敛到零的一个小领域内.同时,RBF NN学习控制器(23)采用了无需在控制过程中更新的常数权值,比自适应RBF NN控制器(11)能在软硬件实现时节约时间和能量,这在实际应用中有优势.8 仿真研究((Simulation studies)为了验证所提控制方法的正确性和有效性,本部分运用MATLAB进行仿真研究.选取WMR参数为控制目标为ld=1m,选取领航机器人Rl的轨迹为初值为跟随机器人Rf的初值设为参考虚拟目标机器人Rr的轨迹可由如下方程组计算得到选择控制参数为k1=1,k2=0.5,kv=5;RBF NN节点数N=1600,初值W=zeros(N,1),Γ=2∗eye(N),σ=0.0001;RBF NN中心点均匀分布在[−2:1:2],[−2:1:2],[−1:1:2],[−1.5:1.5:3],[−4:1:1]网格点上.设置=[0.06m(v2f+2ω2f)|θf|,0.06m(2v2f+ω2f)|θf|]T,=0.在自适应RBF NN控制阶段设干扰为τd=0.1∗[sint cost]T,在RBF NN学习控制阶段τd=1∗[sint cost]T[26].仿真研究结果如图2–13所示.图2–6展示了自适应RBF NN控制的控制效果,其中图2–3是线速度和角速度跟踪曲线.图2 自适应神经网络控制线速度跟踪Fig.2 Adaptive NN control linear velocity tracking图3 自适应神经网络控制角速度跟踪Fig.3 Adaptive NN control angular velocity tracking图4–6是轨迹跟踪和姿态误差曲线.从图2–6中可以看出,在前25s误差相对较大,从图2–5可以看出25s后两条曲线几乎重合,从图6中可以看出特别是前10s的最大误差超过了0.5,在10∼25s的最大误差也接近0.5,25s过后误差一直保持在0.15以内,这表明Rf稳定的跟踪上Rr.分析原因是前25s RBF NN权值处于在线调整中,没有收敛到稳定值,这导致误差相对较大,这吻合图7中的RBF NN权值收敛过程.图4 自适应神经网络控制轨迹跟踪(2维)Fig.4 Adaptive NN control trajectory图5 自适应神经网络控制轨迹跟踪(3维)Fig.5 Adaptive NN control trajectory tracking(three dimensional)图6 自适应神经网络控制姿态跟踪误差Fig.6 Adaptive NN control posture tracking error未知闭环系统动态的RBF NN学习效果如图7–8所示,其中图7是部分RBFNN权值收敛,图8是未知闭环系统动态的学习误差曲线.从图7中可以看出,RBF NN络权值经过25s的调整收敛到常值.未知闭环系统动态的RBF NN学习效果如图8所示,在权值调整过程中学习误差偏大,当权值收敛之后学习误差大大减少,这意味着学习效果改善.因此,图7和图8表明本文提出的自适应RBF NN控制方法在Rf稳定跟踪Rr的过程中,实现了对未知闭环系统动态的准确学习.图7 部分神经网络权值收敛Fig.7 The partial NN weights convergence图8 未知闭环系统动态学习误差Fig.8 Unknown closed-loop system dynamics learning error图9–13展示了RBF NN学习控制的控制效果,图9–10是线速度和角速度跟踪曲线,图11–13是轨迹跟踪和姿态误差曲线.从图9–12中可以看出两条曲线没有调整过程始终保持几乎重合,从图13中可以看出姿态跟踪误差几乎一直保持在0.15以内,这表明Rf稳定的跟踪上Rr所需时间较采用自适应RBF NN控制器少了许多,分析原因是RBF NN学习控制利用了已学到的知识使得RBF NN权值无需再调整. 图9 学习控制线速度跟踪Fig.9 Learning control line velocity tracking图10 学习控制角速度跟踪Fig.10 Learning control angular velocity tracking 图11 学习控制轨迹跟踪(2维)Fig.11 Learning control trajectory tracking(two dimensional)图12 学习控制轨迹跟踪(3维)Fig.12 Learning control trajectory图13 学习控制姿态跟踪误差Fig.13 Learning control posture tracking error 通过上述对比分析两种控制效果,使用了学过知识的RBF NN学习控制器,实现了系统的稳定控制,并节约了资源和改善了性能.9 结论(Conclusions)本文针对含未知信息的WMR研究了编队控制,利用RBF NN提出了自适应神经网络控制器和学习控制器,实现了闭环系统的所有信号最终一致有界.由于对回归轨迹满足部分PE条件,在稳定的闭环动态控制过程中RBF NN准确学习到未知闭环系统动态,并且以时不变且空间分布的方式表达和常数权值的方式存储.调用存储的RBF NN常数权值建立的学习控制器中包含已学到的系统未知信息,避免了RBF NN权值的重新训练和更新,实现了系统良好的控制.这在工程实践中能节约软硬件资源,是非常有用的.参考文献(References):【相关文献】[1]DONG X,YU B,SHI Z,et al.Time-varying formation control for unmanned aerial vehicles:theories and applications[J].IEEE Transactions on Control Systems Technology,2015,23(1):340–348.[2]WANG Yintao,YAN Weisheng.Consensus formation tracking control of multiple autonomous underwater vehicle systems[J].Control Theory&Applications,2013,30(3):379–384.(王银涛,严卫生.多自主水下航行器系统一致性编队跟踪控制[J].控制理论与应用,2013,30(3):379–384.)[3]DESAI J P,OSTROWSKI J,KUMAR V.Controlling formations of multiple mobilerobots[C]//Proceedings of IEEE International Conference on Robotics and Automation.Leuven:IEEE,1998:2864–2869.[4]LORIA A,DASDEMIR J,JARQUIN N A.Leader–follower formation and tracking control ofmobile robots along straight paths[J].IEEE Transactions on Control Systems Technology,2016,24(2):727–732.[5]BALCH T,ARKIN R C.Behavior-based formation control for multirobot teams[J].IEEE Transactions on Robotics and Automation,1998,14(6):926–939.[6]KUPPAN CHETTY R M,SINGAPERUMAL M,NAGARAJAN T.Behavior based multi robot formations with active obstacle avoidance based on switching controlstrategy[J].Advanced Materials Research,2012,433(440):6630–635.[7]QIU Huaxin,DUAN Haibin,FAN Yanming.Multiple unmanned aerialvehicleautonomousformationbasedonthebehaviormechanism in pigeonflocks[J].Control Theory&Applications,2015,32(10):1298–1304.(邱华鑫,段海滨,范彦铭.基于鸽群行为机制的多无人机自主编队[J].控制理论与应用,2015,32(10):1298–1304.)[8]BENZERROUK A,ADOUANE L,MARTINET P.Stable navigation in formation for a multi-robot system based on a constrained virtual structure[J].Robotics and Autonomous Systems,2014,62(12):1806–1815.[9]LEWIS M A,TAN K H.High precision formation control of mobile robots using virtual structures[J].Autonomous Robots,1997,4(4):387–403.[10]DAS A K,FIERRO R,KUMAR V.A vision based formation control framework[J].IEEE Transactions on Robotics and Automation,2002,18(5):813–825.[11]DIERKS T,JAQANNATHAN S.Neural network control of mobile robot formations using RISE feedback[J].IEEE Transactions on Systems,Man,and Cybernetics,PartB(Cybernetics),2009,39(2):332–347.[12]DIERKS T,JAQANNATHAN S.Neural network output feedback control of robot formations[J].IEEE Transactions on Systems,Man,and Cybernetics,PartB(Cybernetics),2010,40(2):383–399.[13]HOU Z G,ZOU A M,CHENG L,et al.Adaptive control of an electrically driven nonholonomic mobile robot via backstepping and fuzzy approach[J].IEEE Transactions on Control Systems Technology,2009,17(4):803–815.[14]HOU Z G,CHENG L,TAN M.Decentralized robust adaptive control for the multiagent system consensus problem using neural networks[J].IEEE Transactions onSystems,Man,and Cybernetics,Part B(Cybernetics),2009,39(3):636–647.[15]DEFOORT M,FLOQUET T,KOKOSY A,et al.Sliding-mode formation control for cooperative autonomous mobile robots[J].IEEE Transactions on Industrial Electronics,2008,55(11):3944–3953.[16]SHEN Dongbin,SUN Weijie.Multirobot formation control under slippingcondition[J].Journal of Mechanical Engineering,2012,48(23):30–35.(申动斌,孙伟杰.打滑状态下的多机器人编队控制[J].机械工程学报,2012,48(23):30–35.)[17]LIYandong,ZHULing,SUNMing.Adaptivecontrolofmobilerobot formations includingactuator dynamics[J].Computer Engineering and Applications,2014,50(1):235–239.(李艳东,朱玲,孙明.含驱动器动力学的移动机器人编队自适应控制[J].计算机工程与应用,2014,50(1):235–239.)[18]ZHU Ling,LI Yandong,SUN Ming,et al.Sliding mode control of mobile robot formations based on neural networks[J],Electric Machines and Control,2014,18(3):113–118.(朱玲,李艳东,孙明,等.移动机器人编队的神经网络滑模控制[J].电机与控制学,2014,18(3):113–118.)[19]FIERRO R,LEWIS F L.Control of a nonholonomic mobile robot using neuralnetworks[J].IEEE Transactions on Neural Network,1998,9(4):589–600.[20]WU K Y.Multiple mobile robots formation control and obstacleavoidance[C]//Proceedings of International Conference on Advanced Computer Control.Harbin:IEEE,2011:639–643.[21]AJ K,JD W,FJ N.Persistency of excitation in identification using radial basis function approximants[J].SIAM Journal on Control&Optimization,1995,33(2):625–642.[22]SLOTINE J E,LI W P.Applied Nonlinear Control[M].New Jersey,American:Prentice Hall,1991.[23]WANG C,HILL D J.Deterministic Learning Theory for Identification,Recognition,and Control[M].Boca Raton,American:CRC Press,2009.[24]LIU T F,WANG C,HILL D J.Learning from neural control of nonlinear systems in normal form[J].Systems&Control Letters,2009,58(9):633–638.[25]KHALIL H K.Nonlinear Systems[M].3rd edition.Englewood Cliffs:Prentice Hall,2002.[26]ZHOU Yong,WANG Cong,GU Wujun,et al.Deterministic learning and control of mobile robots[J].Control Theory&Applications 2012,29(1):119–124.(周勇,王聪,顾武军,等.移动机器人的确定学习与控制[J].控制理论与应用,2012,29(1):119–124.)。