当前位置:文档之家› 迭代学习控制的研究及应用(1)

迭代学习控制的研究及应用(1)

综述与评论迭代学习控制的研究及应用西安交通大学机械工程学院 李新忠 简林柯 何1 前言迭代学习控制(Iter at ive L earning Contr ol)顾名思义,就是通过反复的迭代修正达到某种控制目标的改善。

这一思想首先是由U chiyam[1]提出的,由A rimoto等人加以完善[2],建立了实用算法,可以实现在给定的时间区段上对未和被控对象以任意精度跟踪一给定的期望轨迹。

无需辨识系统的参数,属于基于品质的自学习控制,特别适用于机器人等重复运动的场合。

它的研究对那些有着非线性、强耦合、难以建模以及高精度轨迹控制的问题有非常重要的意义。

由于迭代学习算法极为简单,又能解决如此复杂的问题,因而一经提出就引起人们的极大关注和兴趣。

许多学者从理论和应用方面作了大量的工作,得到了许多有益的结论[3][4]。

在国内,李士勇在教材 5中较早提及学习控制,文献 6~8从理论上对迭代学习控制作了较为详尽的研究,给出了新的迭代学习算法和稳定性、收敛性条件,为学习控制的进一步推广应用奠定了必要的理论基础。

2 迭代学习控制的基本原理对于一类具有较强非线性耦合和较高位置重复精度的动力学系统,例如工业机器人系统的控制,已有了变结构控制非线性反馈、分解运动及自适应控制等多种方法,然而都存在一定的不足,如要求精确的数学模型或者运算复杂,在这种情况下发展了迭代学习控制。

迭代学习控制过程原理见图1。

考虑如下非线性系统:x k(t)=f(x k,u k,t)(1)y k(t)=g(x k,u k,t)(2) k是迭代循环次数,如果满足:!每次运行时间间隔为T∀其望输出y d(t)是预先给定的,且是t# 0,T域内的函数;∃每次运行前,初始状态x k(0)相同且在期望轨迹上;%每次运行的输出y k(t)均可测,误差信号e k(t)=y d (t)-y k(t);&系统的动力学结构在每次运行中保持不变;∋下一次运行的给定控制量u k+1(t)满足如下递推规律:u K+1(t)=F u k(t),e k(t), , 为系数。

系统性能在某种意义下得到改善,如:(e k+1(t)() (e k(t)(k=1,2,∗ 0< <1如果limk+,y k(t)+y d(t),则称迭代学习过程是收敛的。

A rimoto基于以上假设,提出了如下PI D型的学习算法:图1 迭代学习控制过程原理 图2 PID型学习控制u k+1(t)=F(u k,e k, )=u k(t)+e k(t)+!dd te k(t)+∀−e k(t)d t(3)学习因子、!、∀不同取值或零值,可以构成P 型、PI型、P D型、D型及P ID型学习算法。

已经证明,D型控制律对线性时不变系统及非线性系统,都能保证e k(t)在如下意义下收敛: sup{e-#t(e k(t)(,}+0,k+,,#>0(4)对于非线性系统,D型算法不能保证在L2范数意义下一定收敛,对于性线时不变、时变系统,P型算法在L2范数意义下均收敛。

(3)式表达的控制律在第k+1次循环迭代控制时,只用到了第k次的误差信息,在此次循环前, 0,T域内的控制量轨迹都已经计算好了,因而称之为开环PI D学习律。

图3所示为闭环P ID学习律框图。

图3 闭环学习控制基本结构闭环学习律为:u k+1(t)=u k(t)+e k+1(t)+!dd te k+1(t)+∀−e k+1(t)d t(5)e k+1(t)=y d(t)-y k+1(t)上述控制量的生成不仅依据过去的经验,还根据当前误差作实时修正。

从一次循环控制过程看,相当于比例前向控制加误差反馈补偿的复合控制,因为有实时误差反馈,故而称闭环控制。

不论是开环还是闭环迭代学习控制,其学习算法相当简单,只需要知道误差信息,就可以进一步构成控制律,(3)式或(5)式的计算只须计算机数十微秒就可完成,不存在自校正或变结构等因计算时间过长给控制器的设计带来诸如采样时间的选取一类的问题。

对学习控制而言,如同传统的P ID算法,只需解决,!,∀三个参数的设置就行了。

显然,针对一个具体和控制问题,试凑法是行之有效的简单途径。

3 迭代学习控制的理论研究迭代学习控制理论研究的内容包括学习律与学习系统具体的结构形式、学习算法的稳定性与收敛性、学习速度、学习控制过程的鲁棒性、迭代学习控制的分析方法(频域、时域、连续系统及离离散系统、二维分析方法)、初始值问题等等。

而且这些内容都是相互关联的,下面重点介绍几个方面。

(1)迭代学习控制的稳定性与收敛性。

算法的稳定性保证了随学习次数的增加,控制系统不会发散,显然还应能保证学习过程收敛到期望值,即还要有收敛性的保证。

稳定性与收敛性问题是研究当学习律与被控系统满足什么条件时迭代学习控制过程才是稳定收敛的。

Ar imoto提出开环PID控制律时,仅对线性系统在D型学习律下的稳定性与收敛条件作了证明,后来的学者运用频域分析法、二维分析法在线性时不变、线性时变、非线性系统中作了发扬推广,并有相应的稳定收敛条件,但都没有给出P、I、D都存在时收敛的统一条件,虽然有些学者指出[9],在某种条件下P型或D型学习律与别的控制律有相同的收敛速度,但没有令人信服的理论论证。

文献 6首次给出了一类非线性系统开环与闭环P型学习律稳定收敛条件,简述如下:!非线性系统及开环学习律x(t)=f(x,t)+B(t)u(t)(6)y(t)=g(x,t)+D(t)u(t)(7)u k+1(t)=u k(t)+(t)e k(t)(8) x#R n,,u#R P,y#R m,在 0,T上。

B(t),D(t)有界,f,g 满足局部Lipsthitz条件,即任给x1,x2#W,W是R n上包含目标函数轨线和第一次尝试轨线的一个连通区域,有(f(x1,t)-f(x2,t)()f0(x1-x2(,(g(x1,t)-g(x2,t)()g0(x1-x2(f0,g o是L ipsthitz常数,则满足以下条件时a.(I-D(t)(t)(<1 t# 0,Tb.x k+1(0)=x k(0) k=1,2,∗c.u(t)=u0(t)时,(6)式在 0,T上存在解,yd(t)有界,则迭代算法能保证在如下范数意义下:(f(#=supt# 0,T{e-#t(f(t)(},f: 0,T+R\ +n,#>0有y k(t)+y d(t),k+,,#足够大。

由条件b知,对初始条件已放松到只要求每次循环一致,显然较A rimoto要求初值在目标舅迹上有较大的进步。

∀考虑有扰动存在的闭环学习系统x(t)=f(x k,t)+B(t)u k(t)+∃k(t)(9)y k(t)=g(x k,t)+D(t)u k(t)+%k(t)(10)u k+1(t)=u k(t)+(t)e k+1(t)+∃k(t)(11)e k+1(t)=y d(t)-y k+1(t)(12)对f、g、B、D的要求同A开环系统下一致,假设状态扰动,输出扰动及输入扰动与初始扰动(x k+1 (0)-x0(0)(上界相同,同为&,&/0(&=0即为无扰)。

A.&=0无扰动时,如果满足a.((I+D(t)(t)-1(<1t# 0,Tb.在 0,T上,u(t)=u0(t)时,(9)式解存在,y d(t)有界,则在(.(#范数意义下, y k(t)+y d(t),k+,,#足够大。

B.&00有扰动时,如果条件b成立且存在(t)使((I+D(t)(t)-1(任意小,则任给∋>0,存在正整数n,当k>n时,(y k(t)-y d (t)(<∋,t# 0,T。

可见,闭环算法不仅可以克服扰动,还允许初始值在小范围波动,较之开环学习律对初始值条件又作了放松。

对输出方程求导就可得D型算法的相似结论。

(2)快速收敛问题算法的收敛速度是评价其性能优劣的重要指标,对迭代学习控制而言,不仅要有稳定收敛的算法,还应引入某个目标函数,采用最优化方法设计最优学习控制律。

例如,以跟踪误差的二次型性能标为优化目标,用梯度法求取学习控制增益阵[13],或者采用最小二乘迭代算法估计线性化时变系统状态空间方程的系数矩阵和输入矩阵,由此构造学习控制输入增量。

这两种方法要求较多的模型知识(或通过辨识得到),无疑增加了工作量,与学习控制的初衷相背,但有可能找到一组较好的学习增益阵,保证较快的收敛。

这对于重复训练学习一次代价较大的系统,充分利用验前或者学习后的知识,避免盲目性,加速收敛过程,无疑是重要的。

开环或者闭环P ID学习系统,都只利用了误差和控制量的一次信息。

为了提高收敛速度,有人采用多步或高阶控制策略[3],即构造控制律时:!用到同一时刻前k次运动的误差信息;∀用到本次运动中不同时刻的系统误差;∃用到同一时刻前k次控制量。

一般取2~3阶较为适宜,阶数太高计算量和存储量也会急剧增加。

分析以上两种策略,控制量是由误差来修正的,故而方法∃与!是相同的;方法∀中只取一阶就是前面提到的闭环PI D策略。

(3)系统时滞的影响对含有时滞time-delay的系统,直接运用迭代学习控制会造成控制过程发散,时滞的存在使得在时滞时间(d内误差始终存在。

在开环PID律中用误差来修正会造成给定输入量的急剧变化,影响系统响应波动剧烈,针对具体对象,可采用给定超前法,给定滤波法及给定超前滤波法加以解决[7]。

!给定超前法3将误差提前d拍送出u k+1(i)=u k(i)+(P、I、D)e k(i+d)(13)这一方法效果显著,但因难以做到采样时间T 与(d的精确匹配,时滞引起的误差不能根本消除,学习仍可能发散。

∀给定滤波法3控制器加滤波器输出,使系统输入指令满足最大速度和最大加速度给定的限制。

∃给定超前滤波法333两种方法的综合,效果明显。

对时滞系统应用闭环PI D策略也有类似的结论。

4 迭代学习控制存在的问题与思考迭代学习控制的优点之一是在一定条件下可任意精度逼近期望轨迹,这一优越性使得人们极想把它运用到机器人以外的场合,因而要求对迭代学习控制的条件加以放松和改造。

对于确定性干扰,学习控制能够很好地加以克服;对随机干扰,闭环策略能够削弱其影响但不能完全克服。

迭代学习控制原则上可以将被控对象视为4黑箱5,但是为了保证稳定收敛,控制律的构成必须与系统参数保持一致。

对完全未知的系统,如何正确指导学习增益的选取避免盲目性,目前还没有彻底解决。

对4灰箱5系统,根据已知信息选择学习参数,保证较少的迭代循环次数下尽快收敛到真值。

然而,对真实系统而言,怎样增强系统的稳定性、鲁棒性是至关重要的,这方面的工作开展较少。

前文分析指出,迭代学习控制对初始条件(初始状态)的要求是逐步放松的,如能解决任意初始状态的任意轨迹跟踪问题就可以将学习控制推广应用到一般的伺服控制中去,这里不光有理论问题,还有4know ho w5的问题。

相关主题