当前位置:
文档之家› 最优控制-第七章-动态规划法
最优控制-第七章-动态规划法
当∆t很小时,有
t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU
uU
tf
t0
Lx, u, t d t Φ xt f
tf t t
t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段:P1、Q1的前站是始发站A。显见从
A到B的最优值为12,故得最优路线为AQ1P2Q3B。
综上可见,动态规划法的特点是: 1) 与穷举算法相比,可使计算量大大减少。如
上述最优路线问题,用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU
(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段,每一段都要作一最优决 策,使总过程时间为最短。所以这是一个多段最 优决策问题。 由图2可知,所有可能的行车路线共有8条。 如果将各条路线所需的时间都一一计算出来,并 作一比较,便可求得最优路线是AQ1P2Q3B,历时 12。这种一一计算的方法称为穷举算法。这种方 法计算量大,如本例就要做3×23=24次加法和7次 比较。如果决策一个n段过程,则共需(n-1)2n-1次 加法和(2n-1-1)次比较。可见随着段数的增多,计 算量将急剧增加。
根据最优性原理,如果x*(t)是以x(t0)为初始
状态的最优轨线。如图6所示。
x2
x( t′) x*( t) x( t0)
x(t f)
0
图6 连续系统最优轨线
x1
设t = t′ ( t0 < t′< tf)时,状态为x(t′),它将轨 线分成前后两半断。那么以x(t′)为初始状态的后 半段也必是最优轨线。而与系统先前如何到达 x(t′)无关。
若取t0= t, t′= t + ∆t,式(4)可写成
J x, t min
* uU
tf
t0
Lx, u, t d t Φ xt f
tf
min
uU
t t
t
Lx, u, t d t
t t
Lx, u, t d t Φ xt f
(5)
*
t t
t
Lx, u, t d t Lx, u, t t
J xt t , t t min
uU
tf
t t
Lx, u, t d t Φ xt f
(8)
式(5)可近似表示为
J * x, t min Lx, u, t t J * xt t , t t
uU
将x(t + ∆t)进行泰勒展开,取一次近似,有
dx xt t x t x x dt
(9) (10) (11)
dx x t f x, u, t t dt
J * xt t , t t J * x x, t t
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第二段: P2、Q2的前站是P1、Q1。同样不管 汽车是如何到达的P1、Q1,重要的是保证从P1或 Q1到B要构成最优路线。从P1到B的两条路线中, P1P2Q3B,历时为11;P1Q2Q3B,历时为11,取最 短历时11,标注在P1旁。从Q1到B的也有两条路 线中,Q1P2Q3B,历时为8;Q1Q2Q3B,历时为 13,取最短历时8,标注在Q1旁。比较P1与Q1的 最优值,可知这一段的最优路线是Q1P2Q3B。
状态来说,必定也是一个最优策略。这个性质称为最优
性原理。
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk +1 xN-1
uN-1 N xN
前k段子过程
后N- k段子过程
图4 N段决策过程
设图5中x*(t)是连续系统的一条最优轨线。x(t1) 是最优轨线上的一点,那么最优性原理说明,不管
应用动态规划法可使计算量减少许多。动态规 划法遵循一个最优化原则:即所选择的最优路线必 须保证其后部子路线是最优的。
例如在图2中,如果AQ1P2Q3B是最优路线,那么
从这条路线上任一中间点到终点之间的一段路线必 定也是最优的。否则AQ1P2Q3B就不能是最优路线
了。
根据这一原则,求解最优路线问题,最好的办 法就是从终点开始,按时间最短为目标,逐段向前
加法和6次比较。如果过程为n段,则需做加 法。以上例为例,用穷举法需作4608次加法,
而后者只需做34次加法。
2) 最优路线的整体决策是从终点开始,采用逆推方 法,通过计算、比较各段性能指标,逐段决策逐步 延伸完成的。
全部最优路线的形成过程已充分表达在图3中。 从最后一段开始,通过比较P3、Q3,得到Q3B; 倒数第二段,通过比较P2、Q2,得到P2Q3B; 倒数第三段,通过比较P1、Q1,得到最优决策 为Q1P2Q3B; 直至最后形成最优路线AQ1P2Q3B。
xN也就被完全确定。全部“决策”的总体,称为 “策
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk +1 xN-1
uN-1 N xN
图1 多段决策过程示意图 当然,如果对每一段的决策都是按照使某种性
能指标为最优的原则作出的,那么这就是一个多段
最优决策过程。
容易理解,在多段决策过程中,每一段(如第 k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及
(5)
根据最优性原理,如果t到tf的过程是最优的, 则从t + ∆t到tf的后部子过程也是最优的,其中
t< t + ∆t <tf。因此可写成
J xt t , t t min
* uU
tf
t t
Lx, u, t d t Φ xt f
(6)
(7)
象这样将一个多段决策问题转化为多个单段决 策的简单问题来处理,正是动态规划法的重要特点 之一。
3) 动态规划法体现了多段最优决策的一个重要
规律,即所谓最优性原理。它是动态规划的理 论基础。
对图4所示的N段决策过程,如果在第k+1段处把全
过程看成前k段子过程和后N-k段子过程两部分。对于后
部子过程来说,xk可看作是由x0及前k段初始决策(或控 制) u0,u1,…, uk-1所形成的初始状态。那么,多段决策的 最优决策略具有这样的性质:不论初始状态和初始决策 如何,其余(后段)决策(或控制)对于由初始决策所形成的
动态最优的核心是最优性原理,它首先将一个 多段决策问题转化为一系列单段决策问题,然后从 最后一段状态开始逆向递推到初始段状态为止的一 套求解最优策略的完整方法。 下面先介绍动态规划的基本概念,然后讨论连
续型动态规划。
一、多段决策问题
动态规划是解决多段决策过程优化问题的一 种强有力的工具。所谓多段决策过程,是指把一
*
x(t f)
t
图5 连续系统的状态转移过程
应用最优性原理可以将一个N段最优决策问题转
化为N个一段最优决策问题,从而大大减少求解最优 决策问题的计算量。
x x ( t) x(t 1) x( t0) 0
*
x(t f)
t
图5 连续系统的状态转移过程
二、连续系统的动态规划
利用动态规划最优性原理,可以推导出性能 泛函为极小应满足的条件——哈密尔顿-雅可比 方程。它是动态规划的连续形式,解此方程可求 得最优控制u*(t)。现在来推导这一方程。
设连续方程为
f x, u, t x
初始状态
(1)
xt 0 x0
N xt f , t f 0
(2)
终端约束
(3)
使性能泛函 J x0 , t min
tf
t0
Lx, u, t d t Φ xt f
(4)
求最优控制u*(t), u U 或u任意。
t=t1, t0< t1< tf时,系统是怎样转移到状态x(t1)的,但
从x(t1)到x(tf)这段轨线必定是最优的。因为最优轨线 的后一段从x(t1)到x(tf)如果还有另一条轨线是最优的
话,那么原来从x(t0)到x(tf)的轨线就不是最优的,这
与假设矛盾。因此,最优性原理成立。
x x ( t) x(t 1) x( t0) 0
个过程按时间或空间顺序分为若干段,然后给每
一步作出“决策”(或控制),以使整个过程取得最 优 的效果。
如图1所示,对于中间的任意一段,例如第k+1
段作出相应的“决策”(或控制)uk后,才能确定该段 输 入状态与输出状态间的关系,即从xk变化到xk+1的状
态转移规律。在选择好每一段的“决策”(或控制) uk 以后,那么整个过程的状态转移规律从x0经xk一直到
逆推。依次计算出各站至终点之间的时间最优值,