当前位置：文档之家› 第八章动态规划原理与最优控制

第八章动态规划原理与最优控制

V [ x(t ), t ] min [ x(t f ), t f ] [ x( s ), u ( s ), s ]ds
31

已知始端固定

即
x(t 0 ) x 0
u * (t )

求最优控制

使目标泛函
J [ x(t f ),t f ] [ x(t ),u(t ),t ]dt

tf
取极小值
t0
N[ x(t f ), t f ] 0
（ 3）
32
由最优性原理推导出极大值原理
H [ x * (t ), u * (t ), * (t ), t ] H [ x(t ), u(t ), (t ), t ]
j k
17

根据最优性定理

如果 N 级决策是最优的则以在前 j – 1 决策上形成的 N – j 级决策是最优决策

x( j ) 为初态的

从这点出发，形成了逆向递推的最优化方法，这种方法被称为动态规划
18

根据最优性定理

利用动态规划方法形成递推公式
u( j)
VN j [ x( j )] min{L[ x( j ), u ( j ), j ] VN ( j 1) [ x( j 1)]}

求最优控制 u 使目标泛函为
J x (3) [ x (k ) u (k )]
2 2 2 k 0

2
最小
23

解：由递推公式
u(k )
J *[ x(k )] min {x 2 (k ) u 2 (k ) J *[ x(k 1)]}
K=3时
J *[ x(3)] x 2 (3)
上和最优控制函数有关的轨线， x(t0 ) 给定。
33

显然
（ 6）
V [ x(t f ), t f ] [ x(t f ), t f ]

所有
( x(t f ), t f ) 都满足
N[ x(t f ), t f ] 0

假设 V 存在，连续

并且具有连续的一阶和二阶偏导数
34
推导动态规划的Hamilton-Jacobi方程
28
21 2 J * [ x(0)] x (0) 13 8 2 J * [ x(1)] x (1) 5 3 2 J * [ x(2)] x (2) 2 J * [ x(3)] x 2 (3)
29
7.3
动态规划

连续动态规划
在连续系统最优控制中的应用

可用于连续系统的优化问题对于连续系统
2 2
求解可得
最优目标函数为
3 u * (1) x(1) 5
3 3 3 8 2 2 2 J *[ x(1)] x (1) [ x(1)] [ x(1) x(1)] x (1) 5 2 5 5
2
26
K=0时
J * [ x(0)] min {x 2 (0) u 2 (0) J * [ x(1)]}
J = 7 + 5 = 12
J * [X1(1) ] = 10 , J *[X2(1) ] = 8
10
④
第一级
J = 4 + 10 = 14 J* = 5 + 8 = 13
路线 S — X1(1) — F
S — X2(1) — F
即
J * [S] = 13
11
∴最优决策为
S — X2(1) — X1(2) — X2(3) — F
2
27
求解的结果
8 u * (0) x(0) 13 3 u * (1) x(1) 5 1 u * (2) x(2) 2
5 x * (1) x(0) u (0) x(0) 13 2 x * (2) x(1) u (1) x(0) 13 1 x * (3) x(2) u (2) x(0) 13
j k 1
L[ x( j ),u( j ), j ]}
N
min
u(k )
N min {L[ x(k ), u (k ), k ] L[ x( j ), u ( j ), j ]} j k 1 u ( k 1),,u ( N ) N L[ x(k ), u (k ), k ] min L[ x( j ), u ( j ), j ] u ( k 1),,u ( N ) j k 1 L[ x(k ), u (k ), k ] J *[ x(k 1), k 1]
min
u(k )
min
u(k ) u(k )
J *[ x( N ), N ] min {L[ x( N ), u ( N ), N ]}
22

例 1

设离散系统的状态方程为
x(k 1) x(k ) u (k ) k 0,1, , N 1

已知 x(0) x0

确定了一个从后向前的递推过程基于最优性原理的动态规划方法
成为解决最优控制问题的有力工具

5
动态规划原理
求从S — F 点路程最短的方法
6
•枚举法
① ② ③ ④ ⑤
⑥
⑦ ⑧
S — X1(1) — X1(2) — X1(3) — F S — X1(1) — X2(2) — X1(3) — F S — X1(1) — X2(2) — X2(3) — F S — X1(1) — X1(2) — X2(3) — F S — X2(1) — X1(2) — X1(3) — F S — X2(1) — X1(2) — X2(3) — F S — X2(1) — X2(2) — X1(3) — F S — X2(1) — X2(2) — X2(3) — F
动态规划
求解最优控制问题的有效方法之一二十世纪五十年代由 Bellman 提出动态规划与极小值原理在数学上是等效的
从不同的角度发展了古典变分学
1
最优性原理
多级决策过程的最优策略具有这种性质。不论初始状态和初始决策为何，其余的决策对于由初始决策所形成的状态来说，必定也是一个最优策略。
2
主要内容
x(k ) X R , k 0,1,2,, N
n
u (k ) U R , k 0,1,2,, N 1
m
20
令：
J *[ x(k ), k}] J [ x *(k ), u *(k ), k ]
u ( k ),u ( k 1), ,u ( N 1) j k

k 0,1, , N 1
使目标泛函
J L[ x(k ), u (k ), k ]
k 0

N 1
取极小值
16

动态规划的目的

使 J 最小即 min J

将以 x( j ) 为初态的 N-j(=k) 级最优决策
* N
J [ x(k ), k )] min{ L[ x( j ), u( j ), j ]}
4+6+1+4=15 4+6+2+4=16 4+6+2+3=15 4+6+1+3=14 5+4+1+4=14 5+4+1+3=13 5+7+2+4=18 5+7+2+3=17
7
可能解数量为 2(n-1)
n = 4, 为 23 = 8 种.
加法次数为：(n-1)* 2(n-1)
n = 4, 为 (4-1) * 23 = 24 次.
②
倒数第二级：
J =1+J* [X1(3) ] = 5 J* =1+J*[X2(3) ] =4 J =2+J*[X1(3) ] = 6 J * =2+J*[X2(3) ] = 5
9
路线 X1(2) — X1(3) — F
X1(2) — X2(3) — F X2(2) — X1(3) — F X2(2) — X2(3) — F
若n = 10, 则可能解数为： 2(10-1) = 29 = 512 种.
加法 (10-1) * 29 = 9 * 29 = 9 * 512 = 4608 次.
8
• 动态规划法
①
从最后一级开始：
J [X1(3) ] =4 J [X2(3) ] =3 ,J*[X1(3) ] =4 ,J *[X2(3) ] =3
1 1 3 2 2 2 J *[ x(2)] x (2) [ x(2)] [ x(2) x(2)] x (2) 2 2 2 25
2
K=1时
J * [ x(1)] min {x 2 (1) u 2 (1) J * [ x( 2)]}
u (1)
min
u (1)
3 {x (1) u (1) [ x(1) u (1)]2 } 2
min
{ L[ x( j ), u ( j ), j ]}
N
21
J *[ x(k ), k}]
u ( k ),u ( k 1),,u ( N )
min
{ L[ x( j ), u ( j ), j ]}
j k
N
u ( k ),u ( k 1),,u ( N )
min
{L[ x(k ), u (k ), k ]
u (0)
min
u (0)
8 2 {x (0) u (0) [ x(0) u (0)] } 5

e商务文档

第八章动态规划原理与最优控制

相关文档推荐：