当前位置：文档之家› 动态规划基本理论推广(函数迭代与策略迭代法)

动态规划基本理论推广(函数迭代与策略迭代法)

管理科学与系统工程
1.函数迭代法的步骤是： (1)选初始函数 f0 (x()一般取 (2)用迭代公式
)；f0 (x) 0
及 fk (x) opt v(x,u)计算fk1(T (x,u)), x X uU ( x)
其中fk (x) 为当(x前),阶x 段X的n 状态和f决k (策x),，k 1, 2为, , 已知终x,u止函数，k 为迭代步数, v为指标函(x数)
可达靶点{u。1(i)} {5, 4,5,3}
第二步，由求，由策略迭代法的方
程组可得： u1(i)
f1 (i)
因策略
f1(i)
di,u1 (i)
f1 (u1 (i))
f1(5) 0
直达靶点，应先计算：
u1 (1)管,理u科1 (学3与)系统工程
f1(1) d15 f1(5) 2 0 2
管理科学与系统工程
②最优决策最多走4步，多于此步数，会出现走回头路或回路，显然这些不是最优路线。
③从任一点出发到靶点，走m(m=1,2,…)步与走
m+1步的最优距离一样，决策函数也一样，如果
继续计算走m+2步、m+3步、……，其结果仍一样,
即 fm (i) fm1(i)
,
um
(i)
u m1
(i)
d42 f1(2), d43 f1(3), d44 f1(4), d45 f1(5)]
min[2 2,5 7,1 5,0 3,3 0] 3
u2 (4) 5
管理科学与系统工程
由于只有5个点,因而从任一点出发到达靶点, 其间最多有4步(否则，有回路)，这样就不需继续下去了。将计算结果列成表：
管理科学与系统工程
f2 (4) d45 3
f2 (2) d23 f2 (3) 0.5 5 5.5
第三步：由求解u3 (i) 。
管理科学与系统工程
所以，u2 (2) 3 同理，可求得u2 (3) 5，u2 (4) 5,于是得到第一次策略迭代的结果为
{u2 (i)} {5,3,5,5} ②以 u2 (i) 为初始策略继续反复使用第二、三步进行迭代。第二步：由u2 (i)求 f2 (i)
f2 (1) d15 2 f2 (3) d35 5
从点2到点5走三步为最优，最优距离为4.5,最优路线 2 u3 (2) 3 u2(3) 4 u1(4) 5 ；
从点3到点5走两步为最优，最优距离为4,最优路线 3 u2 (3) 4 u1 (4) 5 ；
从点4到点5走一步为最优，最优距离为3，最优路线4 u1 (4) 5。
管理科学与系统工程
距离，它是阶段指标之和，并满足可分离性要求，有
V (i, u( x)) dij V ( j, u( x))
最优值函数ƒ(i)为由i出发到达n的最短距离，即
f (i) minV (i,u(x)) V (i,u*(x)) u(x)
式中u*(x)是最优策略，满足基本方程
f
(i)
fk (x) v(x,uk (x)) fk (T (x,uk (x))), x X .
fk (x) (x), x X n.
(3)用 fk (x) 求改进策略 uk1(x) ，
uk1(x) (u opt v(x,u) fk (T (x,u))).
uU ( x)
管理科学与系统工程
例1的求解：
i f1(i) u1 (i) f2 (i) u2 (i) f3 (i) u3 (i) f4 (i) u4 (i) 125252525 2 7 5 5.5 3 4.5 3 4.5 3 355444444 435353535
管理科学与系统工程
分析上面的结果可得：
①从点1到点5走一步为最优，最优距离为2，最优路线1 u1 (1) 5；
模型min z
2 j
j0
x
2 j
lim
k
V0
，状态变换函数
k
为j1 j xj 。( 存在明显的级变量，但级
数是无限的 )
管理科学与系统工程
求解这类问题如果仍使用以前的逐级递推方法，将遇到极大的计算量，为此必需寻找新方法。函数方程可以用迭代法求解，通常有函数迭代法和策略迭代法两种迭代方法。
管理科学与系统工程
策略迭代法的基本思想是：先选定一初始策略{uk (i) i 1, 2, , n 1}然后按某种方式求得新策略 u1(i),u2 (i), , 直至最终求出最优策略。若对某一k，对所有i有：uk1(i) uk (i) ，则称 u1(i),u2 (i), 收敛，此时，策略{uk (i) i 1, 2, , n 1} 就是最优策略。
0.5
则显然有：
f1(1) d15 2 最优决策为:u(1) 5
f1(2) d25 7
u (2) 5
f1 (i)
f1(3) d35 5 f1(4) d45 3
u (3) 5 u (4) 5
f1(5) d55 0
u (5) 5
管理科学与系统工程
(2)假设从i点走两步到靶点5的最优距离为f2 (i), 根据最优化原理得：
f3 (i)
min
1 i 5
dij
f2 ( j) ,i
1, 2,3, 4
f3 (5) 0
计算结果如下： f3 (1) 2,u3 (1) 5 f3 (2) 4.5,u3 (2) 3
f3 (3) 4,u3 (3) 4 f3 (4) 3,u3 (4) 5
管理科学与系统工程
(4)假设从i点走四步到靶点5的最优距离为f4 (i), 则得：
f2 (2)
min
1i 5
d
2
j
f1( j)
min[d21
f1 (1),
d22 f1(2), d23 f1(3), d24 f1(4), d25 f1(5)]
min[6 2,0 7,0.5 5,5 3,7 0] 5.5
u2 (2) 3
管理科学与系统工程
(3)假设从i点走三步到靶点5的最优距离为f3 (i), 则得：
mu(iin) [d1,u(i) f1(u(i))] min[d11 f1(1), d12 f1(2), d13 f1(3), d14 f1(4), d15 f1(5)] min[0 2,6 11,5 5, 2 6, 2 0] 2 所以，u2 (1) 5（不在含dii 的项取u2 (1)） u(i) 2时， mu(iin) [d2,u(i) f1(u(i))] min[6 2,0 11,0.5 5,5 6,7 0] 5.5
一般来说，选定初始策略要比选定初始目标最优值函数容易得多，且策略迭代的收敛速度稍快，但其计算量要大些。
管理科学与系统工程
x X( 是事先给定的数)时迭代停止，最优值函数 f (x) fk (x) ,最优策略u(x) uk (x)。
2.策略迭代法的步骤是：
(1)选初始策略u1 ( x)，令k=1； (2)用uk (x)求解 fk (x) ，
(3)当
或
fk1(x) fk (x), x X ,
管理科学与系统工程
fk1(x) fk (x)
fk (x)
(4)当
uk1(x) uk (x), x X ,
或
fk1(x) fk (x) , x X
fk (x)
时迭代停止，最优值函数 f (x) fk (x) ，最优策略u(x) uk (x) ；否则以k+1代替k重复(2),(3).
个连通图(右图中n=5),各点标号为1,2,…,n。任意两点 i，j之间的距离(费用)记作 dij 。求任意一点i到点n(靶点)的最短路线(距离)。
管理科学与系统工程
5
275 12
用函数迭代法求解例1
6 55
只求1,2,3,4各点到点5的最优路线，其余类似。解：(1)假设从i点走一步到靶点5的最优距离为 2,
min
1 jn
dij
f
(
j) ,i
1, 2,
, n 1.
管理科学与系统工程
该式记为(﹡)式，它不是一个递推方程，而是一个关于ƒ(i)的函数方程,对固定的i使(﹡)右端 [dij+ƒ(j)] 达到极小的j即为最优决策u*(i)，对所有的i求解(﹡)式得到最优策略u*(x)。
管理科学与系统工程
例1：段数不定的最短路线问题（不定期决策过程） n个点相互连接组成一
f1(3) d35 f1(5) 5 0 5
f1(4) d43 f1(3) 1 5 6
f1(2) d24 f1(4) 5 6 11
第三步，由 f1(i)求求出它的解u2 (i) ：
u2 (i)
,由
mu(iin) [di,u(i)
f1 (u (i))]
u(i) 1时，
管理科学与系统工程
例1：段数不定的最短路线问题（不定期决策过程）
n个点相互连接组成一个连通图(右图中n=5),各点标号为1,2,…,n。任意两点 i，j之间的距离(费用)记作 dij 。求任意一点i到点n(靶点)的最短路线(距离)。
5 2753 1 24 6 55 1
2 0.5 3
管理科学与系统工程
例2：无限期决策过程
, 也就说明
{ fm (i)}一致收敛于 f (i) ，{um (i)}一致收敛于 u (i)。
故当这种一出现，计算便可停止。
管理科学与系统工程
例1的求解：(策略迭代法）
解：①第一步，先选取初始策略u1(i) 。如取：
u1(1) 5,u1(2) 4,u1(3) 5,u1(4) 3.
即
,但必需没有回路，每点
min
1i 5
d3
j
f1 (
j)
min[d31

e商务文档

动态规划基本理论推广(函数迭代与策略迭代法)

相关文档推荐：