当前位置：文档之家› matlab--算法大全--第04章__动态规划

matlab--算法大全--第04章__动态规划

推至 k = 1，故这种解法称为逆序解法。当然，对某些动态规划问题，也可采用顺序解
法。这时，状态转移方程和递归方程分别为：
xk = Tkr (xk+1, uk ), k = 1,L, n
，
⎪⎧ f0 (x1）= 0或1
⎨ ⎪⎩
f
k
(
xk
+1
)
=
opt {vk (xk+1, uk ) ⊗
uk
∈U
r k
数由 v j ( j = 1,2,L, n) 组成，常见的形式有：
阶段指标之和，即
n
∑ Vk,n (xk , uk , xk+1,L, xn+1 ) = v j (x j , u j ) ， j=k
阶段指标之积，即
n
∏ Vk,n (xk , uk , xk+1,L, xn+1 ) = v j (x j , u j ) ， j=k
G ，或定义为1 ，即 x7 = 1 。
根据过程演变的具体情况，状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化；为了分析的方便有时又将离散变量视为连续的。
状态变量简称为状态。 2.1.3 决策当一个阶段的状态确定后，可以作出各种选择从而演变到下一阶段的某个状态，这种选择手段称为决策（decision），在最优控制问题中也称为控制（control）。描述决策的变量称决策变量（decision variable），变量允许取值的范围称允许决策
决策变量简称决策。 2.1.4 策略
决策组成的序列称为策略（policy）。由初始状态 x1 开始的全过程的策略记作 p1n ( x1 ) ，即
p1n ( x1 ) = {u1( x1 ),u2 ( x2 ),L,un ( xn )} . 由第 k 阶段的状态 xk 开始到终止状态的后部子过程的策略记作 pkn ( xk ) ，即
数应具有可分离性，即Vk,n 可表为 xk , uk ,Vk+1, n 的函数，记为
Vk,n (xk , uk , xk+1 ,L, xn+1 ) = ϕk (xk , uk ,Vk+1,n (xk +1 , uk+1 ,L, xn+1 ))
并且函数ϕk 对于变量Vk+1, n 是严格单调的。
过程在第 j 阶段的阶段指标取决于状态 x j 和决策 u j ，用 v j ( x j , u j ) 表示。指标函
集合（set of admissible decisions）。用 uk ( xk ) 表示第 k 阶段处于状态 xk 时的决策变量，
它是 xk 的函数，用Uk ( xk ) 表示 xk 的允许决策集合。在例 1 中 u2 (B1 ) 可取 C1,C2 或 C3 ，
可记作 u2 (1) = 1,2,3 ，而U2 (1) = {1,2,3} 。
+1
(
xk
+1
)
f k−1 (xk )}, k
= 1,L, n
例 3 用 lingo 求解例 1 最短路线问题。
model:
Title Dynamic Programming;
sets:
vertex/A,B1,B2,C1,C2,C3,C4,D1,D2,D3,E1,E2,E3,F1,F2,G/:L;
road(vertex,vertex)/A B1,A B2,B1 C1,B1 C2,B1 c3,B2 C2,B2 C3,B2 C4,
动态规划问世以来，在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题，用动态规划方法比用其它方法求解更为方便。
虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题，但是一些与时间无关的静态规划（如线性规划、非线性规划），只要人为地引进时间因素，把它视为多阶段决策过程，也可以用动态规划方法方便地求解。
C1 D1,C1 D2,C2 D1,C2 D2,C3 D2,C3 D3,C4 D2,C4 D3,
D1 E1,D1 E2,D2 E2,D2 E3,D3 E2,D3 E3,
E1 F1,E1 F2,E2 F1,E2 F2,E3 F1,E3 F2,F1 G,F2 G/:D;
endsets
data:
D=5 3 1 3 6 8 7 6
§2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。 2.1.1 阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶
段，以便按阶段的次序解优化问题。阶段变量一般用 k = 1,2,L, n 表示。在例 1 中由 A 出发为 k = 1，由 Bi (i = 1,2) 出发为 k = 2 ，依此下去从 Fi (i = 1,2) 出发为 k = 6 ，共 n = 6 个阶段。在例 2 中按照第一、二、三、四季度分为 k = 1,2,3,4 ，共四个阶段。
阶段指标之极大（或极小），即
Vk ,n
(xk
,uk
,
xk+1 ,L,
xn+1 )
=
max(min)v
k≤ j≤n
j
(x
j
,u
j
)
.
这些形式下第 k 到第 j 阶段子过程的指标函数为Vk, j (xk , uk ,L, x j+1 ) 。
根据状态转移方程指标函数 Vk,n 还可以表示为状态 xk 和策略 pkn 的函数，即
pkn ( xk ) = {uk ( xk ),L,un ( xn )} ， k = 1,2,L, n − 1. 类似地，由第 k 到第 j 阶段的子过程的策略记作
-57-
pkj ( xk ) = {uk ( xk ),L,u j ( x j )}.
可供选择的策略有一定的范围，称为允许策略集合(set of admissible policies)，用
2.1.2 状态状态（state）表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性，即当某阶段的状态变量给定时，这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量（state variable）。变量允许取值的范围称允许状态集合
先建立起动态规划的数学模型：
（i）将过程划分成恰当的阶段。
（ii）正确选择状态变量 xk ，使它既能描述过程的状态，又满足无后效性，同时确
定允许状态集合 X k 。
（iii）选择决策变量 uk ，确定允许决策集合Uk ( xk ) 。
（iv）写出状态转移方程。
（v）确定阶段指标 vk ( xk ,uk ) 及指标函数Vkn 的形式（阶段指标之和，阶段指标之
（1）
在例 1 中状态转移方程为 xk +1 = uk ( xk ) 。
2.1.6. 指标函数和最优值函数指标函数(objective function)是衡量过程优劣的数量指标，它是定义在全过程和所有
后部子过程上的数量函数，用Vk,n (xk , uk , xk+1,L, xn+1 ) 表示， k = 1,2,L, n 。指标函
=
n,L,1
（2）
在上述方程中，当 ⊗ 为加法时取 fn+1(xn+1) = 0 ；当 ⊗ 为乘法时，取 fn+1(xn+1) = 1。动
态规划递归方程是动态规划的最优性原理的基础，即：最优策略的子策略，构成最优子
策略。用状态转移方程（1）和递归方程（2）求解动态规划的过程，是由 k = n + 1 逆
2.1.7 最优策略和最优轨线
使指标函数 Vk,n 达到最优值的策略是从 k 开始的后部子过程的最优策略，记作
pk*n = {uk* ,L, un*}。 p1*n 是全过程的最优策略，简称最优策略（optimal policy）。从初始
状态 x1(= x1* ) 出发，过程按照 p1*n 和状态转移方程演变所经历的状态序列
应指出，动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种特殊算法（如线性规划是一种算法）。因而，它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体分析处理。因此，在学习时，除了要对基本概念和方法正确理解外，应以丰富的想象力去建立模型，用创造性的技巧去求解。
{x1*
,
x2*
,L,
x* n +1

}
称最优轨线（optimal
trajectory）。
-58-
2.1.8 递归方程如下方程称为递归方程
⎪⎧ fn+1( xn+1 ) = 0或1
⎨ ⎪⎩
fk (xk )
=
opt {vk ( xk , uk ) ⊗
uk ∈U k ( xk )
f k +1 ( xk +1 )}, k
(set of admissible states)。用 xk 表示第 k 阶段的状态变量，它可以是一个数或一个向量。
用 X k 表示第 k 阶段的允许状态集合。在例 1 中 x2 可取 B1, B2 ，或将 Bi 定义为
i(i = 1,2) ，则 x2 = 1 或 2 ，而 X 2 = {1,2} 。 n 个阶段的决策过程有 n + 1 个状态变量，xn+1 表示 xn 演变的结果。在例 1 中 x7 取
例 1 最短路线问题
图 1 是一个线路网，连线上的数字表示两点之间的距离（或费用）。试寻求一条由 A 到 G 距离最短（或费用最省）的路线。

e商务文档

matlab--算法大全--第04章__动态规划

相关文档推荐：