当前位置:
文档之家› matlab--算法大全--第04章__动态规划
matlab--算法大全--第04章__动态规划
推至 k = 1,故这种解法称为逆序解法。当然,对某些动态规划问题,也可采用顺序解
法。这时,状态转移方程和递归方程分别为:
xk = Tkr (xk+1, uk ), k = 1,L, n
,
⎪⎧ f0 (x1)= 0或1
⎨ ⎪⎩
f
k
(
xk
+1
)
=
opt {vk (xk+1, uk ) ⊗
uk
∈U
r k
数由 v j ( j = 1,2,L, n) 组成,常见的形式有:
阶段指标之和,即
n
∑ Vk,n (xk , uk , xk+1,L, xn+1 ) = v j (x j , u j ) , j=k
阶段指标之积,即
n
∏ Vk,n (xk , uk , xk+1,L, xn+1 ) = v j (x j , u j ) , j=k
G ,或定义为1 ,即 x7 = 1 。
根据过程演变的具体情况,状态变量可以是离散的或连续的。为了计算的方便有时 将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。
状态变量简称为状态。 2.1.3 决策 当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这 种选择手段称为决策(decision),在最优控制问题中也称为控制(control)。 描述决策的变量称决策变量(decision variable),变量允许取值的范围称允许决策
决策变量简称决策。 2.1.4 策略
决策组成的序列称为策略(policy)。由初始状态 x1 开始的全过程的策略记作 p1n ( x1 ) ,即
p1n ( x1 ) = {u1( x1 ),u2 ( x2 ),L,un ( xn )} . 由第 k 阶段的状态 xk 开始到终止状态的后部子过程的策略记作 pkn ( xk ) ,即
数应具有可分离性,即Vk,n 可表为 xk , uk ,Vk+1, n 的函数,记为
Vk,n (xk , uk , xk+1 ,L, xn+1 ) = ϕk (xk , uk ,Vk+1,n (xk +1 , uk+1 ,L, xn+1 ))
并且函数ϕk 对于变量Vk+1, n 是严格单调的。
过程在第 j 阶段的阶段指标取决于状态 x j 和决策 u j ,用 v j ( x j , u j ) 表示。指标函
集合(set of admissible decisions)。用 uk ( xk ) 表示第 k 阶段处于状态 xk 时的决策变量,
它是 xk 的函数,用Uk ( xk ) 表示 xk 的允许决策集合。在例 1 中 u2 (B1 ) 可取 C1,C2 或 C3 ,
可记作 u2 (1) = 1,2,3 ,而U2 (1) = {1,2,3} 。
+1
(
xk
+1
)
f k−1 (xk )}, k
= 1,L, n
例 3 用 lingo 求解例 1 最短路线问题。
model:
Title Dynamic Programming;
sets:
vertex/A,B1,B2,C1,C2,C3,C4,D1,D2,D3,E1,E2,E3,F1,F2,G/:L;
road(vertex,vertex)/A B1,A B2,B1 C1,B1 C2,B1 c3,B2 C2,B2 C3,B2 C4,
动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广 泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动 态规划方法比用其它方法求解更为方便。
虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时 间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为 多阶段决策过程,也可以用动态规划方法方便地求解。
C1 D1,C1 D2,C2 D1,C2 D2,C3 D2,C3 D3,C4 D2,C4 D3,
D1 E1,D1 E2,D2 E2,D2 E3,D3 E2,D3 E3,
E1 F1,E1 F2,E2 F1,E2 F2,E3 F1,E3 F2,F1 G,F2 G/:D;
endsets
data:
D=5 3 1 3 6 8 7 6
§2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程 一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。 2.1.1 阶段 阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶
段,以便按阶段的次序解优化问题。阶段变量一般用 k = 1,2,L, n 表示。在例 1 中由 A 出发为 k = 1,由 Bi (i = 1,2) 出发为 k = 2 ,依此下去从 Fi (i = 1,2) 出发为 k = 6 ,共 n = 6 个阶段。在例 2 中按照第一、二、三、四季度分为 k = 1,2,3,4 ,共四个阶段。
阶段指标之极大(或极小),即
Vk ,n
(xk
,uk
,
xk+1 ,L,
xn+1 )
=
max(min)v
k≤ j≤n
j
(x
j
,u
j
)
.
这些形式下第 k 到第 j 阶段子过程的指标函数为Vk, j (xk , uk ,L, x j+1 ) 。
根据状态转移方程指标函数 Vk,n 还可以表示为状态 xk 和策略 pkn 的函数,即
pkn ( xk ) = {uk ( xk ),L,un ( xn )} , k = 1,2,L, n − 1. 类似地,由第 k 到第 j 阶段的子过程的策略记作
-57-
pkj ( xk ) = {uk ( xk ),L,u j ( x j )}.
可供选择的策略有一定的范围,称为允许策略集合(set of admissible policies),用
2.1.2 状态 状态(state)表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并 且无后效性,即当某阶段的状态变量给定时,这个阶段以后过程的演变与该阶段以前各 阶段的状态无关。通常还要求状态是直接或间接可以观测的。 描述状态的变量称状态变量(state variable)。变量允许取值的范围称允许状态集合
先建立起动态规划的数学模型:
(i)将过程划分成恰当的阶段。
(ii)正确选择状态变量 xk ,使它既能描述过程的状态,又满足无后效性,同时确
定允许状态集合 X k 。
(iii)选择决策变量 uk ,确定允许决策集合Uk ( xk ) 。
(iv)写出状态转移方程。
(v)确定阶段指标 vk ( xk ,uk ) 及指标函数Vkn 的形式(阶段指标之和,阶段指标之
(1)
在例 1 中状态转移方程为 xk +1 = uk ( xk ) 。
2.1.6. 指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数量指标,它是定义在全过程和所有
后部子过程上的数量函数,用Vk,n (xk , uk , xk+1,L, xn+1 ) 表示, k = 1,2,L, n 。指标函
=
n,L,1
(2)
在上述方程中,当 ⊗ 为加法时取 fn+1(xn+1) = 0 ;当 ⊗ 为乘法时,取 fn+1(xn+1) = 1。动
态规划递归方程是动态规划的最优性原理的基础,即:最优策略的子策略,构成最优子
策略。用状态转移方程(1)和递归方程(2)求解动态规划的过程,是由 k = n + 1 逆
2.1.7 最优策略和最优轨线
使指标函数 Vk,n 达到最优值的策略是从 k 开始的后部子过程的最优策略,记作
pk*n = {uk* ,L, un*}。 p1*n 是全过程的最优策略,简称最优策略(optimal policy)。从初始
状 态 x1(= x1* ) 出 发 , 过 程 按 照 p1*n 和 状 态 转 移 方 程 演 变 所 经 历 的 状 态 序 列
应指出,动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是 一种特殊算法(如线性规划是一种算法)。因而,它不象线性规划那样有一个标准的数 学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。因此,在学习 时,除了要对基本概念和方法正确理解外,应以丰富的想象力去建立模型,用创造性的 技巧去求解。
{x1*
,
x2*
,L,
x* n +1
}
称最优轨线(optimal
trajectory)。
-58-
2.1.8 递归方程 如下方程称为递归方程
⎪⎧ fn+1( xn+1 ) = 0或1
⎨ ⎪⎩
fk (xk )
=
opt {vk ( xk , uk ) ⊗
uk ∈U k ( xk )
f k +1 ( xk +1 )}, k
(set of admissible states)。用 xk 表示第 k 阶段的状态变量,它可以是一个数或一个向量。
用 X k 表示第 k 阶段的允许状态集合。在例 1 中 x2 可取 B1, B2 ,或将 Bi 定义为
i(i = 1,2) ,则 x2 = 1 或 2 ,而 X 2 = {1,2} 。 n 个阶段的决策过程有 n + 1 个状态变量,xn+1 表示 xn 演变的结果。在例 1 中 x7 取
例 1 最短路线问题
图 1 是一个线路网,连线上的数字表示两点之间的距离(或费用)。试寻求一条由 A 到 G 距离最短(或费用最省)的路线。