当前位置：文档之家› 第二节动态规划的基本概念和基本思路

第二节动态规划的基本概念和基本思路

k k
边界条件
gk ( sk , uk ))
f k 1 ( sk 1 )
（7-7）
f n1 ( sn1 ) f k ( sk ) opt u U
k k
gk ( sk , uk )) f k 1 ( sk 1 )
（7-8）
它表示第k阶段处于状态 sk 且所做决策为 uk 时的阶段数量效果。例如，设备分配问题的阶段指标函数 gk 是指第k阶段（即第k周）的收益。
过程指标函数：
Rk ( sk , uk ) --- 第k子过程的过程指标函数
例如，最短路问题中， Rk表示从第k阶段到终点的距离。设备分配问题中，Rk 表示从第k周到最后一周的总收益。
第k阶段的初始状态
第k阶段的决策值递推关系式：
f k ( sk ) opt
uk U k
对第k阶段所做的决策
f k 1 ( sk 1 )
gk ( sk , uk ))
第k阶段可供选择的决策范围第k+1阶段到第n阶段的最优值
第k阶段到第n阶段的最优值
动态规划基本方程
f n1 ( sn1 ) 0 f k ( sk ) opt u U
uk ( sk )表示：对初始状态为 sk 的第k 个阶段做出的决策为 uk .
因此，决策变量 uk 是状态变量 sk 的函数．决策都是在一定的范围内进行的，称为允许决策集合，记为 Uk ( sk ).
还以最短线路问题为例: 第一阶段可选的方案有 A B1和 A B2 即决策变量 u1 ( A) B1 或 u1 ( A) B2 允许决策集合为 U1 ( A) {B1 ,B2 }
4、策略和允许策略集合策略就是决策序列．策略有全过程策略和k 部子策略之分．全过程策略包含n 各阶段的全部过程,表示为
p1,n {u1 , u2 ,L , un }
k 部子策略是指从第k 阶段到第n 阶段的决策
序列，记为
pk ,n {uk , uk 1 ,L , un }
决策都是在一定的范围内进行的，称为允许策略集合，记为 P1,n .
pk
C1
6
5
D1
3
E
4
D2
3 1 2 s3 C1 p3 (C1 ) { D1，D2 } R3 (C1 , D1 ) 8
R (C , D )=10
f 3 (C1 ) opt R3 (C1 , p3 ) 8
p3
s3 C2
当 k 1 且 s1 取值唯一时
有些问题的状态转移方程不能用数学式子表达。
6、指标函数
指标函数是定义在全过程或各子过程或各阶段上的数量函数. 用来衡量决策效果.
对于不同的问题，指标函数可以是诸如费用、成本、利润、时间等等。
例如最短路问题的指标就是距离.
设备分配问题的指标是收益.
阶段指标函数（也称阶段效应）：
gk ( sk , uk ) --- 第k段指标函数
Rk ( sk , uk ) gk ( sk , xk )
i k n
一般来说，过程指标函数和阶段指标函数之间具有某种运算关系：
Rk gk gk +1 L gn
常见的是如下两种：
Rk gk
i k n
Rk gk
i 1
n
7、最优解
f k ( sk ) opt Rk ( sk , pk ( sk ))
A B2 C2 D1 E
简言之，一个最优策略的子策略总是最优的.
Hale Waihona Puke 根据最优化原理，可以把多阶段决策问题看成是一个连续递推的过程. 一般采取从后向前推，即逆序递推法.
其关键在于建立递推关系式.这种递推关系式也称为动态规划的基本方程。 2.动态规划基本方程
动态规划的基本方程包括边界条件和递推公式两部分。
7.2 动态规划的基本概念和求解思路
7.2.1 动态规划的基本概念
1、阶段和阶段变量是指一个问题需要做出决策的步数．用阶段变量 k 来表示．最短线路问题: 四阶段决策问题
A BC D E
设备分配问题：四阶段决策问题
第1周第2周第3周第4周
２、状态、状态变量和可能状态集状态表示每阶段开始所处的自然状况或客观条件．用状态变量 sk 来表示．如最短线路问题:
5、状态转移方程对于无后效性的多阶段决策过程：第k 阶段初的状态为 sk u 对第k 阶段所做的决策为 k
第k +1阶段初的状态 sk 1 Tk ( sk , uk ( sk ))
状态转移方程
例如，设备分配问题的状态转移方程为
sk 1 9 1 sk xk ( k 2, 3, 4) 10 10
u1 ~ un
sk 1 Tk ( sk , uk ) sk Sk uk U k k 1, 2, L , n
（7-5）
7.2.2
动态规划的最优化原理和基本方程
1. 最优化原理动态规划的最优化原理: 一个过程的最优策略具有这样的性质：对于最优策略中的任意状态而言，无论其过去的状态和决策如何，下余的诸决策必构成一个最优子策略.
，则 s1 =A. 第一阶段的状态为 A 第二阶段的状态有 B1 , B2 , 则 s2 B1 或 s2 B2 .
每阶段的状态有一个可供选择的范围，称为可能状态集，用大写的Sk 表示．
S1 { A}
S2 { B1 , B2 }
小 sk 是大 Sk 的一个元素．
３、决策、决策变量和允许策略集合每个阶段都有可供选择的多种方案，选择方案的过程称为决策．用决策变量 uk ( sk ) 来表示．
f1 ( s1 ) opt
p1
R1 ( s1 , p1 ( s1 ))
称为整个问题的最优值。最优值及其对应的最优策略统称为问题的最优解。
8、多阶段决策问题的数学模型
综上所述，具有无后效性的多阶段决策问题的数学模型如下：
f opt R R( s1 , u1 , s2 , u2 , L , sn , un )

e商务文档

第二节动态规划的基本概念和基本思路

相关文档推荐：

e商务文档

第二节 动态规划的基本概念和基本思路

相关文档推荐：

第二节动态规划的基本概念和基本思路