当前位置：文档之家› 管理运筹学动态规划

管理运筹学动态规划

E3 6
=d5(s5,u5)+ V6, 6
1
2
3
4
5
6
• 过程和它的任意子过程的指标是它所包含的各阶段的指标的乘积。即
可改写成 Vk, n(sk ,uk ,…, sn+1) = vk(sk ,uk) Vk+1, n(sk+1, uk+1, …, sn+1)
最优值函数：指标函数的最优值，记为 fk (sk)。表示从第 k 阶段
用动态规划解决多阶段决策问题; 重点掌握动态规划模型结构、逆序算法原理、资源分
配问题、生产与存储问题. 难点为动态规划中状态变量、基本方程等的确定.
动态规划产生于20世纪50年代, 美国数学家贝尔曼(R. Bellman)等人提出.
动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种算法.必须对具体问题进行具体分析,运用动态规划的原理和方法,划分阶段,建立相应的模型,然后再去求解.
动态规划是用来解决多阶段决策过程最优化的一种数量方法.其特点在于,它可以把一个多阶段决策问题变换为几个相互联系的同类型单阶段最优化问题,从而一个一个地去解决.
1. 多阶段决策过程及实例
多阶段决策过程（序贯决策过程）
决策
决策
决策
状态
状态
状态状态
状态
1
2
…
n
收益
收益
收益
2 多阶段决策问题——举例
55 F1 4
E2 2
G
6 F2 3
D3
3 3
E3 6
4
5
6
4、多阶段决策过程
在每个阶段进行决策控制过程的发展；
其发展是通过一系列的状态转移来实现的；
系统当前的状态和决策
系统过去的历史状态和决策
状态转移方程的一般形式 1
5 B1 3
s2=T1(s1, u1)
s3=sT12=(sAs1,2,u=u11?,=sB2,1u,2)
多阶段决策问题的典型例子
1、生产决策问题
企业在生产过程中，由于需求是随时间变化的，因此企业为了获得全年的最佳生产效益，就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。
2、机器负荷分配问题
产品的年产量
某种机器
高负荷 g=g(u1)
投入生产的机器数量
机器的年完好率为a ，0<a<1
A3
6 8
B2 7
6
C1 6
8 C2 3
5
C3 3 3 8
sk+1=Tk(s1, u1, s2, u2 ,, sk, uk) C4 4
2
D1 E1 3
2
D2
1 2
55 F1 4
E2 2
G
6 F2 3
D3
3 3
E3 6
1
2
3
4
5
6
图示如下：
u1
s1
s2
1
u2 s3
2
sk
uk sk+1 k
能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程，即具有无后效性的多阶段决策过程。
1
5 B1 3
A3
6
8
B2 7
6
C1 6
8
C2 3 5
C3 3 3 8
C4 4
2 D1
2
D2 1 2 3
D3 3
E1 3
5 F1 4
5 E2 2
G
6 E3 6
F2
3
1
2
3
4
5
6
（穷举法48条路线
13 1
5 B1 3
A3
6
18
8 B2 7
16 6
1
2
13
C1 6 10 8
C2 3 95 C3 3
3 8 C4 4
E2 2
G
6 F2 3
D3
3 3
E3 6
1
2
3
4
5
6
多阶段决策过程的数学模型: (具有无后效性, 以和式为例 )
opt
{u1, u2,…,un}
sk+1=Tk(sk, uk)
s.t. skSk
ukDk
k=1,2, …,n
小结:
无后效性
动态规划本质上是多阶段决策过程;
概念:阶段变量 k﹑状态变量 sk﹑决策变量 uk ;
不包含时间因素的静态决策问题（一次决策问题）也可以适当地引入阶段的概念，作为多阶段的决策问题用动态规划方法来解决。
4、最短路问题（引例）：给定一个交通网络图如
前，其中两点之间的数字表示距离（或花费），试求从A点到G点的最短距离（总费用最小）。
动态规划的基本概念
1. 阶段 2. 状态 3. 决策 4. 策略 5. 状态转移方程 6. 指标函数和最优值函数
量，常用 k 表示。
2、状态、状态变量
每个阶段开始所处的自然状态或客观条件,描述过程的
状况,通常一个阶段有若干个状态.
描述过程状态的变量称为状态变量，它可用一个数、一组数或一向量来描述, 常用 sk 表示第 k 阶段的状态.
1 C1 6
5 B1 3
A3
6 8
B2 7
8 C2 3
5
C3 3 3
6
8
C4 4
uk,Vk+1, n 的函数。
2
D1 E1 3
2
D2
1 2
55 F1 4
E2 2
G
6 F2 3
D3
3 3
E3 6
1
234Fra bibliotek56
常见的指标函数的形式是：
• 过程和它的任一子过程的指标是它所包含的各阶
段的指标和。即
无后效性的结果
其中V(sj, uj ) 表示第 j 阶段的阶段指标。这时上
式可写成
1 2
55 F1 4
E2 2
G
6 F2 3
D3
3 3
E3 6
1
2
3
4
5
6
§1 动态规划的研究对象和引例
动态系统：
包含随时间变化的因素和变量的系统。动态决策问题：
系统所处的状态和时刻是进行决策的重要因素. 找到不同时刻的最优决策以及整个过程的最优策略.
状态
决策状态
1
决策
状态状态
2
决策 n
阶段
全过程的最优
12 3
7
2 D1
2 6 D2 1
2 3 D3 3 8
7
E1 3
5 5
F1 4
5 E2 2
G
6 E3 6
F2 3 3
9
4
5
6
51
5 B1 3
A3
6
8
B2 7
36
1
2
6
C1 6 88 C2 3 10 5 C3 3
3 8 C4 4
9 3
11 2
D1
13 2 D2 1
2 3 D3 3
13
13
E1 3 17
55 F1 E2 2
4
G
F1 G，f6(F1)=4 F2 G，f6(F2)=3
6 F2 3
D3
3 3
E3
6
k=5，出发点有 E1, E2, E3
C4 4
u5(E1)=F1
E1F1G
u5(E2)=F2
E2F2G
u5(E3)=F2 E3F2G
1 C1 6
Vk, n(sk ,uk ,…, sn+1) = vk(sk ,uk)+ Vk+1, n
5 B1 3
A3
6 8
B2 7
8 C2 3
5
C3 3 3
V5, 6= V5, 6 (s5, u5, V6, 6 )
6
8
C4 4
2
D1 E1 3
2
D2
1 2
55 F1 4
E2 2
G
6 F2 3
D3
3 3
的状态 sk 到第 n 阶段的终止状态的采取最优策略所得到的指标函数值。即
全过程的最优值函数记为 f1 (s1)
f6 (s6)=？
f6 (F1)=4 f6 (F2)=3
f5 (E1)=？
1 C1 6
5 B1 3
A3
6 8
B2 7
8 C2 3
5
C3 3 3
6
8
C4 4
2
D1 E1 3
2
D2
1 2
55 F1 4
sk+1=Tk(sk, uk)
6、策略
按顺序排列的决策组成的集合。由过程的第k 终止状态为止的过程，称为问题的后部子过程（k 子过程）。
由每段的决策按顺序排列组成的决策函数序列称为
k 子过程策略。简称
1 C1 6
子策略，记为pk,n(sk)，5 B1 3
即，
A3
6 8
Pk,n(sk)={uk(sk),uk+1(sk+1), ,un(sn)}
5、无后效性或马尔可夫性
如果某阶段状态给定后，则在这个阶段以后过程的发展不受这个阶段以前各阶段状态的影响；过程的过去历史只能通过当前的状态去影响它未来的发展。
构造动态规划模型时，要充分注意状态变量是否满足无后效性的要求；
状态转移方程？
状态具有无后效性的多阶段决策过程的状态转移方程如下：
s2=T1(s1, u1) s3=T2(s2, u2)

e商务文档

管理运筹学动态规划

相关文档推荐：