当前位置：文档之家› [管理学]运筹学动态规划

[管理学]运筹学动态规划

h
11
C1 5
2
8 D1 3
4
A
B1 3
4
6
C2
5
58
3
5 6 D2 2
E1 4 3
F
B2 7 C3 4
1
E2
7
8
D3 3
C4 4
第二步，k=4，状态变量s4可以取三个值D1，D2，D3。于是
f4(D1) mindd((D D11,,EE12))ff55((EE12))min53347 f4(D2) mindd((D D22,,EE12))ff55((EE12))min62345
最优路线为：A→B1 →C2 →D2 →E2 →F
从起点A到终点F的最短h 路程为17。
15
动态规划的最优化原理
表示决策的变量称为决策变量，uk(sk)就表示第k阶段当状态为sk时的决策变量。
决策变量的取值常常限制在一定的范围内，这一范围称为允许决策集合，常用记号Dk(sk)表示第k阶段状态为sk时的允许状态集合。
h
6
基本概念（续三）
各阶段的决策确定后，整个过程各阶段的决策就构成一个决策序列，称为策略，用p1,n{u1(s1), u2(s2), …, un(sn)}表示。此外还常常需要考虑后部子策略pk,n{uk(sk), …, un(sn)}。动态规划要求的就是使整个问题达到最优的策略。
f4(D3) mindd((D D33,,EE12))hff55((EE12))min13435 12
k=3
C1 5
2
8 D1 3
B1 3 4
4
A
6
C2
5
58
3
B2 7 C3 4
5
D2
6 2
1
E1 4 E2 3
F
7
8 D3 3
C4 4
f3
(C1)
mindd((CC11,,
D1) D2)
ff44((DD12))
第七章动态规划
动态规划简介
h
1
多阶段决策过程最优化
多阶段决策过程，是指一类特殊的过程，它们可以按时间顺序分解成若干个相互联系的阶段，称为“时段”，在每个时段都要做决策，全部过程的决策是一个决策序列。多阶段决策问题也称为序贯决策问题。多阶段决策问题的目标是要达到整个活动过程的总体最优。在每个阶段进行决策时不应仅考虑本阶段最优，尤其应考虑对最终目标的影响，从而做出对全局来说最优的决策。动态规划是符合这种要h 求的一种决策方法。2
h
7
基本概念（续四）
状态转移方程：动态规划中一个阶段的状态常常是上一阶段的状态和决策的结果。如果给定了第k阶段的状态sk，和第k阶段的决策 uk(sk)，则第k+1阶段的状态sk+1也就完全确定了，这一关系可用下面的方程表示
sk+1=Tk(sk, uk)
称之为状态转移方程，它表示了由第k阶段到第k+1阶段状态转移的规律
min85
7 5
12
f3
(C2
)
mindd((CC22
, ,
D1) D2)
ff44((DD12))
min5457
10
f3(C3)
mindd
(C3, (C3,
D2) D3)
ff44((DD32))
min3455
8
f3 (C4 )
mindd((CC44
, ,
D2) D3)
f4 fh4
((DD32))
4
4
A
6
C2
5
58
3
5 6 D2 2
E1 4 3
F
B2 7 C3 4
1
E2
7
8
D3 3
C4 4
状态：各阶段开始时的客观条件。表示状态的变
量称为状态变量，常用sk表示第k阶段的状态变量，第虑k的阶状段态所应有该状具态有变“量无的后集h效合性记”为Sk。动态规划5 考
基本概念（续二）
决策：当一个阶段的状态取定了后，就可以作出不同决定（或选择），从而确定下一阶段的状态，这种决定称为决策。
多阶段决策过程图示
决策决策
决策
第第
第
1
2
n
阶阶
阶
段段
段
h
3
动态规划的基本概念
C1 5
2
8 D1 3
4
A
B1 3
4
6
C2
5
58
3
5 6 D2 2
E1 4 3
F
B2 7 C3 4
1
E2
7
8
D3 3
C4 4
1
2
3
4
5
阶段: k=1,2,3,4,5 h
4
基本概念（续一）
C1 5
2
8 D1 3
B1 3
min8455
9
13
k=2
C1 5
2
8 D1 3
B1 3
4
4
A
6
C2
5
58
3
B2 7 C3 4
5
D2
6 2
1
E1 4 E2 3
F
7
8
D3 3
C4 4
f2(B1) mindd((BB11,,CC12))ff33((CC12))min32110213
d(B1,C3) f3(C3)
68
f2(B2) mindd((BB22,,CC32)) ff33((CC32))min8718015
h
8
基本概念（续五）
指标函数：用于衡量决策或策略优劣的数量指标称为指标函数。
阶段指标函数：它通常是指在第k阶段，从状态sk出发，采用决策uk时的效益，记为d(sk, uk)。
过程指标函数：它通常表示在第k阶段时的状态为sk 时，采用后部子策略pk,n的效益值，记为Vk,n(sk, pk,n)。最优指标函数记为fk(sk)，表示第k阶段的状态为sk时，采用了最优后部子策略p*k,n的指标函数值， Vk,n(sk, pk,n)与fk(sk)的关系是
h
10
最短路线问题的解
C1 5
2
8 D1 3
4
A
B1 3
4
6
C2
5
58
3
5 6 D2 2
B2 7 C3 4178Fra bibliotekD3 3
C4 4
E1 4
F
3
E2
动态规划最通常的解法，就是逆序递推的方式求解。
第一步，从k=5开始，状态变量s5可以取两种状态 E1，E2，从它们到终点F的距离分别为4，3。即
f5(E1)=4, f5(E2)=3
d(B2,C4) f3(C4)
79
h
14
k=1
C1 5
2
8 D1 3
B1 3
4
4
A
6
C2
5
58
3
B2 7 C3 4
5
D2
6 2
1
E1 4 E2 3
F
7
8
D3 3
C4 4
f1 (A ) m d d i( (A A n ,,B B 1 2 )) ff2 2 ((B B 1 2 )) m 5 4 i 1 1 n 5 3 17
fk(sk)V k,n(sk,pk *,n)oV p k,n(tsk,pk,n)
h
pk,n
9
特别地，f1(s1)就是从初始状态s1到全过程结束的整体最优函数。
对最短路线问题阶段指标函数就是两点间的距离。后部子过程pk,n的指标函数Vk,n(sk, pk,n)就是在第k阶段位于点sk时到终点的距离，而fk(sk)就是到终点的最短距离。最短路线问题，就是要求f1(A)以及相应的路线。

e商务文档

[管理学]运筹学动态规划

相关文档推荐：

e商务文档

[管理学]运筹学 动态规划

相关文档推荐：

[管理学]运筹学动态规划