当前位置:文档之家› 动态规划的基本原理和基本应用

动态规划的基本原理和基本应用

v1 →v2 → v5 → v8 →v10 ,最短距离是27.
13
显然,当组成交通网络的节点很多时,用穷举 法求最优路线的计算工作量将会十分庞大,而且其 中包含着许多重复计算.
第二种方法即所谓“局部最优路径”法,是 说某人从k出发,他并不顾及全线是否最短,只是选 择当前最短途径,“逢近便走”,错误地以为局部 最优会致整体最优,在这种想法指导下,所取决策
状态:各阶段开始时的客观条件,第k阶段的状态常用状态
变量 xk 表示,状态变量取值的集合称为状态集合,用 X k
表示。
例如,例中, X1 { A}, X 2 {B1, B2 }.
23






3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
同样,当阶段3上所有可能状态的最优后继过程都已求得后,便可
以开始考虑阶段2上所有可能状态的最优决策和最优后继过程,如v2的 最优决策是到v5,最优路线是
17
(27)
v1
(22)
6
v2
8
5
11
(16)
v5
6
5
(10)
6
9 (22) 8
(15)5
v8
10
v3 7
v6
9
14
v10
7 57
8 3
v9
8
(21)v4
最优指标函数:表示从第k阶段状态为 xk 时采用最佳策略 pk*n 到过程终止时的最佳效益。记为
fk ( xk ) Vkn ( xk , pk*n ) opt Vkn ( xk , pkn )
27
pknU kn ( xk )






3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
第9章 动态规划的 基本原理和基本应用
1
动态规划是解决多阶段决策过程最优 化问题的一种方法。由美国数学家贝尔曼 (Bellman)等人在20世纪50年代提出。他 们针对多阶段决策问题的特点,提出了解决 这类问题的“最优化原理”,并成功地解决 了生产管理 、 工程技术等方面的许多实际 问题。
2
动态规划是现代企业管理中的一 种重要决策方法,可用于最优路径问 题、资源分配问题、生产计划和库存 问题、投资问题、装载问题、排序问 题及生产过程的最优控制等。
xk1 Tk ( xk , uk ) 表示。
25






3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
第1阶段 第2阶段 第3阶段
第4阶段 第5阶段
u3 (C2 ) D1
U2 (B1 ) {C1 , C2 , C3 }
9
例2
么这个设问第题i个用周式期子的写生出产来量就为是x:i,求周x期1,x末2,的…存,x6储,量满为足u条i,件那: x1=5+u1 x2+u1=5+u2 x3+u2=10+u3 x4+u3=30+u4 x5+u4=50+u5 x6+u5=8 0 xi 30, 0 uj , i=1,2,…,6 ; j=1,2, …,5
v7 (17)
(14)
1
2
3
4
v2→v5→v8→v10 ,最短距离是22…依此类推,最后可以得到从初始状 态v1的最优决策是到v2最优路线是v1→v2→v5→v8→v10 ,全程的最短距
离是27。图1中红线表示最优路线,每点上圆括号内的数字表示该点到 终点的最短路距离。
18
综上所述可见,全枚举法虽可找出最优方案,但不是个好算 法,局部最优法则完全是个错误方法,只有动态规划方法属 较科学有效的算法。它的基本思想是,把一个比较复杂的问 题分解为一系列同类型的更易求解的子问题,便于应用计算 机。整个求解过程分为两个阶段,先按整体最优的思想逆序 地求出各个子问题中所有可能状态的最优决策与最优路线值, 然后再顺序地求出整个问题的最优策略和最优路线。计算过 程中,系统地删去了所有中间非最优的方案组合,从而使计 算工作量比穷举法大为减少。
为了找出所有可能状态的最优后继过程, 动态规划方法是从过程的最后阶段开始考虑,然 后逆着实际过程发展的顺序,逐段向前递推计算 直至始点。
15
5 9
v1
7
6
v2
8
11
6 8
v3 7
57
8 v4
v5
6
5
5
(10)
v8
10
v6
9
14
v10
8 3
v7
v9
(14)
1
2
3
4
具体说,此问题先从v10开始,因为v10是终点。再无后继过程,故可以 接着考虑第4阶段上所有可能状态v8 ,v9的最优后续过程.因为从v8 ,v9 到v10的路线是唯一的,所以v8 ,v9 的最优决策和最优后继过程就是到 v10 ,它们的最短距离分别是10和14。
接着考虑阶段3上可能的状态v5 ,v6 , v7 到v10的最优决策和最优 后继过程.在状态V5上,虽然到v8是6,到v9是5,但是
16
5 9
v1
7
6
(16)
v2
8
11
6 8
v5
6
5
(15)5
(10)
v8
10
v3 7
v6
9
14
v10
57
8 v4
8 3
v7 (17)
v9
(14)
1
2
3
4
综 合 考 虑 后 继 过 程 整 体 最 优 , 取 最 优 决 策 是 到 v8, 最 优 后 同理,状态v6的最优决策是至v8 ;v7 的最优决策是到v9 。
6
t
使 S = f ( xi ) 16 u j =
i 1
j 1
6
f (xi ) 16(5x1 4x2 3x3 2x4 x5 185 )
i 1
为最小,其中
f
(xi )
100xi ,0 120xi
xi 15 300,15 xi
30
10
例3 运输网络问题:如图1所示的运输网络, 点间连线上的数字表示两地距离(也可是运费、
为了说明动态规划的基本思想方法和特点,下面以 图1所示为例讨论求最短路问题的方法。
第一种方法称做全枚举法或穷举法,它的基本思 想是列举出所有可能发生的方案和结果,再对它们一
一进行比较,求出最优方案。这里从v1到v10的路程可
以分为4个阶段。第一二段的走法有三种,第三段的 走法有两种,第四段的走法仅一种,因此共有 3×3×2×1=18条可能的路线,54次加法算出各条路 线的距离,最后进行17次两两比较,可知最优路线是
7
例2 生产和存储控制问题
某工厂生产某种季节性商品,需要作下一 年度的生产计划,假定这种商品的生产周期需 要两个月,全年共有6个生产周期,需要作出 各个周期中的生产计划。
设已知各周期对该商品的需要量如下表所示: 周期 1 2 3 4 5 6
需求量 5 5 10 30 50 8
8
例2
假设这个工厂根据需要可以日夜两班生产或只是日 班生产,当开足日班时,每一个生产周期能生产商品15 个单位,每生产一个单位商品的成本为100元。当开足 夜班时,每一生产周期能生产的商品也是15个,但是由 于增加了辅助性生产设备和生产辅助费用,每生产一单 位商品的成本为120元。由于生产能力的限制,可以在 需求淡季多生产一些商品储存起来以备需求旺季使用, 但存储商品是需要存储费用的,假设每单位商品存储一 周期需要16元,已知开始时存储为零,年终也不存储商 品备下年使用,问应该如何作生产和存储计划,才能使 总的生产和存储费用最小?
19
动态规划与倒推求解:
拾火柴游戏: 桌子上放30根火柴, 每人一次 可拾起1-3根, 谁拾起最后一根火柴谁输, 如果你先选择, 如何保证你能赢得游戏? 29-25-21-17-13-9-5-1
20
动态规划是解决多阶段决策问题的一种方法。所谓多阶段 决策问题是指这样的决策问题:其过程可分为若干个相互联 系的阶段,每一阶段都对应着一组可供选择的决策,每一决
3
9.1多阶段决策过程最优化问题举例
多阶段决策过程最优化 多阶段决策过程是指这样一类特殊的活动
过程,他们可以按时间顺序分解成若干相互联 系的阶段,在每个阶段都要做出决策,全部过 程的决策是一个决策序列,所以多阶段决策问 题也称为序贯决策问题。
4
例1 多阶段资源分配问题
设有数量为x的某种资源,将它投入两种 生产方式A和B中:以数量y投入生产方式A,剩 下的量投入生产方式B,则可得到收入 g(y)+h(x-y),其中g(y)和h(y)是已知函数,并且 g(0)=h(0)=0;同时假设以y与x-y分别投入两种 生产方式A,B后可以回收再生产,回收率分别 为a与b。试求进行n个阶段后的最大总收入。
相关主题