当前位置：文档之家› 第八章-动态规划

第八章-动态规划

例1 生产与存储问题某车间需要按月在月底供应一定数量的某种部件给总装车间，由于生产条件的变化，该车间在各月份中生产每单位这种部件所需耗费的工时不同，各月份的生产量与当月的月底前，全部要存入仓库以备后用。已知总装车间的各个月份的需求量以及在加工车间生产该部件每单位数量所需工时数如表所示。
f k ( sk ) min [ ak u k f k 1 ( sk u k d k )] k 0,1,...,6 u k Dk ( s k ) f 7 ( s7 ) 0
s1
s2
s3
s4
s5
s6
s7
因要求期终库存量为0，所以s7=0。
因每月的生产是供应下月的需要，
动态规划模型的分类：
以“时间”角度可分成：
离散型和连续型。
从信息确定与否可分成：确定型和随机型。
从目标函数的个数可分成：
单目标型和多目标型。
例2 投资决策问题
某公司现有资金Q亿元，在今后5年内考虑给A、B、C、D四个项目投资，这些项目的投资期限、回报率均不相同，问应如何确定这些项目每年的投资额，使到第五年末拥有资金的本利总额最大。
u5 11 s5
10u5 10 (11 s5 ) 110 10 s5 最优解：u *5 11 s5
当k 4时， f 4 ( s4 ) min (a4u4 f 5 ( s5 ))
u 4 D4 ( s 4 )
min (20u4 110 10 s5 )
月份k 需求量dk
0 0
1 8
2 5
3 3
4 2
5 7
6 4
单位工时ak
11 18 13 17 20 10
设仓库容量限制为H=9，开始库存量为 2，期终库存量为0。需要制定一个半年的逐月生产计划，即满足需要和库容量的限制，又使生产这种部件的总耗费工时数为最少。
多阶段决策过程最优化
多阶段决策过程是指这样一类特殊的活动过程，他们可以按时间顺序分解成若干相互联系的阶段，在每个阶段都要做出决策，全部过程的决策是一个决策序列。
第八章动态规划
多阶段决策过程最优化问题
例1 生产与存储问题某车间需要按月在月底供应一定数量的某种部件给总装车间，由于生产条件的变化，该车间在各月份中生产每单位这种部件所需耗费的工时不同，各月份的生产量与当月的月底前，全部要存入仓库以备后用。已知总装车间的各个月份的需求量以及在加工车间生产该部件每单位数量所需工时数如表所示。
动态规划的基本概念 P163
阶段状态变量
决策变量
指标函数状态方程
1 阶段（Stage）
将所给问题的过程，按时间或空间特征分解成若干个相互联系的阶段，以便按次序去求每阶段的解，常用k表示阶段变量。
2 状态（State）
各阶段开始时的客观条件叫做状态。描述各阶段状态的变量称为状态变量，常用sk表示第k阶段的状态变量，状态变量的取值集合称为状态集合，用Sk表示。
各个阶段决策确定后，整个问题的决策序列就构成一个策略，用 p1,n(d1,d2,…dn)表示。对每个实际问题，可供选择的策略有一定的范围，称为允许策略集合，用P表示。使整个问题达到最优效果的策略就是最优策略。
4 状态转移方程动态规划中本阶段的状态往往是上一阶段的决策结果。如果给定了第k段的状态Sk ，本阶段决策为Uk(Sk) ，则第k+1段的状态 Sk+1由公式： Sk+1=Lk（ Sk， Uk）确定，称为状态转移方程。
d 3 s2 u 2 d 2 H 3 s2 u 2 - 5 9 得8 s2 u 2 14 s2 又 u 2 0， max[ 0,8 s2 ] u 2 14 s2
f 2 ( s2 ) 4u2 17 s2 329 4(14 s2 ) 17 s2 329 273 13 s2 最优解：u 14 s2
例8-3 设备更新问题
企业在使用设备时都要考虑设备的更新问题，因为设备越陈旧所需的维修费用越多，但购买新设备则要一次性支出较大的费用。
现在某企业要决定一台设备未来8 年的更新计划，已预测到第j年购买设备的价格为Kj，Gj为设备经过j年后的残值，Cj为设备连续使用j-1年后在第j年的维修费用 (j=1,2…8)，问应在哪年更新设备可使总费用最小。
当k 3时， f 3 ( s3 ) min [a3u3 f 4 ( s4 )]
u3 D3 ( s3 )
min [a3u3 f 4 ( s3 u3 d 3 )]
u3D3 ( s3 ) u3D3 ( s3 ) u3D3 ( s3 )
min (17u3 220 20( s3 u3 d 3 )) min (3u3 20 s3 280 )
5 指标函数
用于衡量所选定策略优劣的数量指标称为指标函数。最优指标函数记为fk(Sk)。
多阶段决策过程
决策u1 决策u2 决策uk 决策un 状态阶段1 状态阶段2 状态... 状态阶段k 状态... 状态阶段n 状态 s
s1
s2
s3
sk
sk+1
xn
n+1
贝尔曼(Ballman)最优化原理
C3
4
D3
5
E2
2
F
1
B2 4 A 3 2
2
C2 5 B1 4 3
3
D2 3 C1 3
4
E1 2 D1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
1 8 7 2
6 5 8
1 5
3 2
A
9
7 6 7
8 9
2
6 2 1
3
4 3 B
5 3
3
3
动态规划的缺点：
k 1
• 状态转移方程： sk 1 sk uk d k
d k sk H
允许决策集合Dk(sk)：
k 0,1,2,..., 6
Dk (sk ) {uk : uk 0, d k 1 sk uk d k H }
生产与存储问题
• 最优值函数fk(sk)：在第k段开始的库存量为sk时，从第k段至第6段所生产部件的最小累计工时数。 • 逆推关系式：
月份k 需求量dk
0 0
1 8
2 5
3 3
4 2
5 7
6 4
单位工时ak
11 18 13 17 20 10
设仓库容量限制为H=9，开始库存量为 2，期终库存量为0。需要制定一个半年的逐月生产计划，即满足需要和库容量的限制，又使生产这种部件的总耗费工时数为最少。
• • • •
解：按月份划分阶段K。状态变量Sk：第k段开始时部件库存量。决策变量uk：第k段内的部件生产量。 6 全过程目标管理函数 f1 uk
* 2
当k 1时，
生产与存储问题 f1 ( s1 ) min [ a1u1 f 2 ( s2 )]
u1D1 ( s1 ) u1D1 ( s1 ) u1D1 ( s1 ) u1D1 ( s1 )
min [ a1u1 f 2 ( s1 u1 d1 )] min [18u1 273 13( s1 u1 8)] min (5u1 13 s1 377 ) 13 s1 u1 17 s1 f1 ( s1 ) 442 18 s1 最优解：u 13 s1
u 4 D4 ( s4 ) u 4 D4 ( s4 ) u 4 D4 ( s4 )
min (20u4 110 10 ( s4 u4 2)) min (10u4 10 s4 130 )
d 5 s4 u 4 d 4 H 7 s4 u 4 - 2 9 得9 s4 u4 11 s4 又 u4 0， max[ 0,9 s4 ] u4 11 s4 由d k sk H , 知s4 9 D4 ( s4 )为： 9 s 4 u 4 11 s 4 f 4 ( s4 ) 10 (9 s4 ) 10 s4 130 220 20 s4 最优解：u *4 9 s4
动态规划中的状态具有如下性质：
当某阶段状态给定以后，在这阶段以后的过程的发展不受这段以前各段状态的影响。即：过程的过去历史只能通过当前状态去影响它未来的发展，这称为无后效性。如果所选定的变量不具备无后效性，就不能作为状态变量来构造动态规划模型。
3 决策（Decision）
当各段的状态确定以后，就可以做出不同的决定（或选择），从而确定下一阶段的状态，这种决定称为决策。决策变量用Uk(Sk)表示。
* 1
当k 0时， f 0 ( s0 ) min [ a0u0 f1 ( s1 )]
u 0 D0 ( s0 )
min [ a0u0 f1 ( s0 u0 d 0 )]
u 0 D0 ( s0 ) u 0 D0 ( s0 ) u 0 D0 ( s0 )
min [11u0 442 18( s0 u0 0)] min ( 7u0 18 s0 442 ) 8 s0 u 0 9 s0 f 0 ( s0 ) 379 11s0 最优解：u 9 s0
动态规划是解决多阶段决策过程最优化问题的一种方法。由美国数学家贝尔曼（Ballman）等人在20世纪50年代提出。他们针对多阶段决策问题的特点，提出了解决这类问题的“最优化原理”，并成功地解决了生产管理、工程技术等方面的许多实际问题。

e商务文档

第八章-动态规划

相关文档推荐：