第八章-动态规划
例1 生产与存储问题 某车间需要按月在月底供应一定数 量的某种部件给总装车间,由于生产条件 的变化,该车间在各月份中生产每单位这 种部件所需耗费的工时不同,各月份的生 产量与当月的月底前,全部要存入仓库以 备后用。已知总装车间的各个月份的需求 量以及在加工车间生产该部件每单位数量 所需工时数如表所示。
f k ( sk ) min [ ak u k f k 1 ( sk u k d k )] k 0,1,...,6 u k Dk ( s k ) f 7 ( s7 ) 0
s1
s2
s3
s4
s5
s6
s7
因要求期终库存量为0,所以s7=0。
因每月的生产是供应下月的需要,
动态规划模型的分类:
以“时间”角度可分成:
离散型和连续型。
从信息确定与否可分成: 确定型和随机型。
从目标函数的个数可分成:
单目标型和多目标型。
例2 投资决策问题
某公司现有资金Q亿元,在今 后5年内考虑给A、B、C、D四个项 目投资,这些项目的投资期限、回 报率均不相同,问应如何确定这些 项目每年的投资额,使到第五年末 拥有资金的本利总额最大。
u5 11 s5
10u5 10 (11 s5 ) 110 10 s5 最优解:u *5 11 s5
当k 4时, f 4 ( s4 ) min (a4u4 f 5 ( s5 ))
u 4 D4 ( s 4 )
min (20u4 110 10 s5 )
月份k 需求量dk
0 0
1 8
2 5
3 3
4 2
5 7
6 4
单位工时ak
11 18 13 17 20 10
设仓库容量限制为H=9,开始库存量为 2,期终库存量为0。需要制定一个半年 的逐月生产计划,即满足需要和库容量 的限制,又使生产这种部件的总耗费工 时数为最少。
多阶段决策过程最优化
多阶段决策过程是指这样一类 特殊的活动过程,他们可以按时间 顺序分解成若干相互联系的阶段, 在每个阶段都要做出决策,全部过 程的决策是一个决策序列。
第八章 动态规划
多阶段决策过程最优化问题
例1 生产与存储问题 某车间需要按月在月底供应一定数 量的某种部件给总装车间,由于生产条件 的变化,该车间在各月份中生产每单位这 种部件所需耗费的工时不同,各月份的生 产量与当月的月底前,全部要存入仓库以 备后用。已知总装车间的各个月份的需求 量以及在加工车间生产该部件每单位数量 所需工时数如表所示。
动态规划的基本概念 P163
阶段 状态变量
决策变量
指标函数 状态方程
1 阶段(Stage)
将所给问题的过程,按时间或 空间特征分解成若干个相互联系的 阶段,以便按次序去求每阶段的解, 常用k表示阶段变量。
2 状态(State)
各阶段开始时的客观条件 叫做状态。描述各阶段状态的 变量称为状态变量,常用sk表 示第k阶段的状态变量,状态 变量的取值集合称为状态集合, 用Sk表示。
各个阶段决策确定后,整个问 题的决策序列就构成一个策略,用 p1,n(d1,d2,…dn)表示。对每个实际 问题,可供选择的策略有一定的范 围,称为允许策略集合,用P表示。 使整个问题达到最优效果的策略就 是最优策略。
4 状态转移方程 动态规划中本阶段的状态往 往是上一阶段的决策结果。如果 给定了第k段的状态Sk ,本阶段 决策为Uk(Sk) ,则第k+1段的状态 Sk+1由公式: Sk+1=Lk( Sk, Uk) 确定,称为状态转移方程。
d 3 s2 u 2 d 2 H 3 s2 u 2 - 5 9 得8 s2 u 2 14 s2 又 u 2 0, max[ 0,8 s2 ] u 2 14 s2
f 2 ( s2 ) 4u2 17 s2 329 4(14 s2 ) 17 s2 329 273 13 s2 最优解:u 14 s2
例8-3 设备更新问题
企业在使用设备时都要考虑 设备的更新问题,因为设备越陈 旧所需的维修费用越多,但购买 新设备则要一次性支出较大的费 用。
现在某企业要决定一台设备未来8 年的更新计划,已预测到第j年购 买设备的价格为Kj,Gj为设备经 过j年后的残值,Cj为设备连续使 用j-1年后在第j年的维修费用 (j=1,2…8),问应在哪年更新设备 可使总费用最小。
当k 3时, f 3 ( s3 ) min [a3u3 f 4 ( s4 )]
u3 D3 ( s3 )
min [a3u3 f 4 ( s3 u3 d 3 )]
u3D3 ( s3 ) u3D3 ( s3 ) u3D3 ( s3 )
min (17u3 220 20( s3 u3 d 3 )) min (3u3 20 s3 280 )
5 指标函数
用于衡量所选定策略优 劣的数量指标称为指标函数。 最优指标函数记为fk(Sk)。
多阶段决策过程
决策u1 决策u2 决策uk 决策un 状态 阶段1 状态 阶段2 状态... 状态 阶段k 状态... 状态 阶段n 状态 s
s1
s2
s3
sk
sk+1
xn
n+1
贝尔曼(Ballman)最优化原理
C3
4
D3
5
E2
2
F
1
B2 4 A 3 2
2
C2 5 B1 4 3
3
D2 3 C1 3
4
E1 2 D1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
1 8 7 2
6 5 8
1 5
3 2
A
9
7 6 7
8 9
2
6 2 1
3
4 3 B
5 3
3
3
动态规划的缺点:
k 1
• 状态转移方程: sk 1 sk uk d k
d k sk H
允许决策集合Dk(sk):
k 0,1,2,..., 6
Dk (sk ) {uk : uk 0, d k 1 sk uk d k H }
生产与存储问题
• 最优值函数fk(sk):在第k段开始的库存量 为sk时,从第k段至第6段所生产部件的 最小累计工时数。 • 逆推关系式:
月份k 需求量dk
0 0
1 8
2 5
3 3
4 2
5 7
6 4
单位工时ak
11 18 13 17 20 10
设仓库容量限制为H=9,开始库存量为 2,期终库存量为0。需要制定一个半年 的逐月生产计划,即满足需要和库容量 的限制,又使生产这种部件的总耗费工 时数为最少。
• • • •
解:按月份划分阶段K。 状态变量Sk:第k段开始时部件库存量。 决策变量uk:第k段内的部件生产量。 6 全过程目标管理函数 f1 uk
* 2
当k 1时,
生产与存储问题 f1 ( s1 ) min [ a1u1 f 2 ( s2 )]
u1D1 ( s1 ) u1D1 ( s1 ) u1D1 ( s1 ) u1D1 ( s1 )
min [ a1u1 f 2 ( s1 u1 d1 )] min [18u1 273 13( s1 u1 8)] min (5u1 13 s1 377 ) 13 s1 u1 17 s1 f1 ( s1 ) 442 18 s1 最优解:u 13 s1
u 4 D4 ( s4 ) u 4 D4 ( s4 ) u 4 D4 ( s4 )
min (20u4 110 10 ( s4 u4 2)) min (10u4 10 s4 130 )
d 5 s4 u 4 d 4 H 7 s4 u 4 - 2 9 得9 s4 u4 11 s4 又 u4 0, max[ 0,9 s4 ] u4 11 s4 由d k sk H , 知s4 9 D4 ( s4 )为: 9 s 4 u 4 11 s 4 f 4 ( s4 ) 10 (9 s4 ) 10 s4 130 220 20 s4 最优解:u *4 9 s4
动态规划中的状态具有如下性质:
当某阶段状态给定以后,在这 阶段以后的过程的发展不受这段以 前各段状态的影响。即:过程的过 去历史只能通过当前状态去影响它 未来的发展,这称为无后效性。如 果所选定的变量不具备无后效性, 就不能作为状态变量来构造动态规 划模型。
3 决策(Decision)
当各段的状态确定以后,就可 以做出不同的决定(或选择),从 而确定下一阶段的状态,这种决定 称为决策。决策变量用Uk(Sk)表示。
* 1
当k 0时, f 0 ( s0 ) min [ a0u0 f1 ( s1 )]
u 0 D0 ( s0 )
min [ a0u0 f1 ( s0 u0 d 0 )]
u 0 D0 ( s0 ) u 0 D0 ( s0 ) u 0 D0 ( s0 )
min [11u0 442 18( s0 u0 0)] min ( 7u0 18 s0 442 ) 8 s0 u 0 9 s0 f 0 ( s0 ) 379 11s0 最优解:u 9 s0
动态规划是解决多阶段决策过程 最优化问题的一种方法。 由美国数学家贝尔曼(Ballman) 等人在20世纪50年代提出。他们针对 多阶段决策问题的特点,提出了解决 这类问题的“最优化原理”,并成功 地解决了生产管理 、 工程技术等方 面的许多实际问题。