当前位置:
文档之家› 14《运筹学》(第四版)动态规划基本概念
14《运筹学》(第四版)动态规划基本概念
设它的最优解是 ( D( k ) ,k ) (4) 检验是否满足
k ε 2
若满足则停止迭代,得到点X(k) ;否则,以D(k)为搜索方向,并转下
一步。
水电与数字化工程学院 莫 莉
前节回顾
(5) 解下述一维极值问题
λ k :min f ( X ( k ) λD( k ) )
0 λ λ
其中 P ( X ( k ) , rk ) 见(7-32)式或(7-33)式。
水电与数字化工程学院
(7-35)
莫 莉
前节回顾
(5) 检验是否满足收敛准则
rk
j 1
l
l
1 ε (k ) g j (X )
或
rk log( g j ( X ( k ) )) ε
j 1
如满足上述准则,则以 X ( k ) 为原问题的近似极小解 X min ;否则,取
并在可行域R内部使其极小化,虽然R是一个闭集,但因极小点
不在闭集的边界上,因而实际上是具有无约束性质的极值问题 ,可借助于无约束最优化的方法进行计算。
水电与数字化工程学院 莫 莉
前节回顾
内点法的迭代步骤: (1) 取 r1 0 (例如取 r1 1),允许误差 ε 0 (2) 找出一可行内点 X (0) R0 ,并令 k : 1
莫 莉
1.1 引例
1)动态规划是运筹学的一个分支,是求解决策过程最优化的数学 方法。20世纪50年代初美国数学家R.E.Bellman等人在研究多阶 段决策过程的优化问题时,提出了著名的最优性原理,把多阶 段过程转化为一系列单阶段规划。1957年出版了他的名著 《Dynamic Programming》,这是该领域的第一本著作。 2)动态规划问世以来,在经济管理生产调度工程技术和最优控制 等方面得到了广泛的应用。例如最短路线、库存管理、资源分 配、设备更新、排序、装载等问题,用动态规划方法比用其他 方法求解更为方便。 3)虽然动态规划主要用于求解以时间划分阶段的动态过程的优化 问题,但是一些与时间无关的静态规划(如线性规划、非线性 规划),只要人为地引进时间因素,把它视为多阶段决策 莫 莉 水电与数字化工程学院 过程,也可以用动态规划方法方便地求解。
第三章 动态规划(Dynamic Programming)
主讲人:莫 莉
moli@
2015 年 6 月
水电与数字化工程学院 莫 莉
前节回顾
温
罚函数法
故
加入时间维度
知
引例
新
可行方向法
动态规划基本概念
离散动态规划
水电与数字化工程学院
莫 莉
前节回顾
可行方向法的迭代步骤如下:
水电与数字化工程学院
C4
4
莫 莉
1.1 引例
实例2 生产计划问题
工厂生产某种产品,每单位(千件)的成本1(千元),每次开工 的固定成本为3(千元),工厂每季度的最大生产能力为6(千 件)。经调查,市场对该产品的需求量第一﹑二﹑三﹑四季度分 别为2,3,2,4(千件)。如果工厂在第一﹑二季度将全年的需 求都生产出来,自然可以降低成本(少付固定成本费),但是对
则本阶段最优决策必然是D1→E,
B3
5 1 5
6 3 3
E
4
C3
距离 d (D1,E)=3,记 f (D1)=3。 f (D1)表示某阶段初从D1出发到终 点的最短距离。 如果旅行者的上一站起点为D2,则本阶段最优决策必然是D2→E, 距离 d (D2,E)=4,记 f (D2)=4。
水电与数字化工程学院 莫 莉
7 5
C1
1
D1
D2
3
E
4
d (C2 , D1 ) f ( D1 ) 6 3 min min 7 3 4 d (C2 , D2 ) f ( D2 )
如果从C3出发, 则最优选择为从C3到E的最短路线C3→D1→E,并记 f (C3)=6
d (C3 , D1 ) f ( D1 ) 3 3 min min 6 水电与数字化工程学院 d (C3 , D2 ) f ( D2 ) 3 4
此处
λ max λ g j ( X ( k ) λD( k ) ) 0, j 1, 2,
,l
(6) 令
X ( k 1) X ( k ) λ k D ( k ) k : k 1
转回第(2)步。
水电与数字化工程学院 莫 莉
前节回顾
罚函数法
本节介绍求解非线性规划问题的制约函数法。使用这 种方法,可将非线性规划问题的求解,转化为求解一系列 无约束极值问题,因而也称这种方法为序列无约束极小化 技术,简记为SUMT(sequential unconstrained minimization technique)。常用的制约函数基本上有两类: •惩罚函数(或称外罚函数(penalty function)):外点法
(3) 构造障碍函数,障碍项可采用倒数函数((7-32)式),也可采用对数
函数(例如(7-33)式)。 (4) 以 X ( k 1) R0 为初始点,对障碍函数进行无约束极小化:
min P( X , rk ) P( X ( k ) , rk ) xR0 (k ) X X (rk ) R0
莫 莉
1. f (D1)=3。 f (D2)=4。
B1
2 6 4 2. 联合考虑两个阶段的最优 3 2 5 C2 6 B2 选择。 A 从C1出发到E的最短路程(即 3 4 3 从C1到E的最短路线)为: 3 5 1 3 C1→D1→E,并记 f (C1)=4 B3 C 3 5 如果旅行者从C2出发, 则最优选择为从C2到E的最短路线C2→D2→E,并记 f (C2)=7
B1
2
6 5 B 32 A 2 4 3 5 1 水电与数字化工程学院 B3 5
7 5
C1
4
1
6 3 3 3
D1 D2
3
C2
E
4
莫 莉
C3
1.1 引例
1.考虑一个阶段的最优选择。
B1
2
5 3
旅行者到达E点前,上一 站必然到达D1或D2。
A
B26 3 2 4Fra bibliotek7 5
C1
4
1
D1 D2
3
3
C2
如果上一站的起点为D1,
rk 1 rk (例如取 rk 1 rk /10 或 rk / 5 ),令 k : k 1,转向第(3)步。
根据情况,收敛准则也可采用不同形式,如:
X ( k ) X ( k 1) ε
水电与数字化工程学院
或
f ( X ( k ) ) f ( X ( k 1) ) ε
1 增广目标函数为: Fd k ( x ) x ln( x 1), x 1 k 用解析法求 Fd ( x ) 0 得无约束优化问题 min Fd ( x )
的最优解为:
当k无限增大时,x 从可行域内部趋于最优 解x * 1
2 k k 2k k x , 2k k
k
于第三﹑四季度才能上市的产品需付存储费,每季度每千件的存
储费为0.5(千元)。还规定年初和年末这种产品均无库存。试制
定一个生产计划,即安排每个季度的产量,使一年的总费用(生
产成本和存储费)最少。 水电与数字化工程学院
莫 莉
1.1 引例
二.动态规划问题的解题思路
动态规划问题的解题思路是:将一个多阶段决策问题转化为依次求解多个单阶 段的决策问题,从而简化计算过程。这种转化的实现是从终点开始一步步进行 反推,这种算法称为反向算 法(动态规划问题的计算中大多采用反向算法)。 下面通过一个例题对该算法加以说明。 例:设有一个旅行者从A点出发,途中要经过B、C、D等处,最后到达终点E。 从A到E有很多条路线可以选择,各点之间的距离如图中所示,问该旅行者应该 选择哪一条路线,使从A到达E的总的路程为最短。
•障碍函数(或称内罚函数(barrier function)):内点法
水电与数字化工程学院 莫 莉
前节回顾
P( X ,M ) f ( X ) M min(0, g j ( X ))
j 1
l j 1
l
2
函数P(X,M)称为惩罚函数,其中的第二项 M ( g j ( X )) 称惩罚项。
莫 莉
前节回顾
例 用障碍函数法求解极小化问题
min x 2 s .t . 1 x 0
1 取d k ,k 1,2,..., 采用对数形式的障碍函 数 k 1 解 取 Bd k ( x ) d k ln( x 1) k ln( x 1), x 1
2
B1
2
D1 6 4 3 5 B 32 C2 6 E A 2 1. f (D1)=3。 f (D2)=4。 3 4 4 D 2 2. 联合考虑两个阶段的最优 3 3 5 1 3 选择。 B3 C3 5 旅行者离终点E还剩两站时,他必然位于C1、C2或C3的某一点。
如果旅行者位于C1,则从C1到终点E的路线可能有两条: C1→D1→E或C1→D2→E 旅行者从这两条路线中选取最短的一条:
若对于某一个(惩)罚因子M,例如 M1 , X ( M1 ) ,就加大罚因子的值; R
随着M值的增加,惩罚函数中的惩罚项所起的作用随之增大, min P( X , M ) 的解X ( M ) 与约束集R的“距离”就越来越近。当
0 M1 M 2 Mk
趋于无穷大时,点列 X ( M k ) 从可行域R外趋于原问题(7-3)的极小点 X min
莫 莉
B1
2 1. f (D1)=3, f (D2)=4 2. C1→D1→E, f (C1)=4 C2→D2→E, f (C2)=7 C3→D1→E, f (C3)=6 3. 联合考虑三个阶段的最优选择。 从B1到E的最优选择为: B1→C1→D1→E,记 f (B1)=11