当前位置：文档之家› 运筹学第六章运筹学动态规划

运筹学第六章运筹学动态规划

第六章动态规划

多阶段的决策问题最优化原理与动态规划基本方程离散确定型动态规划模型的求解连续确定型动态规划模型的求解一般数学规划模型的动态目的与要求:使学生学会利用多阶段问题的决策思想处理一些简单的实际问题,并会用 WinQSB求解动态规划. 重点与难点:重点是离散型资源分配问题;难点是动态规划建模和求解方法. 教学方法:从多阶段最短路引入基本概念和数学模型,再讲解离散型DP和连续型DP. 思考题,讨论题,作业:本章习题. 参考资料:见前言. 学时分配:6学时.
sk 1 T (sk , xk (sk )),或sk 1 T (sk , xk ).
⒍指标函数(index function):指标函数是用来衡量实现过程优劣的一种数量指标.它是从状态 sk 出发至过程最终,当采取某种策略时,按预定标准得到的效益值,这个值既与 sk 有关,又与 sk 以后所选取的策略有关,它是两者的函数,称为过程指标函数,记为 Vk ,n (sk , xk , sk 1 , xk 1 ,, sn ). 特别地,仅第k阶段的指标函数,可记为 vk (sk , xk )
如果上面的过程进行了n个阶段,而且我们希望选择 y, y1 , y2 ,, yn1 使n个阶段的总收入最大, 问题变为
maxg ( y ) h( x y ) g ( y1 ) h( x1 y ) g ( yn 1 ) h( xn 1 yn 1 ) 满足条件 x1 ay b( x y ) x2 ay1 b( x1 y1 ) xn 1 ayn 2 b( xn 2 yn 2 ) 0 y x 0 yi xi i 1,2, , n 1.
⒌ 目标:路长最短.
例2 资源分配问题
设有数量x的某种资源,将它投入两种生产A,B. 若以y投入生产A,剩下的x-y投入生产B,则收入函数为g(y)+h(x-y),如果生产后可以回收再生产,其回收率分别为0≤a,b≤1,则在第一阶段生产后回收的总资源为 x1 ay b( x y), 再将 x1 投入生产A,B,若以 y1, x1 y1 分别投入生产A,B则又可得收入 g ( y1 ) h( x1 y1 ), 因此两阶段的总收入为 g ( y) h( x y) g ( y1 ) h( x1 y1 ).
在例1中各阶段的状态变量集合如下:
s1 A
第一阶段状态变量
s1
第二阶段状态变量 s 2
s2 B1 , B2 , B3
第三阶段状态变量 s 3
第四阶段状态变量 s 4 终点E
s3 C1 , C2 , C3
s4 D1 , D2
E
注意:状态变量是动态规划中最关键的一个参数,它既反映前面各阶段决策的结局,又是本阶段作出决策的出发点,状态是动态规划问题各阶段信息的传递点和结合点.
前言:动态规划是最优化的一个分支,它是解决多阶段决策过程最优化的一种方法.动态规划的创始人是美国数学家贝尔曼(R.Bellman).它在四十年代后期和五十年代初期在美国兰德公司工作, 针对一些多阶段决策问题提出了解决这类问题的最优化原理,并在1957年出版了动态规划的第一本书《Dynamic programming》.在企业管理方面,动态规划可以解决库存问题,资源分配问题, 设备更新问题,运输问题,生产过程最优控制问题. 它的弱点是,根据最优化原理建立的动态规划基本方程,尚无统一的解法,而要根据其数学结构灵活处理;此外,变量个数不能太多,否则计算量太大,这称为维数问题.
典型例题: 例1 多阶段网络的最短路
B1
2 10 6 6
12
14
C1
9
3
D1
5
A
5
B2
4 13
10
C2
5 8
E
D2
2
1
B3
状态1 状态2
12 11
C3
状态3
10
状态4
终点
阶段1
阶段2
阶段3
阶段4
例题特点:
⒈ 阶段:如图的阶段,分为四段; ⒉ 状态:顶点;
⒊ 决策:选弧; ⒋ 转移:从一个顶点走到另一个顶点;
第一节多阶段决策问题及实例所谓多阶段决策问题,是指一个大问题可以划分为若干个阶段,每个阶段形成一个子问题,各个阶段是互相联系的,每个阶段都要作出决策, 并且一个阶段的决策确定以后会影响下一阶段的决策,从而影响整个过程的活动路线.各个阶段所确定的决策构成一个决策序列,称为一个策略,对于不同的策略其效果不同(效果可以用数量来衡量).多阶段决策问题就是选择一个最优策略,使在给定的标准下达到最好的效果.
例题特点: ⒈ 阶段:年(月) ⒉ 状态:资金数 ⒊ 决策:分配给A的资金数 yi ⒋ 转移: xn1 ayn2 b( xn2 yn2 ), n 1,2,, n 1. ⒌ 效益:n个阶段的总收入最大
第二节最优化原理与动态规划基本方程一. 动态规划的基本概念 ⒈阶段(stage):是指一个问题需要作出决策的步骤,用k表示阶段数,k称为阶段变量.通常以时间作为阶段变量. ⒉状态(state):状态表示在任一阶段所处的位置,通常一个阶段有若干个状态,描述过程状态的变量称为状态变量,第k阶段的状态变量用 sk 表示.状态变量取值的全体称为状态空间或状态集合.
x1 (s1 ), x2 (s2 ),, xn (sn ), 是n个阶段DP的一个策略.
xk (sk ), xk 1 (sk 1 ),xn (sn )是从k段起的子策略 .
⒌状态转移律:从 sk 的某一状态值出发,当决策变量 xk (sk ) 的取值决定后,下一阶段状态变量 sk 1 的取值也随之确定.这种从上一阶段的某一状态值到下一阶段某一状态值的转移规律称为状态转变移律.可表示为
⒊决策(decision):决策是指某阶段状态给定后, 从该阶段演变到下一阶段某状态的选择.决策变量 xk (sk ) 表示第k阶段状态为 sk 时对方案的选择. Dk (sk ) 表示k阶段状态为 sk 时决策允许的取值集合.例如:例1中 D2 ( B1 ) C1 , C2 , C3 . ⒋策略(policy)和子策略(subpolicy):动态规划问题各阶段决策组成的序列总体称为一个策略.

e商务文档

运筹学第六章运筹学动态规划

相关文档推荐：

e商务文档

运筹学第六章 运筹学 动态规划

相关文档推荐：

运筹学第六章运筹学动态规划