当前位置：文档之家› 运筹学第五章动态规划

运筹学第五章动态规划

一、多阶段决策问题
根据问题本身的特点，可以将其求解的全过程划分为若干个相互联系的阶段（即将问题划分为许多个相互联系的子问题），在它的每一阶段都需要做出决策，并且在一个阶段的决策确定以后再转移到下一阶段。往往前一个阶段的决策要影响到后一个阶段的决策，从而影响整个过程。这样的决策过程称作多阶段决策过程。
描述决策变化的量称为决策变量。
常用uk uk sk 表示 k 阶段状策变量的取值的容许范围。
决策变量uk sk 的允许决策集用Uk sk 表示， uk sk Uk sk ，
允许决策集合实际是决策的约束条件。
三、动态规划求解的多阶段决策问题的特点
（2）设备更新问题企业在使用设备时都要考虑设备的更新问题。现某企业要决定一台设备未来 8 年的更新计划，已预测了第 j 年购买设备的价
格为 K j ，设Gj 为设备经过 j 年后的残值，C j 为设备连续使用
j 1年后在第 j 年的维修费 j 1, 2, ,8，问应在哪些年更
新设备可使总费用最小。
（4）资源分配问题某工业部门或公司，拟对其所属企业进行稀缺资源分配，为此需要制订出收益最大的资源分配方案。
（5）运输网络问题
图5-11 运输网络图示
多阶段决策过程最优化的目标：要达到整个活动过程的总体效果最优。
v1
第二节动态规划的基本概念和基本原理
一、动态规划的基本概念（1）阶段；（2）状态；（3）决策和策略；（4）状态转移；（5）指标函数
二、多阶段决策问题举例
（1）生产与存贮过程。
某工厂每月需供应市场一定数量的产品，并将所余产品存入仓库。一般某月适当增加产品可降低生产成本，但超产部分存入仓库会增加库存费用。要求确定一个逐月的生产计划，在满足需求条件下，使一年的生产与存贮费用之和最小。
可以把每个月作为一个阶段，全年分为12 个阶段逐次决策。
一个 8 阶段决策问题，每年年初要作出决策，是继续使用旧设备，还是购买新设备
上述问题的发展过程都与时间因素有关，因此在这类多阶段决策问题中，阶段的划分常取时间区段来表示，并且各个阶段上的决策往往也与时间有关，这就使它具有了“动态”的含义，所以把处理这类动态问题的方法称为动态规划方法。
但在实际中，一些不含时间的一类“静态” 决策问题，其本质是一次决策问题，是非动态决策问题，但可以人为地引入阶段的概念，当作阶段决策问题，应用动态规划方法加以解决。
第五章动态规划
动态规划是解决多阶段决策过程最优化问题的一种方法。根据决策变量时间上的变化—连续型,离散型根据决策过程性质—确定型,随机型根据决策的相互关系—动态型，静态型此外还有阶段的个数是有限的与无限的，确定与不确定等。
本章研究：动态与静态确定型的决策过程
第一节多阶段决策过程的最优化
可能状态集—状态变量的取值范围，
即状态变量 sk 的取值集合，用 Sk 表示
可能状态集是关于状态的约束条件
可能状态集可以是一离散取值的集合，也可以为一连续的取值区间。
3.决策、决策变量和允许决策集合决策：就是指当过程处于某一阶段的某个状态时，就可以做出不同的决定，从而确定下一阶段的状态，这种决定称为决策
构成的决策序列，简称策略，表示为 p1 u1,u2 , ,un 。
k 部子策略是指从 k 阶段到第 n 阶段，依次进行的阶段决策构成的决策
序列，表示为 pk uk ,uk1, ,un 。
在实际问题中，由于在各个阶段可供选择的决策有很多，因此，它们的不同组合就构成了许多可供选择的决策序列
描述阶段的变量叫做阶段变量，一般以k表示阶段变量。
2.状态、状态变量和可能状态集（1）状态、状态变量。
状态—各阶段开始时的客观条件状态变量—描述状态变化的量，
常用 sk 表示第 k 阶段的状态变量
用以描述事物在某特定的时间与空间域中所处位置及运动特征的量
图5-11 运输网络图示
（2）可能状态集
(1)阶段指标函数（也称阶段效应）第 k 段指标函数是指第 k 段，从 sk 状态且所作决策为 uk(sk)时的效益，用 gk(sk,uk)表示简记为 gk 。
(2)过程指标函数（也称目标函数）
程用效R果k(优sk劣,u的k)数表量示指k部标子过程的指标函数，指k部子过 Rp应kk((表sskk示,)u有为k)关:不，仅因跟此当它前是状s态k和spk有k(s关k)，的还函跟数该，子严过格程说策来略，
例最短路线问题
如图 5-11 说示，给定一个线路网络图，要从 v1向 v10
铺设一条输油管道，各点间连线上的数字表示距离，问应选择什么路线，可使总距离最短？
图5-11 运输网络图示
1.阶段和阶段变量
阶段—把所给问题按时间或空间先后顺序划分为若干个相互联系又有区别的子问题
一个阶段就是需要作出一个决策的子问题。
Rk (sk , pk (sk ))
实际应用中往往表示为Rk(sk,uk)或Rk(sk) 过g可k(以程sk表指,u示标k)为累函：积数形Rk(成sk的) ，是对由于各k阶部段子的过阶程段的指指标标函函数数
Rk,n Rk,n (sk ,uk , sk1,uk1, , sn ,un )
(5-2)
gk (s k ,uk ) gk1(sk1,uk1) gn (sn ,un )
（策略）。由它们组成的集合，称为允许策略集合，记作 Pk
从允许策略集合，找出具有最优效果的策略称为最优策略。
5.状态转移方程：
sk1 Tk (sk ,uk (sk )) (5-1)
6. 指标函数
指标函数—用来衡量策略或子策略或决策的效果优劣的某种数量指标它分为阶段指标函数和过程指标函数两种。
1.无后效性又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策无关。 2. 适合于用动态规划方法求解的只是这类“无后效性”的多阶段决策过程。
4.策略和允许策略集合
全过程策略是指具有 n 个阶段的全过程，由依次进行的 n 个阶段决策

e商务文档

运筹学第五章动态规划

相关文档推荐：

e商务文档

运筹学 第五章 动态规划

相关文档推荐：

运筹学第五章动态规划