最优化技术基础
Uk(sk), uk(sk)∈Uk(sk)。
4.策略
全过程策略(Policy) 是依次进行的全部n个阶段决策构
成的决策序列, 段,依次构成
表的示决为策p1序,n{列u1,称u2,为…,kun部};子从策k阶略段,到表第示n
阶 为
pk,n{uk,uk+1,…,un} ,显然当k=1时的k部子策略就是全过程
▲最优策略:对应于一个策略,可以由一个量化的指标来确 定这个策略对应的效果,不同的策略有各自的效果。在所有 可供选择的策略中,对应效果最好的策略称为最优策略。
多阶段决策过程最优化的目标是要达到整个活动过程的总 体效果最优。由于各段决策间有机地联系着,本段决策的执 行将影响到下一段的决策,以至于影响总体效果,所以决策 者在每段决策时不应仅考虑本阶段最优,还应考虑对最终目 标的影响,从而作出对全局来讲是最优的决策。动态规划就 是符合这种要求的一种决策方法。
d)资源分配问题: 某工业部门拟对其所属企业进行稀 缺资源分配,为此需要制定出收益最大的资源分配方 案。这种问题与时间因素无关,不属动态决策,但我 们可以人为地规定一个资源分配的阶段和顺序,从而 使其变成一个多阶段决策问题。
e)运输网络问题: 运输网络连线上的数字表示两地距
离(也可以是运费、时间等),要求从A 至E的最短路线。
应指出,动态规划不象线性规划那样有一个标准的数学表 达式和明确定义的一组规则,而必须对具体问题进行具体分 析处理,除了要对基本概念和方法正确理解外,应以丰富的 想象力去建立模型,用创造性的技巧去求解。
(2)多阶段决策问题举例
a)工厂生产过程:为了取得全年最佳经济效益,在全年的 生产过程中,根据市场需求,逐月或者逐季度地根据库 存和需求情况决定生产计划安排。
阶段1
状态
x2
阶段2
状态
x3
...
状态
xk
阶段k
状态
xk+1
...
状态
xn
阶段n
状态
xn+1
T1
T2
Tk
Tn
(4)动态规划方法导引
例1:为了说明动态规划的基本方法和特点,以上 面运输网络图为例,讨论求最短路问题的方法。
第一种方法枚举法. 它的基本思想是列举出所有可 能发生的方案和结果,再一一比较,求出最优方案。这里 从A到E的路程可以分为5个阶段。各阶段走法:第1段有3种, 第2段各有3种,第3段各有2种,第4段各1种,因此共有 3×3×2×1=18条可能的路线,分别算出各条路线的距离
用以描述系统在某特定的时间与空间域中所处位 置及运动特征的量,称为状态。每个阶段的状态可分
为止态,状初故态始阶记状段为态ks和的k+终1终。止止但状状通态态常,s定k阶+义1为段阶阶k段的段的初k+状始1的态状初即态始指记状其作态初sk。始,状终 围称描为述可过能程状k态的集状S态k,变即量s称k∈为Sk状。态变量sk ,其取值范
动态规划方法属较科学有效的算法,计算过程中, 系统地删去了所有中间非最优的方案组合,从而使计算 量比枚举法大为减少。
2.动态规划的基本概念
使用动态规划方法解决多阶段决策问题,首先要 将实际问题写成动态规划模型,需要对动态规划的一 些基本术语加以说明和定义: 1. 阶段
为了便于求解和表示决策及过程的发展顺序,而 把所给问题恰当地划分为若干个相互联系又有区别的 子问题,称之为多段决策问题的阶段。一个阶段,就 是需要作出一个决策的子问题,通常,阶段是按决策 进行的时间或空间上先后顺序划分的。 2.状态和状态变量
适合于用动态规划方法求解的只是一类特殊的多阶段决策 问题,即具有“无后效性”(马尔柯夫性)的多阶段决策过程。 所谓无后效性,是指系统从某个阶段往后的发展,仅由本阶段 所处的状态及其往后的决策所决定,与系统以前经历的状态和 决策(历史)无关。多阶段决策过程特点:
决策u1
决策u2
决策uk
决策un
状态
x1
策略。
在实际问题中,由于在各个阶段可供选择的决策有许多个, 因此,它们的不同组合就构成了许多可供选择的决策序列
进行比较,可知最优路线是A B2 C1 D1 E,最短
距离是19. 显然,如果组成网络的节点很多时,用穷举法求最优
路线的计算量将会十分庞大,其中包含许多重复计算.枚 举法虽可找出最优方案,但不是个好算法
第二种方法:“局部最优路径”法. 说某人从某站出 发,他选择“逢近便走”的决策,以为只要“局部最
3. 决策和决策变量
决策是状态的选择,是决策者从给定阶段状态出发对下一 阶段状态作出的选择。
描述决策变化的量称之决策变量,和状态变量一样,决策 变量可以用一个数或一向量来描述,也可以是状态变量的函
数,记以uk= uk(sk),表示阶段k状态sk时的决策变量。
决策变量的取值也有一定的允许范围,称之允许决策集合
这种运输网络问题也是静态决策问题。但是,按照网 络中点的分布,可以把它分为几个阶段,而作为多阶 段决策问题来研究。
(3)动态规划求解的多阶段决策问题的特点
通常多阶段决策过程的发展是通过状态的一系列变换来实 现的。一般情况下,系统在某个阶段的状态转移除与本阶段的 状态和决策有关外,还可能与系统过去经历的状态和决策有关。 因此,问题的求解就比较困难复杂。
b)设备更新问题:需要综合权衡决定设备的使用年限,使 总的经济效益最好
c)连续生产过程的控制问题:一般化工生产过程中,常包 含一系列完成生产过程的设备,前一工序设备的输出则 是后一工序设备的输入,因此,应该如何根据各工序的 运行工况,控制生产过程中各设备的输入和输出,以使 总产量最大。 以上问题的发展过程都与时间因素有关,因此阶段 的划分常取时间区段来表示,并且各个阶段上的决策往 往也与时间因素有关,这就是“动态”的含义,所以把 处理这类问题的方法称为动态规划方法。
优”,就会达到”“整体最优”,所取决策必是A B3 C3 D1 E,但全程长度是25;显然,这种方法的结
果常是错误的.局部最优法则是错误方法.
第三种方法动态规划方法. 首先将问题划分为5个 阶段,每次的选择总是综合后继过程的一并最优进行考 虑,在各段所有可能状态的最优后继过程都已求得的情 况下,全程的最优路线便也随之得到。动态规划方法总 是从过程的最后阶段开始考虑,然后逆着实际过程发展 的顺序,逐段向前递推计算直至始点。