当前位置：文档之家› 第八章动态规划

第八章动态规划

三、动态规划模型的建立
用动态规划解决实际问题，就要建立动态规划模型，为此需要解决如下问题：

1. 划分阶段 2. 确定状态变量和决策变量以及相应的取值范围 3. 建立状态转移方程 4. 确定指标函数，建立动态规划的基本方程 5. 确定边界条件

1. 划分阶段按照时间、空间、变量划分为若干阶段。建立动态规划模型要求每个阶段问题具有同一模式。 2. 确定状态变量和决策变量以及相应的取值范围决策过程可用状态演变描述。状态必须包含表示系统情况和确定决策所需要的全部信息，反映过程的演变特征。无后效性。找出状态变量在各阶段的取值范围。决策变量由系统最优化的目的所决定。
f 3 (C3 ) min{ 5 f 4 ( D2 )} min{ 5 3} 8
最小费用路线为 C3 D2 E 相应的最优决策 u3 (C3 ) D2
3．第2阶段，同上。如果现处于B1，到达终点E的最小费用为：
3 f 3 (C1 ) 3 11 f 2 ( B1 ) min min 12 4 f ( C ) 4 8 3 3
第2阶段的状态 3 B1 C1 4 4 B2 1 11 B3 6 6 4 C2 9 7 12 5 C3 8 D2 D1 5 3 E
第1阶段的状态 4 A
3
第1阶段
第2阶段
第3阶段
第4阶段
s1状态A ，s2?
S1={A}，S2={B1、B2、B3}，S3={C1、C2、C3}，S4={D1、D2}。
3）决策决策是某阶段状态给定之后，从该状态演变到下一阶
最小费用路线为 B1 C3 D2 E 相应的最优决策 u2 ( B1 ) C3 如果现处于B2，则到达终点E的最小费用为：
4 f 3 (C1 ) 4 11 f 2 ( B2 ) m in4 f 3 (C 2 ) m in4 12 15 6 f (C ) 6 12 3 3
划分阶段把对某一种新产品增加研制费用作为一个阶段，将整个过程分
为三个阶段。对甲产品增加研制费用记为第1阶段、对乙产品增加研制费用记为第2阶段、对丙产品增加研制费用记为第3阶段。K=1,2,3。
状态变量把有可能提供的研制费用作为状态变量，记为sk，它的取值范
围是：0、1、2
决策变量把给第k种新产品的研制费用的数量作为决策变量 uk，它由决策
* f k (sk ) Vk ,n (sk , pk Vk ,n (sk , pk ,n ) , n ) optimum pk , n
第2阶段的状态 B1 第1阶段的状态 4 A 3 11 4 B2 1 B3 6 6 4 3 4 C1 9 7 D1 8 D2 5 3 E
C2
12 5
C3
第1阶段
略。
第2阶段的状态 3
B1
第1阶段的状态 4 A 3 11 第1阶段
4
C1
9
7 D1 8 D2 5 3 E
4
B2 1 B3 6 6 第2阶段
4
C2
12
5
C3 第3阶段第4阶段
pA,E{A,B2,C3,D2,E}就是一个策略。 pB2,E{B2,C3,D2,E}就是一个子策略。
5）状态转移方程
它是确定过程由某一阶段的一个状态到下一阶段另一状态的演变过程，用sk+1=Tk(sk,uk)表示。该方程描述了由第k阶段到第k+1阶段的状态转移规律。因此又称其为状态转移函数。
第八章动态规划

第一节动态规划原理和模型
第二节一维动态规划求解方法

第三节动态规划在经济和管理中的应用
第一节动态规划原理和模型

一、引例与动态规划的基本概念二、动态规划的原理三、动态规划模型的建立
一、动态规划的基本概念

动态规划是50年初由美国数学家R.Bellman等人提出的解决多阶段决策过程优化问题的“最优化原理” 基础上建立起来的。
1 1
4 2

在每一阶段的求解，都利用了第k阶段和第k+1 阶段的如下关系：
f k( s k ) min{d k ( s k , u k ) f k 1 ( s k 1 )} f 5 ( s5 ) 0 k 4,3,2,1
这种关系称为动态规划的基本方程。所谓最优化原理是：一个过程的最优决策具有这样的性质：无论初始状态及初始决策如何，对于先前决策所形成的状态而言，其以后的所有决策应构成最优策略。
第2阶段
第3阶段
第4阶段
V2,4(B1)：表示在第2阶段，状态为B1时，从B1到E的距离。
f2(B1)则表示从B1到E的最短距离。
二、动态规划的原理
在例8.1中，整个运输路程分为四个阶段，见图 8.2。下面给出求解的全过程。这里我们采用倒推的方法，即从终点（E）到起点（A）。

1．第4阶段，即从E到D，从E出发倒推到下一站D，它可通过D1，也可通过D2，所需费用分别为5和3。
如果现处于状态D1，到终点E的最佳路线费用： f4(D1)=5，最优策略：u4(D1)=E。如果现处于状态D2，到终点E的最佳路线费用： f4(D2)=3，最优策略：u4(D2)=E。

第3阶段，当从E到达D后，有两个状态D1和D2；若处于状态D1，则可到达C1或C2，则费用分别为9或 7。若处于状态D2，则可到达C1或C2或C3，费用分别为8 或12或5。从E经D1到达C1或C2 的费用，应加上E到达D1这段的费用，所以费用分别为5+9=14、5+7=12；从E经D2到达C2或C2或C3 的费用，应加上E到达D2这段的费用，所以费用分别为3+8=11、3+12=15、 3+5=8。
段某一状态的选择。表示决策的变量称为决策变量，
用uk(sk)表示第阶段，状态为sk时的决策变量，它是状态变量的函数。实际问题中，决策变量的选取往往受到某些条件的影响而限制于某一范围，此范围称为允许决策集合。
第1阶段的状态 4 A 3
第2阶段的状态 3 B1 C1 4 4 B2 1 6 6 第2阶段 4 C2
B1 4 A 4 B2 1 11 B3 6 6 4 C2 12 5 C3 3 4 C1 9 7 8 D2 D1 5 3 E
3
第1阶段
第2阶段
第3阶段
第4阶段
(2)状态状态就是阶段的起始位置。通常一个阶段包含若干个状态。第k阶段的状态就是该阶段所有始点的集合。描述各阶段状态的变量称为状态变量。常用sk表示第k阶段的状态变量。状态变量的取值集合称为状态集合，用Sk表示。
第2阶段的状态 3 B1 C1 4 4 B2 1 6 6 第2阶段 4 C2
9 7 12 5 8 D2 D1
第1阶段的状态 4 A 3
5
3 E
11
第1阶段
B3
C3 第3阶段第4阶段
状态转移方程为 sk+1=uk(sk)
6）指标函数
指标函数是用来衡量多阶段决策过程优劣的一种数量指标。一个n 阶段决策过程，从1到n 称为问题的原过程，对于任意一个给定的k（1≤k≤n），从第k 阶段到第n 阶段的过程称为原过程的一个后部子过程。用 V1,n(s1,p1,n)表示初始状态为s1 采用策略p1,n 时，原过程的指标函数值。 Vk,n(sk,pk,n)表示在第k 阶段，状态为sk采用策略pk,n 时，后部子过程的指标函数值。从第k 阶段状态 sk采用最优策略 p*k,n 到过程终止时的最佳效益值，称为最优指标函数。记为fk(sk)。
最小费用路线为： A B C D E 相应的最优决策： u1 ( A) B1 所以，整个问题的最小费用路线为：
u (D ) E u 2 ( B1 ) C3 ，最优策略为：{ u ( A) B ， u3 (C3 ) D2， }。
最小费用路线为 B2 C1 D2 E 相应的最优决策 u 2 ( B2 ) C1 如果现处于B3，则到达终点E的最小费用为： 1 f 3 (C1 ) 1 11 f 2 ( B3 ) min min 12 6 12 6 f 3 (C 3 )

动态规划是将一个较复杂的多阶段决策问题分解为若干相互关联的较容易求解的子决策问题，而每一个子决策问题都有多种选择，并且当一个子决策问题确定以后，将影响另一个子决策问题，从而影响到整个问题的决策。

动态规划模型分为（1）离散模型；（2）连续模型。本章只讨论与离散模型有关原理和方法。这对连续模型也适用。

如果现在处于C1，则到达终点E的最小费用为：
9 f 4 ( D1 ) 9 5 f 3 (C1 ) min min 11 8 3 8 f 4 ( D2 )
最小费用路线为 C1 D2 E 相应的最优决策 u3(C1)=D2。如果现在处于C2，则到达终点E的最小费用为：
构成了一个策略。 p1,n {u1 (s1 ),, un (sn )}称为全过程的一个策略，
简称策略。 pk ,n {uk (sk ),uk 1 (sk 1 ),, un (sn )} 称为由第k阶段开始到最后阶段止的一个子策略，简称后部子策略。
使整个问题到达最优效果的策略称为最优策略。
动态规划方法就是要从允许策略集中找出最优策
7 f 4 ( D1 ) 75 f 3 (C 2 ) min min 12 12 3 12 f 4 ( D2 )
最小费用路线为 C2 D1 E
u3 (C2 ) D1
。相应的最优决策:

如果现在处于C3，到达终点E的最小费用为：

e商务文档

第八章动态规划

相关文档推荐：

e商务文档

第八章 动态规划

相关文档推荐：

第八章动态规划