当前位置：文档之家› 运筹学_18 动态规划基本概念

运筹学_18 动态规划基本概念

Operational Research
23
动态规划的数学模型
动态规划的函数方程
f k ( xk ) opt
{ Dk S k }
rk Sk , xk rk 1 Sk 1, xk 1 rn Sn , xn
f k ( xk ) opt
{ Dk S k }
• 动态规划方法丌能解决所有的多阶段决策问题，只解决符合无后效性
的问题
• 无后效性：指系统从某个阶段往后的发展演变，完全由系统本阶段所
处的状态不策略决定，不系统以前的状态及决策无关
xk (Sk )
xk (Sk , Sk 1 )
Operational Research
7
动态规划方法的术语
（一）阶段
注意：最优性原理起作用了！ d C1 , D1 f 4 D1 2 3 C1状态下： f 3 C1 min min 5 5 5 d C1 , D2 f 4 D2
C1 B1 A 4 3 B2 3 5 B3
5
4 C2 5 6 5 2 2 C4 C3 3 2 1
D2状态下： f 4 D2 d D2 , E f5 E 5 0 3
C1 B1 A 4 3 5 B3 B2 3 5 7 5 5 4 6 C3 C2 5 3 2 1 D2 7 C4 2 6
D1
3 E
5
2
2
Operational Research
动态规划中的最短路问题
xk (Sk )
表示k阶段，Sk状态下决策选择
策略：从初始阶段到终止阶段，系统的每个阶段都有一个决策，将多个决策按顺序排列组成的序列或集合，称为系统的一个策略
Operational Research
10
动态规划方法的术语
（四）状态转移方程(state transfer equation)
对于无后效性的多阶段决策过程，系统由k到k＋1的状态转移方程是
2 6 D1
7
3
E
5
5
D2 7
Operational Research
动态规划中的最短路问题
6 3 2 3 C 2状态下： f 3 C2 min 8; C3状态下： f 3 C3 min 5 3 5 1 5 C4状态下： f 3 C4 7 5 12
（五）阶段效应
状态转移了，但是考察什么呢？
• 在阶段k状态为Sk，同时得到一个反映效应的数量指标——rk(sk,xk) • rk完全是由本阶段的状态和效应决定的，可能是利润、成本、距离等（六）最优指标函数 k阶段到n阶段可获得的效应：
f k ( xk ) opt
{ Dk S k }
rk Sk , xk rk 1 Sk 1, xk 1 rn Sn , xn
B1 A 4 3 5 B3 B2 7 5 2 C2 5 6 5 2 2 C4 C3 3 2 1 D2 7 6 D1 4
3
E
3 5
5
Operational Research
22
动态规划的步骤
（1）划分阶段（2）确定状态变量及取值范围（3）确定决策变量及其取值范围（4）建立状态转移方程（5）确定阶段效应和最优指标函数动态规划建模的过程比静态规划更为复杂多变
• 对于一个多阶段决策问题，根据问题的性质和特点，将其划
分为若干个相互联系的部分，各部分按照一定的逻辑关系组成给定的多阶段决策过程，每一个部分称为一个阶段。
• 阶段变量 k • k＝4
Operational Research
8
动态规划方法的术语
（二）状态 • 多阶段决策中，各阶段的初始状况称为“状态”
• 是一类问题，而非一个问题 • 分为离散确定、连续确定、离散随机、连续随机四类问题
Operational Research
5
动态规划方法
启示 • 我们的生活也许是这一类问题中的一个 • 是每一步都看最短路？还是在整个过程中最优？
Operational Research
6
动态规划方法
• 适用条件
• •
状态变量
sk，每个状态编号sk （1）， sk （2）……，允许状态集合
、B3，即s3＝
对于例题来说，第一阶段有一个状态A，第二阶段有三个状态B1、B2
｛s3 （1）， s3 （2）}={C1,C2}
Operational Research
9
动态规划方法的术语
（三）决策与策略决策：当某个阶段状态给定后，从该状态演变到下阶段某种状态的选择决策变量：描述决策的变量，称为决策变量。决策变量是状态变量的函数，通常表示为
• •
Operational Research
3
举例
交通网络图
•
两点之间的数字表示距离，试求从起点到终点的最短距离
Operational Research
4
多阶段决策问题总结
多阶段决策问题
• 这些问题可以划分成几个相互联系的阶段，每个阶段都有若
干方案可供选择，而决策的任务是在每个阶段选择一个适当的方案，使整个过程取得最优效果
B1 A 4 3 5 B3 B2 7 5 2 C2 5 6 5 2 2 C4 C3 3 2 1 D2 7 6 D1 4
3
E
3 5
5
Operational Research
动态规划中的最短路问题
4 10 A状态下： f1 A min3 10 12 5 7C1
rk Sk , xk f k 1 ( xk 1 )
f n1 Sn1 0or1 加法运算时取 0，乘法运算时取 1
Operational Research
24
动态规划的求解方法
逆序解法：backward induction 顺序解法：forward induction
Operational Research
Operational Research
动态规划中的最短路问题
设从A到E铺设输油管道,中间经过三个站。
•几个阶段？每阶段各有几个状态？几种决策？效应指标r与最优指标函数f？ C1
B1
4 A 3 5 B2 3 5 5 2 7 5 2
4
6 C3
C2
3 2Байду номын сангаас
5 6
D1 3 E
1
5
D2 7
C4
B3
2
Operational Research
B1
2 6 D1
4 A 4 3 5 B3 B2 7 6 5 2 2 C4
C2 5 3 2 1
3
E
C3
3 5
5 D2 7
Operational Research
动态规划中的最短路问题
4 10 A状态下： f1 A min3 10 12 5 7C1
13
动态规划方法的术语：最优性原理
最优性原理
• “作为整个过程的最优策略具有这样的性质：无论过去的状态和决策
如何，相对于前面决策所形成的状态而言，余下的决策序列必然构成
最优子策略。”
• 这是处理动态规划这一“类”问题的基础性原理
A-B3-C3-D1-E 如果是最优策略，
单独看C3-D1-E，一定是C3和E之间的最优策略
S 2 T1 (S1 , x1 S1 ) S3 T2 ( S 2 , x2 S 2 ) S k 1 Tk ( S k , xk S k )
x1 1 S1
x2 2 S2
即：下一阶段的状态是由本状态和本状态下的决策确定的
Operational Research
11
动态规划方法的术语
动态规划中的最短路问题
E状态下： f5 E 0
C1
E之后最优是0
B1
4 A 3 5 B2 3 5 7
5
2
4
6 5 2 C3
C2
3 2
5 6
D1 3 E
1
5
D2 7
C4
B3
2
Operational Research
动态规划中的最短路问题
D1状态下： f 4 D1 d D1 , E f5 E 3 0 3
Operational Research
12
动态规划方法的术语：最优性原理
最优性原理
• “作为整个过程的最优策略具有这样的性质：无论过去的状态和决策
如何，相对于前面决策所形成的状态而言，余下的决策序列必然构成
最优子策略。”
• 这是处理动态规划这一“类”问题的基础性原理
Operational Research
25
动态规划可以求解哪些问题
• 运输路线 • 工序安排 • 库存管理 ……
Home
Operational Research 动态规划
2011.12
ZHU Tong Chang’an University E-mail: zhutongtraffic@
Operational Research
2
什么是动态规划问题
问题 —— 方法
•
前面研究的优化问题，没有随着时间的变化而变化。其解法，如线性规划、整数规划等方法通称为“静态规划方法”，丌存在阶段的概念事实上，很多问题是“多阶段的决策问题” “动态规划方法”是处理“多阶段决策问题”的方法
C1 B1 A 4 3 5 B3 B2 7 5 4 6 5 2 2 C4 C3 C2 5 3 2 1 D2 7 2 6 D1
3
E
3 5
5
Operational Research

e商务文档

运筹学_18 动态规划基本概念

相关文档推荐：