当前位置:文档之家› 动态最优化控制

动态最优化控制


H
曲线1
曲线2
曲线3 0 b u
max(min)

T
t0
f (t , x(t ), u (t ))dt
s.t. x(t ) g (t , x(t ), u (t )) t0 , T , x(t0 ) x0已知,x(T )自由
构造Hamilton函数
式中St称为状态变量,ct称为控制变量。
• 3、“Cake-eating”问题的求解 • 假设行为人并没有留有遗产的动机,则有: S3=0,c3=S2,c2+c3=S1,c1+c2+c3=S0 • 使用拉格朗日乘子法,得: Max L=u(c1)+u(c2)/(1+ρ)+u(c3)/(1+ρ)2+λ(S0-c1-c2-c3) • 使L最大化的一阶条件为: L/c1=u´(c1)-λ=0 L/c2=u´(c2)/(1+ρ)-λ=0 L/c3=u´(c3)/(1+ρ)2-λ=0 即有: u´(c1)=u´(c2)/(1+ρ)=u´(c3)/(1+ρ)2
连续时间的最优控制
• 11、庞特里雅金(Pontryagin)最大值原理 • 由上述一阶条件和状态变量的运动方程,还可导出控 制变量的运动方程。一阶条件方程对时间求导,得: fuuu'+fuxx'+λguuu'+λguxx'+λׂgu+fut+λgut=0
将x'=g(x,u,t)代入,并解出λׂ,得: λׂ=-[(fuu+λguu)ċ+(fux+λgux)g+(fut+λgut)]/gu
连续时间的最优控制
12、边界解 如果控制域是一个闭区间 au(t)b,则汉密尔顿函数 H的最大值可能出现在控制 域的一个内部点(曲线1), 也可能出现在边界点如u=a 或u=b处(曲线2和3)。对 于边界点,一阶条件 H/u=0将不再适用。此时, 最大值原理可以表述为: Maxu H(x,u,t,λ) x'=Hλ=g(x,u,t) λׂ=-Hx=-(fx+λgx) a 这时,需要对边界点进行考察。
• 2、“Cake-eating”问题的数学表述 • 记行为人的效用函数为u(ct),该效用函数在各 个时期均相同,且有: u´(c)>0,u´´(c)<0,u´(0)= 再记未来效用的折现率为ρ,行为人追求一生 当中效用的现值的最大化,则该行为人的消费 决策问题就可表示为:
u c3 u c2 Max L : u c1 ct 1 1 2 st : S 0 c1 S1 ; S1 c2 S 2 ; S 2 c3 S3
• 3、“Cake-eating”问题的求解 • 由式u´(c1)=u´(c2)/(1+ρ)=u´(c3)/(1+ρ)2,可知: • 如果折现率=0,则有: u´(c1)=u´(c2)=u´(c3) 即: c1=c2=c3 • 如果折现率>0,则有: u´(c1)<u´(c2)<u´(c3) 即: c1>c2>c3 • 如果确切知道和S0的值,则可具体求出c1、c2和 c3。
连续时间的最优控制
• 5、横截条件 • 所谓横截条件,就是可以把状态变量的最优路径 与其他允许路径区别开来的条件。类似于微分方 程中的初始条件,横截条件确定了状态变量的具 体路径,即决定了状态变量和控制变量的最优轨 线(optimal trajectory)。 • 最简单的横截条件是固定始点和固定终点条件, 即: x(t0)=x0,x(T)=xT 许多经济问题都有一个给定的出发点x0,当其终 点值xT本身就是优化问题的一部分。
连续时间的最优控制
• 1、跨期效用函数 • 如此设定的跨期效用函数具有可加性 (additivity)或称可分离性(separability)的性 质。 • 可分离性的条件为: Mij/ck=0 其中Mij为不同时期消费的边际替代率 (marginal rate of substitution between consumption in period i and j),即: Mij=Ui(.)/Uj(.)=(U/ci、共态变量 • 在最优控制问题的拉格朗日函数中,拉格朗日乘 子λ(t)是伴随着状态变量而引进的,称为共态变量 (costate variables)。由拉格朗日函数可得: L/x0= λ(t0) L/xT= -λ(T) 这表明,状态变量的初始值每增加一个单位,就 可使优化目标函数值增加λ(t0)个单位;而状态变量 的终点值每增加一个单位,则可使优化目标函数 值减少λ(T)个单位。因此,共态变量λ(t)用目标函 数的度量单位计量了状态变量x(t)的价值,可称为 状态变量的影子价格(shadow price)。
第五章
最优控制模型
• 经济行为人决策的典型特征 经济活动的行为主体主要有家庭、企业和政府。 家庭在做决策时,既要考虑今天,也要考虑明天, 既要考虑当代,还要考虑下一代;企业在做决策 时,不仅要考虑当期的收益,也要考虑未来的持 续经营;政府在做决策时,不仅要考虑当前,也 要考虑未来。总之,经济行为人的决策是一个跨 期优化(intertemporal optimazation)问题。 • 处理跨期优化问题的方法 • (1) 最优控制(optimal control) • (2) 变分法(calculus of variations) • (3) 动态规划(dynamic programming)
0 0
连续时间的最优控制
• 6、拉格朗日函数 • 因此,将此式t0Tλ(t)[g(x,u,t)-x']dt加入目标函数之 中,并不影响目标函数的值,于是可将目标函数 扩展为: L= t0Tf(x,u,t)dt+t0Tλ(t)[g(x,u,t)-x']dt = t0T{f(x,u,t)+λ(t)[g(x,u,t)-x'(t)]}dt • 对于此式中的最后一部分使用分部积分,则有: -t0Tλ(t)x'(t)dt=-λ(t)x(t)|0T+t0Tx(t)λ'(t)dt =-λ(T)x(T)+λ(t0)x(t0)+t0Tx(t)λ'(t)dt 代入前式,得拉格朗日函数为: L=t0T[f(x,u,t)+λg(x,u,t)+xλ']dt-λ(T)x(T)+λ(t0)x(t0)
连续时间的最优控制
• 11、庞特里雅金(Pontryagin)最大值原理 • 最优控制问题的一阶条件,如果使用汉密尔顿函数, 则可表示为: Hu=fu+λgu=0 λ'=-Hx=-(fx+λgx) 其中,第1个方程是最优化问题的必要条件,它给 出了控制变量u在每个时刻可能的最优值;第2个方 程是共态变量λ的运动方程,称为辅助方程或伴随 方程(auxiliary or adjoint equation),该方程与状态变 量x的运动方程: x'=Hλ=g(x,u,t) 一起称为最优控制问题的汉密尔顿系统或标准系统。
连续时间的最优控制
• 10、汉密尔顿(Hamilton)函数 • 在最优控制问题的拉格朗日函数中,与控制 变量u(t)有关的只有其前两项,因此可单独 列出此两项为: H=f(x,u,t)+λg(x,u,t) 此式就称为汉密尔顿函数。 • 对于拉格朗日函数细加分析,可以看出汉密 尔顿函数的经济含义。
一、 离散跨期选择问题
• 1、离散跨期选择的经典问题——“Cake-eating” 问题 • 假设行为人拥有一些不可再生的资源,如一块 蛋糕,该资源的初始存量为S0,行为人在时期t 的消费量为ct,则在时期t资源的存量为: St=St-1-ct 再假设行为人确切地知道他能活3个时期,如 青年、中年、老年三个时期,问题是该行为人 如何将其资源在各个时期中消费?
二、 连续时间的最优控制
• 基本概念 • 1、跨期效用函数 • 所谓跨期效用函数,即行为人一生的总效用函数, 如“Cake-eating”问题中的效用函数: U(c1,c2,c3)=u(c1)+u(c2)/(1+ρ)+u(c3)/(1+ρ)2 其中,每个时期的效用函数u(ct)称为“幸福” (felicity) 函数。 • 对于连续时间的情形,跨期效用函数通常写为: U(ct)=t0Tu(ct)e-ρtdt 其中每时刻的效用函数u(ct)又称为瞬时效用函数, 或“幸福”函数。
连续时间的最优控制
• 6、拉格朗日函数 • 最简单的最优控制问题可以写为: J(x,t)=Max t Tf(x,u,t)dt s.t : x'(t)=g(x,u,t) x(t0)=x(0)=x0,x(T)自由 • 由于在区间[t0,T]上,状态变量的运动方程 x'(t)=g(x,u,t)始终成立,从而始终有[g(x,u,t)- x']=0。 使用拉格朗日乘子的概念,则有: λ (t)[g(x,u,t)-x']=0 也必然有: t Tλ(t)[g(x,u,t)-x']dt=0
连续时间的最优控制
• 3、目标函数 • 跨期最优化问题的目标函数的一般形式为: F(x,u,t)=t0Tf[x(t),u(t),t]dt 其中,T可以是无穷大,折现因子已包含在了 f[x(t),u(t),t]函数之中。x(t)称为状态变量,u(t)称 为控制变量,t为时间。 • 若时间t只是间接地通过x(t)和u(t)出现在函数f之 中,则称此跨期优化问题为自治问题(autonomous problem),若t直接出现在函数f之中,则称为非自 治问题(non-autonomous problem)。
• 要使dL0成立,上式中的每一项都必须小于或等 于0。由于du和dx均可正可负,所以必须有: fu+λgu=0 fx+λgx+λ'=0 此二必要条件就称为最优控制问题的一阶条件。
相关主题