第一章 最优化问题与数学预备知识本章主要内容:最优化的概念 经典最优化中两种类型的问题——无约束极值问题、具有等式约束的极值问题的求解方法 最优化问题的模型及分类 向量函数微分学的有关知识 最优化的基本术语教学目的及要求:理解最优化的概念,掌握经典最优化中两种类型的问题——无约束极值问题、具有等式约束的极值问题的求解方法,了解最优化问题的模型及分类,掌握向量函数微分学的有关知识,了解最优化的基本术语.教学重点:向量函数微分学的有关知识.教学难点:向量函数微分学的有关知识.教学方法:启发式.教学手段:多媒体演示、演讲与板书相结合.教学时间:2学时.教学内容:§1.1 模型与实例无约束最优化问题 12min (),(,,,)T n n f x x x x x R =∈ .约束最优化问题({|,()0,1,2,,;()0,1,2,,}n i j S x x R g x i m h x j l ∈≥=== )min ();.f x x S ⎧⎨∈⎩s.t. 即 m i n ();()0,1,2,,,()0,1,2,,.i j f x g x i m h x j l ⎧⎪≥=⎨⎪==⎩s.t. 其中()f x 称为目标函数,12,,,n x x x 称为决策变量,S 称为可行域,()0(1,2,,),()0(1,2,,)i j g x i m h x j l ≥=== 称为约束条件.例1 (海洋运输问题)某航运公司承接了一项将客户停放在港口等待运输的N 种货物运往目的地的业务.设航运公司运输单位货物i 的收益为i c (元/吨),货船能够装载的货物的重量限制为W (吨),相应的容积限制为V (立方米),设i a 是单位货物i 所占的容积(立方米/吨),i b 是货物i 可提供的最大数量(吨),i w 是货物i 的日平均装船速度(吨/日),1q 为货船的日泊位费(元/日),2q 为货船在海上航行时的日费用(元/日),d 为航行距离(公里),v 为航行速度(公里/日).问如何确定货船的装载方案,使航运公司获利最大?解 设(1,2,,)i x i N = 是货船装载货物的数量(吨),则得到该问题的线性分式规划模型1211111max ;,,0.N N i i i i i i N i i i N i i N i i i i i q x q d c x w v z x d w v x W a x V x b =====⎧--⎪⎪=⎪+⎪⎪⎪⎨≤⎪⎪⎪≤⎪⎪≤≤⎪⎩∑∑∑∑∑s.t.§1.2 数学预备知识1.向量的范数和矩阵的条件数定义 如果n R 上的实值函数 满足以下三个条件:(1)n x R ∀∈,有0x ≥,同时,当且仅当0x =时,0x =;(2),n x R R α∀∈∈,有x x αα=⋅;(3),n x y R ∀∈,有x y x y +≤+. 则称x 为x的范数.通常取1/2()T x x x =. x 的p 范数:1/1(||)(1)np p i p i x x p =≥∑ .x 的最大范数:max{||1}i x x i n ∞≤≤ .性质 设A 和B 是定义于n R 中的两种范数,则总存在正数1c 和2c ,使n x R ∀∈,有12A B A c x x c x ≤≤.定义 设A 是n 阶方阵,12,,,n λλλ 是A 的全部特征值.1max ||i i n λ≤≤称为A 的谱半径,记作()A ρ.设m n A R ⨯∈,称T A A 的特征值的正平方根为A 的奇异值.A 的最大奇异值与最小非零奇异值之商称为A 的谱条件数,记为()A κ,即1()()()t A A A σκσ=, 其中12()()()n A A A σσσ≥≥≥ 为A 的所有奇异值,且()t R A =.性质 如果A 为n 阶正定矩阵,12()()()0n A A A λλλ≥≥≥> 和12()()()n A A A σσσ≥≥≥ 分别为A 的特征值和奇异值,则()(),1,2,,i i A A i n σλ== ,于是1()()()n A A A λκλ=. 如果A 为n 阶满秩矩阵,则A 的所有奇异值12()()()0n A A A σσσ≥≥≥> ,从而1()()()n A A A σκσ=. 定义 一个n 阶满秩矩阵A 称为病态的,如果A 的n 个列向量之间存在着近似线性关系.性质 条件数可以用来度量矩阵的病态程度.2.多元函数的梯度、Hesse 矩阵及Taylor 公式定义 设:,n n f R R x R →∈.如果n ∃维向量p ,使得n x R ∀∆∈,有()()()T f x x f x p x o x +∆-=∆+∆.则称()f x 在点x 处可微,并称d ()T f x p x =∆为()f x 在点x 处的微分.如果()f x 在点x 处对于12(,,,)T n x x x x = 的各分量的偏导数(),1,2,,if x i n x ∂=∂ 都存在,则称()f x 在点x 处一阶可导,并称向量 12()()()()(,,,)T nf x f x f x f x x x x ∂∂∂∇=∂∂∂ 为()f x 在点x 处一阶导数或梯度.定理1 设:,n n f R R x R →∈.如果()f x 在点x 处可微,则()f x 在点x 处梯度()f x ∇存在,并且有d ()()T f x f x x =∇∆.定义 设:,n n f R R x R →∈.d 是给定的n 维非零向量,d e d =.如果 0()()lim ()f x e f x R λλλλ→+-∈存在,则称此极限为()f x 在点x 沿方向d 的方向导数,记作()f x d∂∂. 定理2 设:,n n f R R x R →∈.如果()f x 在点x 处可微,则()f x 在点x 处沿任何非零方向d 的方向导数存在,且()()T f x f x e d ∂=∇∂,其中d e d=. 定义 设()f x 是n R 上的连续函数,n x R ∈.d 是n 维非零向量.如果0δ∃>,使得(0,)λδ∀∈,有()f x d λ+<(>)()f x .则称d 为()f x 在点x 处的下降(上升)方向.定理3 设:,n n f R R x R →∈,且()f x 在点x 处可微,如果∃非零向量n d R ∈,使得()T f x d ∇<(>)0,则d 是()f x 在点x 处的下降(上升)方向.定义 设:,n n f R R x R →∈.如果()f x 在点x 处对于自变量12(,,,)Tn x x x x = 的各分量的二阶偏导数2()(,1,2,,)i j f x i j n x x ∂=∂∂ 都存在,则称函数()f x 在点x 处二阶可导,并称矩阵22221121222222122222212()()()()()()()()()()n n n n n f x f x f x x x x x x f x f x f x f x x x x x x f x f x f x x x x x x ⎛⎫∂∂∂ ⎪∂∂∂∂∂ ⎪ ⎪∂∂∂ ⎪∇=∂∂∂∂∂ ⎪ ⎪ ⎪ ⎪∂∂∂ ⎪∂∂∂∂∂⎝⎭为()f x 在点x 处的二阶导数矩阵或Hesse 矩阵.定义 设:,n m n h R R x R →∈,记12()((),(),,())T m h x h x h x h x = ,如果 ()(1,2,,)i h x i m = 在点x 处对于自变量12(,,,)T n x x x x = 的各分量的偏导数()(1,2,,;1,2,,)i jh x i m j n x ∂==∂ 都存在,则称向量函数()h x 在点x 处是一阶可导的,并且称矩阵111122221212()()()()()()()()()()n n m n m m m n h x h x h x x x x h x h x h x x x x h x h x h x h x x x x ⨯∂∂∂⎛⎫ ⎪∂∂∂ ⎪ ⎪∂∂∂ ⎪∂∂∂∇= ⎪ ⎪ ⎪∂∂∂ ⎪ ⎪∂∂∂⎝⎭ 为()h x 在点x 处的一阶导数矩阵或Jacobi 矩阵,简记为()h x ∇.例2 设,,n n a R x R b R ∈∈∈,求()T f x a x b =+在任意点x 处的梯度和Hesse 矩阵.解 设1212(,,,),(,,,)T Tn n a a a a x x x x == ,则1()nk k k f x a x b ==+∑, 因()(1,2,,)k kf x a k n x ∂==∂ ,故得()f x a ∇=. 又因2()0(,1,2,,)i jf x i j n x x ∂==∂∂ ,则2()f x O ∇=. 例3 设n n Q R ⨯∈是对称矩阵,,n b R c R ∈∈,称1()2T T f x x Qx b x c =++为二次函数,求()f x 在任意点x 处的梯度和Hesse 矩阵.解 设1212(),(,,,),(,,,)T T ij n n n n Q q x x x x b b b b ⨯=== ,则121111(,,,)2n nn n ij i j k k i j k f x x x q x x b x c ====++∑∑∑ , 由于12(,,,)n f x x x 中所有含i x 的项为211,11,1112i i i i i i ii i i i i i in i n i i q x x q x x q x q x x q x x b x --+++++++++ , 所以1()nij j i j i f x q x b x =∂=+∂∑,从而111111111()()()nn j j j j j j n n n nj j n nj j j j n f x q x b q x x b f x Qx b f x b q x b q x x ====⎛⎫⎛⎫∂⎛⎫+ ⎪ ⎪ ⎪∂⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪∇===+=+ ⎪ ⎪ ⎪ ⎪ ⎪∂⎝⎭ ⎪ ⎪ ⎪+ ⎪ ⎪ ⎪∂⎝⎭⎝⎭⎝⎭∑∑∑∑ . 再对1()(1,2,,)n ij j i j i f x q x b i n x =∂=+=∂∑ 求偏导得到2()(,1,2,,)ij i j f x q i j n x x ∂==∂∂ ,于是1112121222212()n n n n nn q q q q q q f x Q q q q ⎛⎫ ⎪ ⎪∇== ⎪ ⎪⎝⎭. 例4 设()()t f x td ϕ=+,其中:n f R R →二阶可导,,,n n x R d R t R ∈∈∈,试求(),()t t ϕϕ'''.解 由多元复合函数微分法知11d()()()d nn T i i i i i i i x td f f t d f x td d u t u ϕ==+∂∂'===∇+∂∂∑∑ , 221111d()()()()d nn n n j j T i i j j i i j j i i j x td f f t d d d d f x td d u u t u u ϕ====+∂∂∂''===∇+∂∂∂∂∑∑∑∑ . 定理4 设:,n n f R R x R →∈,且()f x 在点x 的某邻域内具有二阶连续偏导数,则()f x 在点x 处有Taylor 展式21()()()(),(01)2T T f x x f x f x x x f x x x θθ+∆=+∇∆+∆∇+∆∆<<. 证明 设()(),[0,1]t f x t x t ϕ=+∆∈,则(0)(),(1)()f x f x x ϕϕ==+∆.按一元函数Taylor 公式()t ϕ在0t =处展开,有21()(0)(0)(),(0)2t t t t ϕϕϕϕθθ'''=++<<.从例4得知2(0)(),()()()T T f x x x f x x x ϕϕθθ'''=∇∆=∆∇+∆∆.令1t =,有21()()()(),(01)2T T f x x f x f x x x f x x x θθ+∆=+∇∆+∆∇+∆∆<<. 根据定理1和定理4,我们有如下两个重要公式:()()()()()T f x f x f x x x o x x =+∇-+-,221()()()()()()()()2T T f x f x f x x x x x f x x x o x x =+∇-+-∇-+-.§1.3 最优化的基本术语定义 设:n f R R →为目标函数,n S R ⊆为可行域,x S ∈.(1) 若x S ∀∈,都有()()f x f x ≥,则称x 为()f x 在S 上的全局(或整体)极小点,或者说,x 是约束最优化问题min ()x Sf x ∈的全局(或整体)最优解,并称()f x 为其最优值.(2) 若,x S x x ∀∈≠,都有()()f x f x >,则称x 为()f x 在S 上的严格全局(或整体)极小点.(3) 若x ∃的δ邻域(){}(0)n N x x R x x δδδ=∈-<>使得()x N x S δ∀∈ ,都有()()f x f x ≥,则称x 为()f x 在S 上的局部极小点,或者说,x 是约束最优化问题min ()x Sf x ∈的局部最优解. (4) 若x ∃的δ邻域()(0)N x δδ>使得(),x N xS x x δ∀∈≠ ,都有()()f x f x >,则称x 为()f x 在S 上的严格局部极小点.。