第二章 矩阵变换和计算一、内容提要本章以矩阵的各种分解变换为主要内容,介绍数值线性代数中的两个基本问题:线性方程组的求解和特征系统的计算,属于算法中的直接法。
基本思想为将计算复杂的一般矩阵分解为较容易计算的三角形矩阵. 要求掌握Gauss (列主元)消去法、矩阵的(带列主元的)LU 分解、平方根法、追赶法、条件数与误差分析、QR 分解、Shur 分解、Jordan 分解和奇异值分解.(一) 矩阵的三角分解及其应用1.矩阵的三角分解及其应用考虑一个n 阶线性方程组b Ax =的求解,当系数矩阵具有如下三种特殊形状:对角矩阵D ,下三角矩阵L 和上三角矩阵U ,这时方程的求解将会变得简单.⎪⎪⎪⎪⎪⎭⎫⎝⎛=n d d d D O21, ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=nn n n l l l l l l L ΛO M M 21222111, ⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n u u u u u u U M O ΛΛ22212111. 对于b Dx =,可得解为i i i d b x /=,n i ,,2,1Λ=. 对于b Lx =,可得解为1111/l b x =,ii i k k iki i l x lb x /)(11∑-=-=,n i ,,3,2Λ=.对于b Ux =,可得解为nn n n l b x /=,ii ni k k iki i l x lb x /)(1∑+=-=,1,,2,1Λ--=n n i .虽然对角矩阵的计算最为简单,但是过于特殊,任意非奇异矩阵并不都能对角化,因此较为普适的方法是对矩阵进行三角分解.1).Gauss 消去法只通过一系列的初等行变换将增广矩阵)|(b A 化成上三角矩阵)|(c U ,然后通过回代求与b Ax =同解的上三角方程组c Ux =的解.其中第k 步消元过程中,在第1-k 步得到的矩阵)1(-k A的主对角元素)1(-k kka称为主元.从)1(-k A的第j 行减去第k 行的倍数)1()1(--=k kkk jk jk a a l (n j k ≤<)称为行乘数(子).2).矩阵A 的LU 分解对于n 阶方阵A ,如果存在n 阶单位下三角矩阵L 和n 阶上三角矩阵U ,使得LU A =, 则称其为矩阵A 的LU 分解,也称为Doolittle 分解.Gauss 消去法对应的矩阵形式即为LU 分解, 其中L 为所有行乘子组成的单位下三角矩阵, U 为Gauss 消去法结束后得到的上三角矩阵. 原方程组b Ax =分解为两个三角形方程组⎩⎨⎧==yUx bLy .3).矩阵LU 分解的的存在和唯一性如果n 阶矩阵A 的各阶顺序主子式),,2,1(n k k Λ=D 均不为零, 则必有单位下三角矩阵L 和上三角矩阵U ,使得LU A =, 而且L 和U 是唯一存在的.4).Gauss 列主元消去法矩阵每一列主对角元以下(含主对角元)的元素中, 绝对值最大的数称为列主元. 为避免小主元作除数、或0作分母,在消元过程中,每一步都按列选主元的Guass 消去法称为Gauss 列主元消去法.由于选取列主元使得每一个行乘子均为模不超过1的数,因此它避免了出现大的行乘子而引起的有效数字的损失.5).带列主元的LU 分解Gauss 列主元消去法对应的矩阵形式即为带列主元的LU 分解,选主元的过程即为矩阵的行置换. 因此, 对任意n 阶矩阵A ,均存在置换矩阵P 、单位下三角矩阵L 和上三角矩阵U ,使得LU PA =.由于选列主元的方式不唯一, 因此置换矩阵P 也是不唯一的. 原方程组b Ax =两边同时乘以矩阵P 得到Pb PAx =, 再分解为两个三角形方程组⎩⎨⎧==y Ux PbLy . 5).平方根法(对称矩阵的Cholesky 分解)对任意n 阶对称正定矩阵A ,均存在下三角矩阵L 使TLL A =,称其为对称正定矩阵A 的Cholesky 分解. 进一步地, 如果规定L 的对角元为正数,则L 是唯一确定的.原方程组b Ax =分解为两个三角形方程组⎩⎨⎧==y x L b Ly T .利用矩阵乘法规则和L 的下三角结构可得21112⎪⎪⎭⎫ ⎝⎛-=∑-=j k jk jj jj l a l , jj j k jk ik ij ij l l l a l /11⎪⎪⎭⎫ ⎝⎛-=∑-=, i=j +1, j +2,…,n , j =1,2,…,n . 计算次序为nn n n l l l l l l l ,,,,,,,,,2322212111ΛΛΛ.由于jj jk a l ≤,k =1,2,…,j .因此在分解过程中L 的元素的数量级不会增长,故平方根法通常是数值稳定的,不必选主元.6).求解三对角矩阵的追赶法对于三对角矩阵⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=---n nn n n b a c b a c b a c b 11122211O O OA , 它的LU 分解可以得到两个只有两条对角元素非零的三角形矩阵⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=--n n n n u d u d u d u l l l 11221132,1111OO O OU L . 其中⎪⎪⎩⎪⎪⎨⎧=-====-==--ni c l b u n i u a l b u n i c d i i i i i i i i i ,,3,2,,,3,2,/1,,2,1,1111ΛΛΛ计算次序是n n u l u l u l u →→→→→→→Λ33221. 原方程组b Ax =分解为两个三角形方程组⎩⎨⎧==yUx bLy . 计算公式为n i y l b y b y i i i i ,,3,2,,111Λ=-==-,.1,,2,1,/)(,/1Λ--=-==+n n i u x c y x u y x i i i i i nn n该计算公式称为求解三对角形方程组的追赶法.当A 严格对角占优时,方程组b Ax =可用追赶法求解, 解存在唯一且数值稳定.7).矩阵的条件数设A 为非奇异矩阵,⋅为矩阵的算子范数,称1)(cond -=A A A 为矩阵A 的条件数.矩阵的条件数是线性方程组b Ax =, 当A 或b 的元素发生微小变化,引起方程组解的变化的定量描述, 因此是刻画矩阵和方程组性态的量. 条件数越大, 矩阵和方程组越为病态, 反之越小为良态.常用的矩阵条件数为∞-条件数: ∞-∞∞=1)(cond A A A ,1-条件数: 1111)(cond -=A A A ,2-条件数: )()()(cond min max 2122A A A A AAA H H λλ==-.矩阵的条件数具有如下的性质: (1) 1)(cond ≥A ;(2) )(cond )(cond 1-=A A ;(3) )(cond )(cond A A =α,0≠α,R ∈α;(4) 如果U 为正交矩阵,则1)(cond 2=U ,)(cond )(cond )(cond 222A AU UA ==.一般情况下,系数矩阵和右端项的扰动对解的影响为定理2.5 设b Ax =,A 为非奇异矩阵,b 为非零向量且A 和b 均有扰动.若A 的扰动δA 非常小,使得11<-A A δ,则)()(cond 1)(cond bδbA δA AAA A xδx+-≤δ. 关于近似解的余量与它的相对误差间的关系有定理2.6 设b Ax =,A 为非奇异矩阵,b 为非零向量,则方程组近似解x ~的事后估计式为bx A b A x x x b x A b A ~)cond(~~)cond(1-≤-≤-. 其中称x A b ~-为近似解x ~的余量,简称余量。
8).矩阵的QR 分解利用正交变换保条件数的性质, 将满秩矩阵化为主对角元都大于零的上三角矩阵, 保持矩阵条件数不变.设A 是n 阶可逆实矩阵, 则存在正交阵Q 和对角元都大于零的上三角阵R ,使得QR A =, 称其为矩阵A 的QR 分解, 并且)(cond )(cond 22R A =.为实现矩阵一般的QR 分解,我们引入Householder 矩阵TT-=ωωωωI ωH 2)(, 其中0,≠∈ωωn R . 该矩阵具有如下性质:(1) 特征值为:)(21))((T T H ωωλωωωλ-= 即,121-=-ωωωωT T ,321Λ个11,,1-n ; (2) )()(ωH ωH =T, 即H 阵为对称阵;(3) n I ωH ωH =T)()(,即H 阵为正交阵;(4) 如果y x ωH =)(,则22x y= (不变长度,镜面反射);(5) 设nn x x x R ∈=T ),,,(21Λx 且0x ≠,取12e x x ω-=,则(6) .00)()(12212e x x x e x x H ωH =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=-=M x提示:Householder 变换并不是直接变换n 阶矩阵A , 而是通过重复变换矩阵的下三角部分的列向量得到上三角矩阵, 因此, 每次变换的Householder 矩阵)(,),(),(1-n 21ωH ωH ωH Λ在逐渐降阶, 然后将它们分别“嵌入”n 阶单位矩阵得到相应的n 阶正交阵1-n 21Q Q Q ,,,Λ, 最后得到正交阵1-n 21Q Q Q Q ,,,Λ=.具体变换过程见例子.(二) 特殊矩阵的特征系统特征系统即为矩阵的特征值和特征向量, 本节主要介绍与其计算相关的Schur 分解. 矩阵变换的思想主要为两点: 一是三角矩阵的主对角元素即为其所有特征值, 二是矩阵的特征多项式和特征值在相似变换下是不变的. 因此, 理论上获得矩阵特征值的方法就是通过相似变换将其变为一个三角矩阵.Schur定理:设nn A ⨯∈C ,则存在酉阵nn U ⨯∈C 使得H URU A =, 其中n n R ⨯∈C 为上三角矩阵.由于实矩阵的特征值可能是复数, 因此通常在复数域中考虑Schur 分解. 复数域中相应的矩阵名称及记号为:U 的共轭转置: T H U U =, 它在实数域即为转置矩阵. U 为酉阵: 若I UU U U H H ==, 它在实数域即为正交阵.A 为正规矩阵: 若H H AA A A =.常见的Hermite 阵(A A =H )、实对称矩阵(A A =T)、斜Hermite 阵(A A -=H)、实反对称矩阵(A A -=T)、酉阵(I AA A A ==HH)和正交矩阵(I AA A A ==TT)等均为正规矩阵. Schur 分解的一些特殊情况如下:● 上三角矩阵R 为正规矩阵当且仅当R 为对角矩阵. ● n 阶方阵A 为正规矩阵当且仅当存在酉阵U 使得H UDU A =,D 为n 阶对角阵. ● n 阶方阵A 为Hermite 阵当且仅当存在酉阵U 使得H UDU A =,D 为n 阶实对角阵. ●n 阶方阵A 为酉阵当且仅当存在酉阵U 使得H UDU A =,D 为n 阶对角阵,且对角元的模均为1.(三) 矩阵的Jordan 分解介绍矩阵的每一个特征值有两个重要的指标: 代数重数和几何重数. 一个特征值作为矩阵多项式的根个重数称为代数重数; 它对应的特征子空间的维数称为几何重数. 它们分别刻画了特征值在矩阵特征系统中的代数和几何的性质. 一般有, 代数重数≥几何重数. 当一个特征值的代数重数=几何重数, 称它为半单的; 而当代数重数>几何重数时称它为亏损的.n 阶方阵A 可对角化当且仅当它的所有特征值都是半单的, 此时称A 为单纯矩阵; 否则, A 不可对角化当且仅当它有亏损的特征值, 此时称A 为亏损矩阵.对于亏损矩阵, 只能将其经过相似变换为一个三角矩阵, 即为其Jordan 标准型. Jordan 标准型是一个块对角矩阵,每一个块称为Jordan 块, 其对角元便为矩阵的特征值.所谓矩阵A 的Jordan 分解即为通过可逆变换矩阵T 化为与之相似的Jordan 标准型J , 使得1-=TJT A .1. 关于Jordan 标准型J .对于特征值i λ, 它的代数重复度就是Jordan 标准型中以i λ为特征值的Jordan 块阶数的和,而其几何重复度(即与i λ相对应的线性无关的特征向量的个数)恰为以i λ为特征值的Jordan 块的个数.J 中以i λ为特征值、阶数为l 的Jordan 块的个数为l l l r r r 211-+-+,其中l i l I r )(rank A -=λ, n I I r i ==-=)(rank )(rank 00A λ.2. 关于变换矩阵T 可以通过Jordan 链得到. 将T 按J 的对角线上的Jordan 块相应地分块为()k T T T T ,,,21Λ=, 其中T i 为n ×n i 型矩阵.记()i n i i i i t t t T ,,,21Λ=, 则⎪⎪⎩⎪⎪⎨⎧+=+==-i n i n i i n i i i i ii i i i i112211t t At t t At t At λλλM ni j C t ∈, k i ,,2,1Λ=, i n j ,,2,1Λ=我们称向量in iii t t t ,,,21Λ为关于特征值i λ的长度为i n 的Jordan 链.显然该Jordan 链的第一个向量就是矩阵A 的关于特征值i λ的特征向量,称其为链首.而链中的第j 个向量则可由等价的方程()i ij ij n i n j ,,3,2,1Λ==--t t I A λ (2-45)求出.但是应当注意:1) Jordan 链的链首i1t 不仅要求是一个特征向量,而且还要求利用(2-45)可以求出Jordan 链中的其它向量i n ii t t ,,2Λ(即不是任何一个特征向量都可作为Jordan 链的链首).2) 对应于某个特征值i λ 的Jordan 链虽然一定存在,但当与i λ 相对应的线性无关的特征向量的个数大于或等于2时,关于特征值i λ的特征向量中的任何一个有可能都不能作为链首.因此我们必须从i λ的特征子空间中选取适当的向量作为Jordan 链的链首.(四) 矩阵的奇异值分解对于方阵,利用其特征值和特征向量可以刻画矩阵的结构.对非方阵情形,这些方法已经不适用.而推广的特征值--矩阵的奇异值分解理论能改善这种情况. 利用奇异值和奇异向量不仅可以刻画矩阵的本身结构,而且还可以进一步刻画线代数方程组的解的结构,是构造性的研究线代数问题的有利的工具.设nm ⨯∈C A , Hermite 半正定矩阵A A H 的特征值为021≥≥≥≥n λλλΛ, 称非负实数i i λσ=)(A (n i ,,2,1Λ=)为矩阵A 的奇异值.奇异值分解: 设A nm ⨯∈C, 且其秩rank(A )=r , 则存在m 阶、n 阶酉阵U 、V 使得H V ΣU A ⎪⎪⎭⎫ ⎝⎛=000, 其中),,,(diag 21r σσσΛ=Σ,),,2,1(r i i Λ=σ为矩阵A 的非零奇异值.U 与V 的列向量m u u u ,,,21Λ和n v v v ,,,21Λ分别称为矩阵A 的与奇异值i σ对应的左奇异向量和右奇异向量.利用矩阵的奇异值讨论矩阵的性质:(1) 矩阵A 的非零奇异值的个数恰为矩阵A 的秩.(2) },,,{span )(21r u u u A Λ=R , )(A N },,,{span 21n r r v v v Λ++=,其中nm R A ⨯∈∀,},|{)(n m R x y Ax R y ∈∀=∈=A R 为由A 的列向量生成的子空间,称为A 的值域或像空间,即},,,{span )(21n a a a A Λ=R 。