当前位置:文档之家› 矩阵特征值问题

矩阵特征值问题

2
§1、特征值的估计
由于工程计算中求矩阵尤其是高阶矩阵的 精确特征值通常比较困难,而许多情况下我们 只需要知道特征值在什么范围内变化或者落在 什么区域内,例如判断方阵的幂级数是否收敛 只要看方阵的特征值的模或谱半径是否小于1, 因此特征值的估计就显得尤其必要,这方面的 理论在特征值问题中相当经典。
由于
实际上是 的
一个
维子空间,因此我们希望将
搜索极值的空间放大到任意
维子空
间 。而增大后的集合的极大值不会比原集
合的小,极小值也不会比原集合大。
58
设有 则
,并假定
,即
59
并且当
时等号成立。因此
60
一般地,我们有
定理4 (Courant-Fischer)设

Hermite矩阵,其特征值为
,则
存在Hermite矩阵特征值的极值原理
48
一、 Rayleigh商
二次型
,如果存在
,那么
所以如果
,我们自然也希望
49
定义1 设
是Hermite矩阵,称
为矩阵 的Rayleigh商。 注意到
因此我们可以把对 在单位球面
的极性的讨论限定 上。
50
单位球面 是闭集,又因为
是 的连续
函数,因此根据多元函数的最值定理,
在 上存在最大值和最小值。由于特征值与
对于广义特征值问题
,可以通过
适当选择位移(shift)或极点(pole) ,再通过 求逆,将之转化为SEP:
这种方法的优点是特征向量不变,矩阵 奇 异时也可以使用,并且在求解邻近 的特征 值或绝对值很小的特征值时效率较高。缺点仍 然是 一般不是特殊矩阵。
35
例 3 (广义特征值问题的Cayley变换法)
3
一、从特征值问题的稳定性说起
工程计算中,求解特征值问题
的特征对
时,由于数据往往带有误差,
因此我们计算出的特征对
,实际上是
扰动后的特征值问题
的解。这里
4
我们希望知道矩阵元素的变化对特征对的影响。
由于我们一般只知道
或 的某个上界,
因此有必要研究如何利用这样的上界,尽可能
准确地估计 与 、 与 之间的差距,从
13
例 6 矩阵
经过对角相似变换
后,得
14
三个行Gerschgorin圆分别收缩为:
15
Gerschgorin定理与对角占优矩阵有密切关系。
定义7 对方阵
,如果
则称矩阵 为按行对角占优矩阵。如果
则称矩阵 为按行严格对角占优矩阵。
16
定理8 (Levy--Desplanques) 严格对角占优矩阵是可逆矩阵。
33
例 1 (广义特征值问题的直接变换法)
对于广义特征值问题
,可以两边
做 的逆变换,将之转化为SEP:
这种方法的优点是特征向量不变,但缺点是矩 阵 奇异时不能使用,并且当矩阵 是正定 Hermite阵时,矩阵 一般不再是对称矩阵, 因此不是保结构的算法,从而使计算复杂。
34
例 2 (广义特征值问题的位移求逆法)
特征值问题
1
特征值问题是线性代数的研究重点,在理论和应 用上都非常重要。 理论上 ,矩阵的特征值就是线性算子的谱。因此 可以从泛函分析里找到理论的支撑和生长点。 应用上,常微分方程(ODE)和偏微分方程(PDE)中 许多问题都可以转化为矩阵特征值问题。 矩阵特征值问题的算法也是高性能计算机的主要 计算任务之一。可大致分为求解稠密、中小型矩 阵全部特征值的变换类方法和求解稀疏、大型矩 阵部分特征值的投影类方法。

是等
价的。注意到等价矩阵的特征对之间的关系:
44
虽然矩阵束
也存在与Jordan标准型类似
的Weierstrass标准型及Kronecher标准型,但也
同Jordan标准型一样,在数值计算上存在困难。
从数值观点看,更吸引人的是Moler和Stewart
(1973)提出的广义Schur分解:
对矩阵
,存在酉矩阵
是原广义特征值问
41
证明:由于 是Hermite正定矩阵,所以有
再根据
是Hermite矩阵,所以有酉相似

,则有
42
最后根据
因此
这说明 广义特征值
,得

的特征值,因此也是
的特征值。
43
例 6 (基于广义Schur分解的QZ算法****)
对于广义特征值问题
,我们的目标
是寻找可逆矩阵
,使得
均为标准型。我们称
证明:令
,则矩阵
的元素
因此
,所以矩阵
可逆,即矩阵 可逆。
17
根据定理8,严格对角占优矩阵 没有零特 征值,而
这说明矩阵 的特征值 可能满足
由此,我们可以将Gerschgorin定理看成定理8 的“推论” 。
18
事实上,设矩阵 的特征值 不属于 的 Gerschgorin区域 ,则有
因此矩阵
严格对角占优,根据定理8
37

是广义特征值问题

特征对,
是标准特征值问题
的特征对。因为矩阵 是Hermite阵,所以有
完备的标准正交特征向量系,如果 都是单
位特征向量,那么
38
由于
这说明,广义特征向量 对矩阵 是正交的, 或称特征向量矩阵 是 正交(共轭)的 又由于 所以 这说明,广义特征向量 对矩阵 是加权正 交的,或称特征向量矩阵 是加权 正交 (共轭)的。
30
一、从 矩阵的视角看特征值问题
标准特征值问题 (SEP)
,即为
按此视角,广义特征值问题(GEP)

即为
类似地,我们有二次特征值问题(QEP)
31
这里系数矩阵为 矩阵,将矩阵元素即 多项式的次数推广到 次,可得多项式特征值 问题(PEP):
更进一步,从线性推广到非线性,我们有非线 性特征值问题(NEP):
的特征值分别为
。令
(1)对 的任意特征值 征值 ,使得
(2)存在
的排列
,存在 的特 ,使得
6
遗憾的是矩阵的特征向量一般不是矩阵元素的 连续函数,因此不一定是稳定的。
例 2 矩阵
的特征值为
,特征向量为

。而
的特征值为 ,
特征向量为

。矩阵 的
特征向量在
处不连续。
7
二、盖尔(Gerschgorin)定理
对于广义特征值问题
,如果已经
得到特征值的近似值 ,那么通过Cayley变换,
可以将之转化为SEP:
显然 这种方法实质上仍然是位移求逆法(SI)。
36
例 4 (广义特征值问题的Cholesky分解法)
对于广义特征值问题
,当 是正
定Hermite矩阵时,可以通过Cholesky分解
将之转化为SEP:
矩阵 仍然是Hermite矩阵,因此此算法是保 结构算法,并且说明特征值全是实数。
(1)矩阵 的特征值都位于其行盖尔区域内;
(2)若矩阵 有 个盖尔圆构成的并集 是
连通区域,并且与其余
个盖尔圆均不相
交,则 中恰好有 的 个特征值。
10
(1)的证明:
设 有特征对
,这里Leabharlann ,则令,则
,因此
从而
11
例 5 矩阵
的三个行Gerschgorin圆分别是:
12
因为相似变换不改变特征值,为了得到特征值
换先将 化为上Hessenberg矩阵 ,将 化
为上三角阵 ;
(2)QZ迭代,即对
使用一步位移QR迭
代,将 化为上三角阵或准上三角阵 ,同
时将 化成上三角阵 。这是本算法的核心
部分。
(3)计算
的特征对,并据此求出原
GEP的特征对。
47
§3、Rayleigh商和广义Rayleigh商
在物理、信息等学科及理论研究中,经常会遇 到Hermite矩阵的二次型函数的商的最大化或 最小化。这种商包括一个Hermite矩阵的 Rayleigh商和两个Hermite矩阵的广义Rayleigh 商。L.Rayleigh在1930年代研究振动系统的小 振荡时,为了找到合适的广义坐标,提出的一 种特殊形式的商,被后人称为Rayleigh商。
39
由于特征向量 相互正交,因此它们也可以看
成 维内积空间 的一组基,只是内积空间
的内积必须定义为 内积
,即
这样,对任意
,可得
因此得展开式
40
例 5 (广义特征值问题的同时合同对角化)
对于广义特征值问题
,如果
均为Hermite矩阵,并且 还是正定矩阵,那 么存在可逆矩阵 ,使得
这里 题的特征值。
是Hermite ,则
54
其余特征值是否有类似结论呢?

,并假定
,即
由于
,因此前面的证明可修改为
55
类似地,假定
,即
由于
,因此前面的证明可修改为
56
综上,一般地,我们有
定理3 设
是Hermite矩阵,其特征
值为
,相应的标准正交特征向
量为
。令

57
遗憾的是,定理2中的公式实用价值不大。因为 它们将 的计算限定在求Rayleigh商在 的局 部极值上,因此必须先求出 ,这在数值上是 比较困难的。
NEP的主要算法都是基于求解非线性方程组的 Newton法及其变体,目前尚不成熟。
32
二、广义特征值问题
结构动力分析、信号处理、通信等学科中经常 需要求解广义特征值:
相关主题