第3章 最小均方算法3.1 引言最小均方(LMS ,least -mean -square)算法是一种搜索算法,它通过对目标函数进行适当的调整[1]—[2],简化了对梯度向量的计算。
由于其计算简单性,LMS 算法和其他与之相关的算法已经广泛应用于白适应滤波的各种应用中[3]-[7]。
为了确定保证稳定性的收敛因子范围,本章考察了LMS 算法的收敛特征。
研究表明,LMS 算法的收敛速度依赖于输入信号相关矩阵的特征值扩展[2]—[6]。
在本章中,讨论了LMS 算法的几个特性,包括在乎稳和非平稳环境下的失调[2]—[9]和跟踪性能[10]-[12]。
本章通过大量仿真举例对分析结果进行了证实。
在附录B 的B .1节中,通过对LMS 算法中的有限字长效应进行分析,对本章内容做了补充。
LMS 算法是自适应滤波理论中应用最广泛的算法,这有多方面的原因。
LMS 算法的主要特征包括低计算复杂度、在乎稳环境中的收敛性、其均值无俯地收敛到维纳解以及利用有限精度算法实现时的稳定特性等。
3.2 LMS 算法在第2章中,我们利用线性组合器实现自适应滤波器,并导出了其参数的最优解,这对应于多个输入信号的情形。
该解导致在估计参考信号以d()k 时的最小均方误差。
最优(维纳)解由下式给出:其中,R=E[()x ()]T x k k 且p=E[d()x()] k k ,假设d()k 和x()k 联合广义平稳过程。
如果可以得到矩阵R 和向量p 的较好估计,分别记为()R k ∧和()p k ∧,则可以利用如下最陡下降算法搜索式(3.1)的维纳解:w(+1)=w()-g ()w k k k μ∧w()(()()w())k p k R k k μ∧∧=-+2 (3.2) 其中,k =0,1,2,…,g ()w k ∧表示目标函数相对于滤波器系数的梯度向量估计值。
一种可能的解是通过利用R 和p 的瞬时估计值来估计梯度向量,即 10w R p -=(3.1)()x()x ()T R k k k ∧=()()x()p k d k k ∧= (3.3) 得到的梯度估计值为(3.4) 注意,如果目标函数用瞬时平方误差2()e k 而不是MSE 代替,则上面的梯度估计值代表了真实梯度向量,因为2010()()()()2()2()2()()()()T e k e k e k e k e k e k e k w w k w k w k ⎡⎤∂∂∂∂=⎢⎥∂∂∂∂⎣⎦ 2()x()e k k =-()w g k ∧= (3.5) 由于得到的梯度算法使平方误差的均值最小化.因此它被称为LMS 算法,其更新方程为 (1)()2()x()w k w k e k k μ+=+ (3.6) 其中,收敛因子μ应该在一个范围内取值,以保证收敛性。
图3.1表示了对延迟线输入x()k 的LMS 算法实现。
典型情况是,LMS 算法的每次迭代需要N+2次乘法(用于滤波器系数的更新),而且还需要N+1次乘法(用于产生误差信号)。
LMS 算法的详细描述见算法3.1()2()x()2x()x ()()T w g k d k k k k w k ∧=-+2x()(()x ()())T k d k k w k =-+2()x()e k k =-图3.1 LMS 自适应RH 滤波器算法3.1 LMS 算法Initializationx(0)(0)[000]T w ==Do for 0k ≥()()x ()()T e k d k k w k =- (1)()2()x()w k w k e k k μ+=+需要指出的是,初始化并不一定要像在算法3.1小那样将白适应滤波器的系数被创始化为零:比如,如果知道最优系数的粗略值,则可以利用这些值构成w(0),这样可以减少到达0w 的邻域所需的迭代次数。
3.3 LMS 算法的一些特性在本节中,描述丁在平稳环境下与LMS 算法收敛特性相关的主要特性。
这里给出的信息对于理解收敛因子μ对LMS 算法的各个收敛方面的影响是很重要的。
3.3.1 梯度特性正如第2章中所指出的(见式(2.79)),在MSE 曲面上完成搜索最优系数向量解的理想梯度方向为()2{[x()x ()]()[()x()]}T w g k E k k w k E d k k =-2[()]Rw k p =- (3.7) 在LMS 算法中,利用R 和p 的瞬时估计值确定搜索方向,即()2[x()x ()()()x()]T w g k k k w k d k k ∧=- (3.8) 正如所期望的,由式(3.8)所确定的方向与式(3.7)所确定的方向很不同。
因此,当通过利用LMS 算法计算更加有效的梯度方向时,收敛特性与最陡下降算法的收敛特性并不相同。
从平均的意义上讲,可以说LMS 梯度方向具有接近理想梯度方向的趋势,因为对于固定购系数向量w ,有[()]2{[x()x ()][()x()]}T w E g k E k k w E d k k ∧=-w g = (3.9)因此,向量g ()w k ∧可以解释为w g 的无偏瞬时估计值。
在具有遍历件的环境中,如果对于一个固定的w ,利用大量的输入和参考信号来计算向量g ()w k ∧,则平均方向趋近于w g ,即 11lim ()M w w M i g k i g M ∧→∞=+→∑ (3.10)3.3.2 系数向量的收敛特性假设一个系数向量为w 。
的未知FIR 滤波器,被一个具备相同阶数的白适应FIR 滤波器利用LMS 算法进行辨识。
在未知系统输出令附加了测量白噪声n(k),其均值为零,方差为2n σ。
在每一次迭代中,自适应滤波器系数相对于理想系数向量0w ,的误差由N+1维向量描述:0()()w k w k w ∆=- (3.11) 利用这种定义,LMS 算法也可以另外描述为(1)()2()x()w k w k e k k μ∆+=∆+0()2x()[x ()x ()()]T Tw k k k w k w k μ=∆+-0()2x()[x ()()]T w k k e k w k μ=∆+-∆0[2x()x ()]()2()x()T I k k w k e k k μμ=-∆+ (3.12) 其中,0()e k 为最优输出误差.它由下式给出:00()()x()T e k d k w k =-00x()()x()T T w k n k w k =+- ()n k = (3.13) 于是,系数向量中的期望误差为0[(1)]{[2x()x ()]()2[()x()]}T E w k E I k k w k E e k k μμ∆+=-∆+ (3.14) 假设x()k 的元素与()w k ∆和0()e k 的元素统计独立,则式(314)可以简化为[(1)]{2[x()x ()]}[()]T E w k I E k k E w k μ∆+=-∆(2)[()]I R E w k μ=-∆ (3.15) 如果我们假设参数的偏差只依赖于以前的输入信号向量,则第一个假设成立,而在第二个假设中,我们也考虑了最优解对应的误差信号与输入信号向量的元素正交。
由上述表达式可得1[(1)](2)[(0)]k E w k I R E w μ+∆+=-∆ (3.16) 如果将式(3.15)左乘Q T (其中Q 为通过一个相似变换使R 对角化的酉矩阵),则可以得到[(1)](2)[()]T T TE Q w k I Q RQ E Q w k μ∆+=-∆'[(1)]E w k =∆+'(2)[()]I E w k μ=-Λ∆01'1200012[()]0012N E w k μλμλμλ-⎡⎤⎢⎥-⎢⎥=∆⎢⎥⎢⎥-⎣⎦ (3.17) 其中,'(1)(1)T w k Q w k ∆+=∆+为旋转系数误差向量。
应用旋转可以得到一个产生对角矩阵的方程,从而更加易于分析方程的动态特性。
另外.上述关系可以表示为'1'[(1)](2)[(0)]k E w k I E wμ+∆+=-Λ∆101'11(12)000(12)[(0)]00(12)k k k N E w μλμλμλ+++⎡⎤-⎢⎥-⎢⎥=∆⎢⎥⎢⎥-⎢⎥⎣⎦ (3.18)该方程说明.为了保证系数在平均意义上收敛,LMS 算法的收敛因子必须在如下范围内选取:max 10μλ<< (3.19)其中,max λ为R 的最大持征值。
在该范围内的μ值保证了当k →∞时,式(3.18)中对角矩阵的所有元素趋近于零.这是因为对于i =0,l ,…,N ,有1(12)1i μλ-<-<。
因此,对于较大的k 值,'[(1)]E w k ∆+趋近于零。
按照上述方法选取的μ值确保了系数向量的平均值接近于员优系数向量0w 比该指出的是,如果矩阵R 具有大的特征值扩展,则建议选择远小于上界μ值。
因此,系数的收敛速度将主要取决于最小特征值,它对应于式(3.18)中的最慢模式。
上述分析中的关键假设是所谓的独立件理论[4],它考虑了当i =0,1,…,k 时,所有向量()x i 均为统计独立的情况。
这个假设允许我们考虑在式(3.14)中()w k ∆独立于()x ()T x k k 。
尽管在x()k 由延迟线元素组成时,这个假设并不是非常有效,但是由它得到的理论结果与实验结果能够很好地吻合。
3.3.3 系数误差向量协方差矩阵在本节中,我们将推导得出自适应滤波器系数误差的二阶统计量表达式。
由于对于大的k 值,()w k ∆的平均值为零,因此系数误差向量的协方差的定义为00cov[()][()()]{[()][()]}T T w k E w k w k E w k w w k w ∆=∆∆=-- (3.20)将式(3.12)代人式(3.20),可以得到cov[(1)]{[2x()x ()]()()[2x()x ()]T T T T w k E I k k w k w k I k k μμ∆+=-∆∆- 0[2x()x ()]()2()x ()T T I k k w k e k k μμ+-∆02()x ()()[2x()x ()]T T T T e k k w k I k k μμ+∆-2204()x()x ()}T e k k k μ+ (3.21) 考虑到0()e k 独立于()w k ∆且正交于()x k ,因此上式中右边第二项和第三项可以消除。
可以通过描述被消除的矩阵的每一个元素来说明这种简化的详细过程。
在这种情况下, cov[(1)]cov[()][2x()x ()()()T T w k w k E k k w k w k μ∆+=∆+-∆∆2()()x()x ()T T w k w k k k μ-∆∆24x()x ()()()T T k k w k w k μ+∆∆2204()x()x ()]T e k k k μ+ (3.22) 另外,假设()w k ∆独立于x()k ,则式(3.22)可以重新写为cov[(1)]cov[()]2[x()x ()][()()]T T w k w k E k k E w k w k μ∆+=∆-∆∆2[()()][x()x ()]T T E w k w k E k k μ-∆∆24E{x()x ()()()}T T k k w k w k μ+∆∆2204[()x()x ()]T E e k k k μ+cov[()]2cov[()]w k R w k μ=∆-∆2222cov[()]44n w k R A R μμμσ-∆++ (3.23)计算式E{x()x ()[()()]x()x ()}T T TA k k E w k w k k k =∆∆包括了四阶矩,对于联合高斯输人信号样值,可以采用文献[4],[13]中描述的方法。