当前位置：文档之家› 多通道语音增强方法简介

多通道语音增强方法简介

多通道语音增强方法简介
【摘要】由于多麦克风越来越多地部署到同一个设备上，基于
双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价
值。介绍了自适应噪声对消法、fdm等双通道语音增强方法和波束
形成、独立分量分析等麦克风阵列语音增强方法，对各个方法的原
理、发展和优缺点进行了详细分析和总结，对多通道语音增强深入
研究有一定帮助。
【关键词】语音增强；双通道；麦克风阵列；波束形成
1.引言
语音是人们通讯交流的主要方式之一。我们生活的环境中不可避
免地存在着噪声，混入噪声的语音会使人的听觉感受变得糟糕，甚
至影响人对语音的理解。在语音编码、语音识别、说话人识别等系
统中，噪声也会严重影响应用的效果。语音增强成为研究的一个问
题，其模型如图1所示。
图1 语音增强模型
按照采集信号的麦克风数量分类，语音增强方法可被分为单通道
（single channel）、双通道（dual-channel）、麦克风阵列
（microphone array）三种类型。一般来说，麦克风越多，去噪的
效果越好。早期，大部分通信/录音终端都只配有一个麦克风，因
此单通道语音增强吸引了大量研究者的目光，方法较为成熟。但单
通道方法的缺点是缺少参考信号，噪声估计难度大，增强效果受到
限制。近年来随着麦克风设备的小型化和成本的降低，双麦克风和
麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音
增强向双通道和麦克风阵列语音增强转移，这里对已有的多通道语
音增强算法作以简单介绍。
2.双通道语音增强方法
在语音增强中，一个关键的问题就是获得噪声。在单通道语音增
强中，噪声是通过从带噪语音信号中估计得到的，估计算法较为复
杂且估计噪声总是与真实噪声存在差异，这就限制了增强效果的提
高。为了获得真实噪声，简单的做法就是增加一个麦克风来采集噪
声。从带噪语音信号中减去采集噪声来得到语音信号，这种方法叫
做自适应噪声对消法（anc，adaptive noise canceling），是最原
始的最简单的双通道语音增强算法。针对双麦克风开发的算法不
多，主要有噪声对消法、一阶差分麦克风（fdm，first-order
differential microphone）及基于fdm改进得到的自适应零陷波
束形成法（ anf，adaptive null-forming）。
2.1 自适应噪声对消法
噪声对消法采用两个麦克风，一个麦克风采集带噪语音，另一个
采集噪声信号，用带噪信号减去噪声信号，得到语音信号。减操作
一般在频域进行，如果采集到的噪声与带噪信号中的噪声足够相
似，甚至可以在时域上直接相减。以上是在理想情况下，实际中两
个麦克风的位置不同，两路信号之间存在着延迟、不同衰减、干扰，
但两路中的噪声成分都来自于同一噪声源，噪声之间仍然具有很强
的相关性。利用相关性，采用lms数字滤波器结合减操作，则可实
现自适应噪声对消。自适应噪声对消法适合于平稳的噪声环境，如
果噪声是非平稳的则会严重影响其效果。该方法假设噪声与语音是
不相关的，若噪声与语音相关，lms滤波的系数应在语音间歇期间
进行刷新，这里需要用到发声活动检测（voice activity
detection），增加了方法的复杂度，效果也不够理想。自适应噪声
对消法的另一个缺点是会引入音乐噪声。
2.2 fdm方法
fdm方法与噪声对消相似，不同的是根据麦克风位置对两路信号
进行差分计算，输出更精确的带噪语音信号和参加噪声信号。对得
到的两组信号进行自适应噪声对消，得到增强后语音。自适应滤波
可能不收敛，这将极大影响增强效果，且收敛速度慢也会使实时增
强难以实现。因此，文献利用单通道增强算法代替自适应噪声对消
法，带噪语音信号作为单路输入，参考噪声信号作为估计噪声，解
决了收敛问题及收敛过程中的噪声泄露问题。
噪声对消和fdm都是相关去噪，假设噪声和语音是独立不相关的，
噪声和噪声之间是相关的。
3.麦克风阵列语音增强方法
麦克风阵列语音增强，主要采用阵列信号处理技术进行增强，其
中有波束形成（beamforming）和独立分量分析（ica，independent
component analysis）。波束形成法在20世纪八十年代中期开始被
用于语音信号处理。波束形成是空间滤波技术，它从麦克风阵列获
得的一组信号中找出一个特定方向的信号，而把其他方向的信号忽
略掉。波束形成方法可以分为三种：固定波束形成，自适应波束形
成，结合后置滤波（postfiltering）的波束形成。
3.1 固定波束形成
固定波束形成（fb，fixed beamformer）分为延时求和波束形成
和滤波求和波束形成，它是因权值或滤波器权重是固定的而得名。
固定波束形成由三个模块组成：延时估计模块，延时补偿模块，加
权/滤波相加模块，其原理结构如图2所示：
图2 固定波束形成原理图
图中，当为一固定常数时为延时求和波束形成，当w代表滤波器
冲击响应时为滤波求和波束形成。固定波束形成法结构简单，实现
容易，适合平稳背景噪声，但由于w是固定的，不能自适应地处理
噪声多变的情况，对高斯白噪声等非相关噪声处理效果较好，不能
处理相关噪声。
3.2 自适应波束形成法
自适应波束形成法（adaptive beamforming）是为多变的噪声环
境设计的，它根据输入信号调整滤波器权重，使波束方向零陷对准
噪声方向。该方法采用优化的方法来估计语音信号，优化的准则有
最大信噪比，最小均方误差，线性限制最小方差等。frost基于线
性约束最小方差（lcmv，linearly constrained minimum variance ）
准则提出了一种波束形成方法，它的自适应机制是带约束的最小均
方（lms，least-mean-sqare）适应。其原理结构如图3所示：
图3 frost波束形成原理图
lcmv波束形成包括四部分：时延估计，时延补偿，带约束的最优
化滤波，求和输出。为克服frost方法的约束，griffiths和jim
提出了一种广义旁瓣消除器（gsc ，generalized sidelobe
canceller）自适应波束形成，它把约束和最小化分为两部分。其
原理结构如图4所示：
图4 gsc波束形成原理图
gsc波束形成将frost算法改进为上下两通道加自适应滤波的形
式。上通道是一个固定波束形成器，用于产生带噪语音信号；下通
道是一个阻塞矩阵，用以产生参考噪声；对两路信号进行自适应滤
波得到语音信号。时域的gsc假设各麦克风接收到的是语音信号的
不同延迟版本，因此又叫做延迟广义旁瓣消除器（d-gsc）。频域的
gsc由gannot等人发明，叫做转移函数广义旁瓣消除器（tf-gsc）
能够处理更为复杂的声场转移函数（atfs，acoustic transfer
functions）。 frost和gsc波束形成算法能较好的处理相干噪声，
但对于非相干的噪声处理效果不佳。
3.3 后置滤波波束形成
后置滤波波束形成可以有效地处理非相干噪声，它由zelinski
在1988年提出。其原理结构如图5所示：
图5 后置滤波波束形成原理图
在gsc的自适应滤波阶段，由于采用lms滤波器，要求噪声之间
是相关的。后置滤波法用维纳滤波器代替了lms滤波，实现对非相
干和漫射噪声的消除。
3.4 独立分量分析
ica是在研究盲源分离过程中出现的一种全新的信号处理和数据
分析方法。ica能够从混合信号中分离出各个独立分量，它不需要
知道源信号和传输信道的参数，仅仅通过分析观测到的混合信号的
统计特性。ica的原理如图6所示。
图6 ica原理图
图中展示的是有个源信号，用个麦克风来采集，表示源信号，为
每个麦克风采集的混合信号。混合矩阵表示混合信号是由源信号的
线性叠加得到的，混合矩阵式未知的，在现实中，它是由信源位置
和麦克风位置决定的。ica对个混合信号进行处理，分解混合信号
恢复个独立的源信号。用ica进行信号分离必须满足以下条件：
（1）麦克风数量大于等于源信号数量，及；
（2）源信号之间是相互独立的；
（3）混合信号是独立源信号的线性叠加；
（4）属于高斯分布的源信号最多只有一路；
带噪语音中的噪声一般是加性的，即使是乘性的也可以通过求对
数转换为加性的；噪声和语音的产生过程是不相关的。因此可将带
噪语音认为是独立源语音和独立源噪声的线性混合信号，应用ica
来进行语音增强。对于多声源噪声情况也是适用的。

e商务文档

多通道语音增强方法简介

相关文档推荐：