当前位置:文档之家› 基于深度学习的语音增强简述

基于深度学习的语音增强简述

第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019•前沿与综述•基于深度学习的语音增强简述**本文于2018-12-30收到。

*国家自然科学基金(编号:61671381)0张晓雷(西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072)摘要:语音增强是一种将语音从干扰声中增强出来的技术。

它是语音信号处理的核心研究内容之一。

近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。

本文将简要回顾基于深度学习的语音增强技术。

首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。

关键词:深度学习,深度神经网络,语音增强,麦克风阵列A Brief Review to Deep Learning Based Speech EnhancementZHANG Xiaolei(Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China)Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech sig­nal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the devel­opment of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,inclu­ding machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays.Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrayso引言语音增强旨在将目标语音从背景干扰中分离出来。

它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。

人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。

在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。

所以,语音增强也被称为“鸡尾酒会问题”。

语音增强已经在信号处理领域中得到了广泛的研究。

根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。

单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CA­SA)[2]。

噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。

CASA基于听觉场景分析的感知原理,通过交替进行基音估计和2网络新媒体技术2019年基于基音的分组实现语音增强⑸。

具有两个及以上麦克风的阵列实现语音增强的原理与单声道语音增强不同。

例如,波束形成或空间滤波通过适当的阵列配置来增强从特定方向到达的信号、衰减来自其他方向的干扰'6'9)o最简单的波束形成方法是延迟-相加方法,它将来自目标方向的多个麦克风信号在相位上相加,使用相位差来减弱其他方向的信号。

噪声衰减量取决于阵列的间隔、大小和配置——通常麦克风数量越多、阵列尺寸越大,则噪声衰减的量越大。

当目标和干扰源位于同一位置或彼此接近时,则不能应用空间滤波。

此外,因为混响会破坏声源方位信息,所以在混响条件下波束成形的效用大大降低。

近几年来,语音增强被构造为一种有监督机器学习问题,其中CASA中的时间-频率(time frequency, T-F)掩模概念启发了有监督语音增强的学习目标的提出。

该增强方法将T-F掩模应用到混合声源的时频表示上以增强目标声源"一⑷。

T-F掩模的一个主要目标是理想二值掩模(ideal binary mask,IBM)问。

IBM的任意T-F掩模单元是一个二值信号,它表示在含噪语音的时频谱中,目标声源在该T-F掩模单元是否占据主导。

测听研究表明,IBM能同时大大提升听力正常的听者和听力受损的听者在含噪环境下的语音可懂度"-仍。

如果将IBM作为计算目标,语音增强就构造成了有监督学习的基本形式——二值分类。

在这种情况下,IBM在训练阶段被用作期望信号或目标函数。

在测试阶段,学习机器的目标是估计IBM。

自IBM首次被提出作为训练目标以来,多个更加有效的训练目标相继被提出,详见第1.2节。

自从语音增强被当作有监督分类问题以来,数据驱动的方法在语音处理领域得到了广泛的研究。

在过去十年中,有监督语音增强通过使用大量的训练数据和充足的计算资源显著地改善了增强性能[,8J9]O近几年来,基于深度学习的有监督语音增强促进了语音增强的快速发展。

本文将首先在第1节回顾基于深度学习的单声道语音增强算法;然后,在第2节回顾基于深度学习的固定阵列多声道语音增强算法;最后,在第3节介绍基于深度学习的自组织阵列多声道语音增强算法;第4节总结全文。

1基于深度学习的单声道语音增强—深度神经网络和训练目标,然后回顾本节首先介绍基于深度学习的语音增强模型的两个重要方面—基于深度学习的单声道语音增强的代表性算法。

1.1深度神经网络深度神经网络(deep neural network,DNN)中最流行的模型是包含有输入层、隐藏层、输出层,且相邻层之间是全连接的前馈多层感知机(feedforward multilayer perceptron,MLP)O MLP使用经典的反向传播算法进行训练如。

该算法通过梯度下降法优化网络权重,以最小化预测误差。

预测误差是预测输岀与期望输出在某个损失函数度量下的偏差,其中预测输出是MLP网络的输出,期望输出是有监督学习的数据标注。

当MLP用于分类问题时,常用的损失函数是交叉爛:厶」og(p,*)八i=I c=1其中,i表示输出层的第i个神经元,表示输出层的第i个神经元属于第C类的预测概率,/V和C分别表示输出层的神经元的数量和类的数量,厶”是一个二值表示式,当神经元i的期望类是c时,取l,c=1,否则取,=0o当MLP用于回归问题时,常用的损失函数是均方误差(mean square error,MSE):其中元和y,分别表示第i个神经元的预测输出和期望输出。

MI.P的表示能力随着层数的增加而增加叭,尽管在理论上,具有两个隐藏层的MLP可以逼近任何函数221o但是反向传播算法存在梯度消失问题,即由输出层向输入层反向传播的误差信号计算得到的梯度将随着层数的降低而逐渐变小或消失,导致较低层的连接权重没有得到充分训练。

近年来,研究人员针对该问题做了大量的改进工作,包括分层预训练、修正线性单元、残差网络等。

2期张晓雷:基于深度学习的语音增强简述3除了 标准的 MLP ,卷积神经网络(convolutional neural networks , CNN ) 23,24 循环神经网络(recurrent neural networks , RNN)、以及生成对抗网络(generative adversarial networks , GAN )也都在语音增强领域得到 广泛应用。

CNN 通过权值共享、下采样(subsampling)、池化等新颖的设计有效降低模型参数数量和利用了 数据的结构信息。

RNN 的独有结构是将当前时刻的隐藏单元输出作为下个时刻的隐藏单元的输入,非常适 合处理语音这一类具有时间序列特征的信号。

一种流形的RNN 是长短期记忆(long short - term memory, LSTM)模型:”,它引入了具有门的记忆单元有效避免了梯度消失或梯度爆炸问题。

GAN 包括一个生成模 型和一个鉴别模型e ,其中生成模型对有标记的真实数据建模.用于产生与有标记数据相似的“假数据”, 而鉴别模型用于区分真实数据和假数据;当真实数据与假数据无法区分时,网络训练完成。

GAN 用于语音 增强的核心思路是用鉴别模型替代生成模型的损失函数。

1.2训练目标定义一个合适的训练目标对基于深度学习的语音增强至关重要。

训练目标主要有两种:掩模和频谱映 射。

掩模将纯净语音和背景噪声的相对时频关系作为训练目标;频谱映射使用纯净语音的频域表示作为训 练目标。

基于深度学习的语音增强中第一个训练目标是理想二进制掩模(IBM):”"°:,定义如式(1)所示。

的=[1,HSNRg >LC(1)10, otherwise 其中t 和/分别指时间和频率。

如果T-F 掩模单元中的信噪比超过局部标准(local criterion , LC),则令这 个T-F 掩模单元的值为1,否则为0。

理想比例掩模(ideal ratio mask. IRM )可以看作IBM 向连续空间的扩展[31_341,定义如式(2)所示。

IRM =(--------単“-f (2)其中,S(S 和N(t,/y 分别指T-F 掩模单元中语音的能量和噪声的能量,0是可调参数.通常设为0.5。

相关主题