当前位置:文档之家› 多人声混叠语音信号的盲源分离算法研究

多人声混叠语音信号的盲源分离算法研究


一、引言
通信中的基本问题是要在一端精确或近似地有选择地 再现另一端的信息(Claude Shannon,1948)。盲源分离是在 缺乏混合系统和源信号先验知识的条件下,仅通过观测信 号来恢复出源信号,从而再现另一端的信息,已经成为目前 数字信号处理领域中最热门、最前沿的研究方向之一,并在 语音信号处理、特征提取与图象处理、无线通信的信号处 理、生物医学信号分离(脑电图EEG、脑磁图M EG、心电图
本文算法、In fo m a x算法、JA D E 算法。在语谱图中,横坐标 表示时间,纵坐标表示频率,而每像素的灰度值大小(颜色 的深浅)反映相应时刻和相应频率的信号能量密度。语谱图 中的花纹有横杠、乱纹和竖直条等,横杠是与时间轴平行的 几条带纹,它们是共振峰,从横杠对应的频率和宽度可以确 定相应的共振峰频率和带宽;竖直条是语谱图中出现与时 间轴垂直的一条窄条,每个竖直条相当于一个基音,条纹的 起点相当于声门脉冲的起点,条纹之间的距离表示基音周 期,条纹越密表示基音频率越高。从源信号和不同算法分 离出信号的语谱图上可以看出,本文算法分离后的语音频谱 的共振峰和基音分布最接近于源信号语谱图,只是在频谱 的能量(语谱图上表现为颜色的深度)略有差别,听觉上效 果更接近于源信号。
学术研究 Academic Research
基金项目:河南工程学院青年基金资助项目
多人声混叠语音信号的 盲源分离算法研究
栗科峰 栗 明 李小魁/河南工程学院 电气信息工程系(河南 郑州·451191)
摘 要: 介绍了一种基于峭度的盲源分离算法,利用峭度极
大来度量极大化非高斯性,通过渐进正交化的不动点迭代
法。 为了得到极大化峭度的绝对值,我们可以从某个初始
向量 w 开始,依据可用的样本值 z( z为P CA白化预处理 过的 数据),计算出使y=wTz的峭度绝对值增大最快的方向,然后 将向量w转到该方向。由公式1.5知wTz的峭度绝对值的导数 为:
(1.7)
在上式中,对于已PCA白化过的数据,有

由于我们是在单位球
通过PC机的音响分别播放分离出的四个语音信号,可 以准确地获得源信号所载的语音信息,验证了该算法的可
30
2011 No.1 栗科峰 栗 明 李小魁/多人声混叠语音信号的盲源分离算法研究
图1 源语音信号
学术研究 Academic Research
信号语谱图如图3所示: 在图3所示的语谱图中,从上到下依次为:源语音信号、
Li kefeng ,Li ming ,Li xiaokui (Henan Institute of Engineering,Department of Electrical Information Engineering,ZhengZhou,450052) Abstract: Introduce a method based on kurtosis blind source separation algorithm, using kurtosis maximization to measure Maximization of Nongaussianity, then Through Gram-Schmidt orthogonalization fixed-point iteration to find the independent components,and with noisy model of the separation of voice signal simulation, thus extracted interested target voice to verify the feasibility of the algorithm; By comparison with other BSS algorithm of separation result are the quantitative and qualitative analysis, verify the effectiveness of the algorithm and application prospect. Key Words: Kurtosis; BSS(Blind Source Separation) ; Maximization of Nongaussianity
(1.5) 对于零均值单位方差的随机向量,上式变为:
(1.6) 上式中,当随机向量为高斯分布时,峭度值为零,而超 高斯分布的峭度值大于零,亚高斯分布的峭度值小于零,并 且随机向量的非高斯性越强,峭度的绝对值越大。
三、基于峭度的渐进正交化不动点算法
快速不动点算法是由Hyvärinen等人提出来的,该类算 法有基于峭度最大、基于负熵最大、基于似然最大等形式, 这里,我们介绍一种基于峭度最大的渐进正交化不动点算
栗科峰 栗 明 李小魁/多人声混叠语音信号的盲源分离算法研究
31 2011 No.1
& Information
信息通信
communications
六、结束语
仿真试验结果表明本文介绍的基于峭度的渐进正交化
不动点盲源分离算法是有效的,对于带噪的混叠语音信号
具有较好的分离效果,无论是分离出语音信号的信噪比和
代前后wp和wp-1的点积应该几乎等于1,由此可以进行算法
收 敛的判定。当 p 等于需要 估计的独 立 成分数目时即完 成
ICA算法的分离运算,得到独立成分out =wpTz 。
四、算法的分离仿真及性能分析
为了验证本文算法在混叠语音信号分离中的应用,我 们采用M ATL A B7.3进行算法的仿真。试验 语音信号是在 5×6×3m的普通实验室通过PC机自带的麦克风所采集到的 四个语音信号,录音长度为6s,采样频率为16000Hz, s1.wav 为一段英文歌曲,s2.wav为一段中文朗读,s3.wav为阿拉伯 数字1~10的英文读法,s4.wav为阿拉伯数字1~10的藏语读 法,用随机矩阵A对四个源语音信号进行混合,并加入一定 程度的高斯白噪声,然后执行本文算法进行分离实验,源语 音信号和从带噪混叠信号中分离出的语音信号波形图如图 1、图2所示:
2. 定量对比不同算法的分离性能 我们还可以通过分析不同算法分离后语音信号与源信 号的相似系数来衡量不同ICA算法的性能优劣,si为源语音 信号,outi为分离后的语音信号,我们定义相似系数如下式:
图2 分离出的语音信号
行性。通过对比源语音信号与分离后的语音信号波形图可 以发现除了信号顺序的不确定性外,两者波形信息非常接 近,播放后的语音与源语音十分相似。
找到独立成分,并对带噪多人声混叠语音信号进行分离仿
真,从而提 取出感 兴趣的目标 语 音,验 证了该算法的可行
性;通过与其他盲源分离算法的分离结果进行定性和定量
的对比分析,验证该算法的有效性和应用前景。
关键词: 峭度; 盲源分离; 极大化非高斯性;
中图分类号:TN912.3
文献标识码:A
文章编号:1673-1131(2011)01-029-04
(1.11)
其中,cov(si,outi)为si与outi之间的协方差。当ICA算法的
分离结果outi确实是源信号si的较好估计时,将有
接近
于1,表示分离成功,当
接近于0,表示分离失败[3]。
对于不同算法计算的 如图4所示:
图3 三法分离出的信号与源信号的相关系数
从上图可以看出本文算法分离出的各个语音信号的相 似系数均很接近于1,表明分离成功,用扬声器播放出分离 后的信号可以轻松地获得语音信号中所携带的信息;而另 外两种算法对于带噪的混叠语音信号分离效果不佳,有些 分离结果接近于0,用扬声器播放出这些分离后的信号明显 混有多个源信号,而且可懂度不高。对比三种算法的分离结 果,明显看出本文算法对于多人声带噪混叠语音信号的分 离效果要优于JADE算法,而Infomax算法效果最差。
二、盲源分离基本理论
盲源分离起源于对“鸡尾酒会问题”(Cocktail-PartyProblem)的研究,即人耳可以在多人声嘈杂环境中专注于 某个人的声音,从而提取出我们感兴趣的目标话音信息,而 我们通过现代仪器却很难模拟实现人耳的这一功能。如果 没有任何假设条件和先验信息,仅由观测信号来确定源信
Research On Blind Source Separation Algorithm of Multiplayer Mixed-Speech Signal
其中一个独立成分。在白化空间中,不同的独立成分对应的
向量wi是彼此正交的,根据这一特性我们可以对已估计出 的独立成分进行渐进正交化,即一个接着一个地将独立成
分估计出来,这样可以避免算法的多个独立成分同时收敛
于同一个峭度最大值上。
即:
(1.10)
然后再对wp+1标准化:除以其范数
即可。
在算法的稳定收敛处,wp和wp-1应该具有相同的方向,即迭
ECG、肌电图EMG)等领域得到了广泛的关注[1]。 在语音信号处理领域,目前的语音识别与降噪增强算
法仅能够识别和处理混有环境噪声的语音信号,而对于人 声作为背景噪声的混叠语音信号就无能为力,而盲源分离 算法不受话音信号基音和谐波等声音特征的影响,在没有 目标语音信号的先验信息条件下,通过利用麦克风阵列来 模仿人类的耳朵,将采集到的混叠话音信号进行分离,从而 提取出我们感兴趣的目标语音。尤其在数字移动通信高速 发展的今天,如何从比较嘈杂的话音环境中分离出我们感 兴趣的话音信号,提高输入信号的可懂度将具有广阔的应 用前景。
栗科峰 栗 明 李小魁/多人声混叠语音信号的盲源分离算法研究
29 2011 No.1
& Information
信息通信
communications
号,从数学原理上讲是不可能的。但是出人意料的是,在一
个非常宽松的假设条件下,即假定源信号矢量的各个分量
是彼此独立的,同时允许一定的模糊性存在(信号幅度的不
相关主题