当前位置:文档之家› 声学场景深度识别系统设计

声学场景深度识别系统设计

声学场景深度识别系统设计 李嘉 ,黄程韦 。韩辰’ (1.江苏省广播电视总台,南京210013;2.苏州大学,苏州215006) 

摘要:基于视频的监控系统存在很多不足,声学场景识别系统依据基于人耳听觉仿生的目标声音识别技术,积极探 索先进的人耳仿生理论、特征提取技术、目标声音分类技术,实现对声音场景进行自动化分类和信息抽取,具有广泛的 应用前景。 

关键词:声音识别;声音场景;特征提取;神经网络 doi:10.3969/J.ISSN.1672—7274.2016.07.005 中图分类号:TN912 文献标示码:A 文章编号:1672—7274(2016)07—0012—03 

Talk about Acoustic Scene Recognition System Li Jia ,Huang Chengwei ,Han Chen (1.Jiangsu Broadcasting Corporation,Nanjing,210013;2.Soo Chow University,Suzhou,215006) 

Abstract:As video monitoring systems has many deficiencies,Acoustic Scene Recognition System is built on target voice recognition technology based on Bionic ear hearing,and actively explore advanced ear bionic theory, feature extraction,target sound classification technology.It can achieve the sound scene automated classification 

and information extraction,and has broad application prospects. 

Keywords:Voice Recognitio;Sound Scene;Feature Extraction;Neural Networks 

l 引言 2.2网络拓扑 

声学场景深度识别系统既可对目前的视频监控 进行有益的补充,以应对遮蔽、光照变化、死角等情 况,还可对声音信号场景进行识别,方便自动搜索海 量数据、识别目标,并实时发现和处理突发事件。 

音频传感器尺寸较小,可较为隐蔽的布放,也 可以和视频摄像头布置在一起,作为对视频监控的 有益补充,将采集的音频特征通过Wi—Fi、数据网络 或者有线方式传输给后台数据中心处理。 2系统设计 2.3功能设计 

2.1系统总体架构 系统总体框架如图1所示。 

I!兰竺竺 型F 1 2 DIGITCW2。 。 兰竺!竺}:: 兰 兰塑 

图1系统总体架构 

该系统可实现如下几个功能:场景识别,身份识 别,内容检索,声源定位与信号增强。 

3关键技术原理 3.1信号特征提取 通过对公共场所异常声音声谱图等特性的分 析,将公共场所异常声音信号转换为异常声音的声 谱图,采用2D.Gabor滤波器对声谱图时频特征进行 特征描述;采用随机非负独立成分分析(SNICA) 提取异常声音的声谱图特征,最后采用稀疏表示分 类(SRC)方法进行分类识别。 下面描述基于人耳掩蔽效应的增强算法。由于语 音信号通常是逐帧进行处理的,写成帧的形式 y(m n) x(m.n)+d{m.n) 式中,m为帧的序号,m=l,2,3…; 为帧内数据 点序号,n=O,1….,N.1,N为帧长。对等式两边进行 傅里叶变换,可得 Y(m.k)=X(m.k)+D(m.k) 式中,k是离散频率;Y(m, ,X(m, ,D , 分 别是含噪语音y(m, 、纯净语音 , 、噪声don, 的傅立叶变换。 

增强以后的语音幅度谱函数可以表达为 r r ]I .] X(m,k)=argminE{dI X(m, ),X flyo} X L L j J 

式中, 是m 帧带噪语音的傅立叶变换, 厂 ^] = (0,尼), (1,尼),...,rm.(m’,Ii})};dI X(m, ), I是 

X(m, )和 的距离度量函数,用来度量语音增强前 后语音谱的接近程度。 

目标是找到 f 。后1使得在条件期望之下的距离度 量函数最小。如果ml< ,那么就是对 f ,后)的因果估 计;如果,,z >,,2,那么就是对 ( , )的非因果估计。 

增强函数的形式可以表达为 

( ym) 式中,先验信噪比为 I t垒 生;后验信噪比 为 垒 。由 1递推 叫 的迭代算法为 I : (1+4mlm-l ̄m) ’ 1+; ̄mlm-1 l+ ̄mlm一1 定义信号功率谱估计 

=E (.j}) )垒 .= y )I I 

式中,A (后)为第m帧估计语音谱的幅度,则有 增强后的语音谱函数为 

Xm= ( ym) 按照如下形式的启 的参数化估计公式 

X(m,|i})= Teohnology Study 技术研究 

r(m,|i}) 式中,z(m,.j})是时间和频率的函数,定义如下 的误差函数 

6(m, )=X ( ,七)一 (m,七) 根据可听闻阈的要求,令 I ( ,k)1]≤T(m, ) 

上式就是令畸变噪声的能量在掩蔽阈值以下, 而不被人耳感知。为了推导方便,令 

M: !: (m, )+ I 一1 

则有 

E ,七)1)=E{X ( ,七)一 (m,Ji})I) 

=E{l ( ,七)一 (1+ y)y ( ,七)I) 

--E{Ix ( ,k)-M(1+My)(X(m,七)+D( ,.j})) I) 

=lE{x。( ,k)}-M(1+ 却)E{( ( , )+D(m,七)) )1 ≤T(m,|i}) 注意到E ( , ))= , {D (m,七)}= ,则有 

-T(m,k)≤ (1+My)( + )≤ + ( ,k) 当 一T(m, )≤0时,即语音信号功率小于掩蔽 阈值时,我们采用滤波函数,令 ( ,后)=1。 

当 -T(m, )≥o时,即语音信号功率大于掩蔽 阈值时,由于M>O,所以 

a ̄-T(m,k)≤M(1+M),)≤ o +d O +o 

可以看出不等号两边 相当于在维纳 滤波的基础上做了修正,令 B: -;T(m_,k)C

- o:+Oj o:+a 

化简后得到 

二 ± ≤ ≤二 ± ! 2y 2), 即 

二了 一 ≤ ( ,七)≤二 一 参数 (m,k)由人耳的听觉掩蔽阈值、估计的信 号功率谱、噪声功率谱、先验信噪比以及后验信噪 比共同确定,它可以动态的改变传递函数形状,以 

■2016 07数字通信世界1 3 -U 昌 : .二二.二二. 二 二二 

在模型优化方面,通过启发式优化方法,对模 型参数进行优化;通过高阶马尔科夫场对识别结果 进行动态纠正,提高识别鲁棒性。 

3.3深度机器学习 在深度机器学习方面,依据人耳听觉特性,研 究符合认知规律的深度神经网络模型。依据短时记 忆规律,提高声音目标的识别模型。 

3.4概率模型 高斯混合模型对这些数据的适应能力较强,可 能是多数应用场合的一种合理选择。高斯混合模型 (GMM)可以定义为 p( I )=∑a, ( ) 式中, 是语音样本的D维特征向量,t为其样本 序号;6 ( ),i=1,2,Ot ̄,』幌成员密度;a ,i=1,2,…,M 是混合权值。每个成员密度是一D维变量的关于均 值矢量 和协方差矩阵互的高斯函数,形式如下 

) 。xpi一吉( 一 )_ ( — j 其中混合权值满足条件: ∑ =1 完整的高斯混和密度由所有成员密度的均值矢 量、协方差矩阵和混合权值参数化。这些参数聚集 

一起表示为 

={ai, , ),i=1,2,…,M 根据贝叶斯判决准则,基于GMM的识别可以 通过最大后验概率来获得, 

Label=arg max(p(X, )) 式中,k为类别序号。 对于高斯混合模型的参数估计,可以采用EM (Expectation.maximization)算法进行。EM是最 大期望算法,它的基本思想是从一个初始化的模型 开始,去估计一个新的模型 ,使得p(X 1 )≥p(X 1 ) 

。这时新的模型对于下一次重复运算来说成为初始 模型,该过程反复执行直到达到收敛门限,这类似 于用来估计隐马尔科夫模型(HMM)参数的Baum. 

1 4 DIGITCW 。 。 

Welch重估算法。每一步的EM重复中,下列重估公式 保证模型的似然值单调增加: 

∑), 混合参数的重估:n = = 一 ∑∑), t=lⅢ=l r ∑ 

均值矢量的重估:,f = 广_ ∑)’ 

方差矩阵的重估: ∑), ( 一 i)( -uD = ———丁———一 ∑), 

t=1 

, —日 Ⅳ( l , ) i- Ⅳ( l , ) m=l GMM各个分量的权重、均值和协方差矩阵的 

估计值,通过每一次迭代趋于收敛。 

高斯混合模型中的混合度,在理论上只能推 导出一个固定的范围,具体的取值需要在实验中确 定,各高斯分量的权重可以通过EM算法估计得到, 在EM算法的迭代中,要避免协方差矩阵变为奇异 矩阵,保证算法的收敛性。 

4技术应用 声学场景识别系统目前有两大类应用:安防监 控和内容检索,这两类主要应用可以很好地用于智 慧城市中。基于音频的安防监控在工业、消费者、政 府部门有不同的应用。音频场景识别技术的另一个 重要应用,是在基于内容的多媒体检索中。■ 

参考文献 [1]李嘉,黄程韦,余华.语音情感的唯独特征提取和识别[J].数据采集与 处理,2012(03) [2]黄程韦,赵艳,金赞,于寅骅,赵力.实用语音情感的特征分析与识别的 研究[J].电子与信息学报,2011,33(1):112.116.EI:20111213768173 f3]3 黄程韦,金赞,王青云,赵艳,赵力.基于特征空间分解与融合的语音情 感识别[J].信号处理,2011,26(6):835-842 [4]Chengwei Huang,Dong Han,YongqiangBao,Hua Yu,and Li Zhao, Cross—language Speech Emotion Recognition in German and Chinese, ICIC Express Letters,vo1.6,no.8,August,2012,PP.2141-2146.EI: 20123515376775 [5]Chengwei Huang,Yun Jin,Yan Zhao,Yinhua Yu,Li Zhao,Speech emotion recognition based on re-composition of two—class classifiers. International Conference on Affective Computing and Intelligent Interaction and Workshops,Amsterdam,Netherlands,10-12 Sept.2009. ET:201O11127728】3

相关主题