当前位置:文档之家› 线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究∗段进伟, 史元春, 陈孝杰(清华大学计算机科学与技术系,北京市海淀区, 100084)Study on the Directing Performance of the Linear Microphone ArrayDuan Jin-wei, Shi Yuan-chun, Chen Xiao-jie(Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China)+ Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@Received 2007-07-31; Accepted 2007-08-31Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak.Key words: linear microphone array; speech source directing; theoretic error; directing performance摘 要: 麦克风阵列在人机交互中有着重要的研究和应用价值。

而线性均匀麦克风阵列最简单,其基本功能是声源的定向。

本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。

我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。

使用SRP-PHAT算法定向声源。

我们分析了声源定向时各种可能的理论误差,对实验结果进行了误差分析,并与可能的理论误差做了对比。

通过理论分析和对比实验,本文提出了线性麦克风阵列系统的性能评价指标,并给出了综合性能最优时的麦克风阵列系统参数配置。

关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能中图法分类号: ****文献标识码: A∗Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198;作者简介: 段进伟(1985-),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;2 1 研究背景语音是人机交互的一个重要方式,而如何得到高质量的语音信号一直是一个值得深入研究的课题。

麦克风是最常见的语音采集工具,但单个孤立的麦克风的使用要求说话人必须在物理上接近麦克风,以减少环境噪声的影响,这种使用方式限制了人的活动,十分不便。

为提高语音质量,解脱人们手持、或佩戴麦克风的束缚,基于麦克风阵列的语音处理技术逐渐成为一个新的研究热点。

麦克风阵列是利用多个麦克风排列成的一定形状的阵列,用阵列信号处理的方法,确定声源的位置、进而定向采音,提高信噪比,以获得高质量的语音信号,实现说话人方向的实时跟踪,相当于在一定范围内为每个人生成了一个虚拟的麦克风。

麦克风阵列在智能空间、新型人机交互、机器人导航等领域都有着广泛的应用。

本文研究的主要目的是分析各种参数变化对线性麦克风阵列定向性能的影响,获得线性麦克风阵列系统的性能评价指标,以及小型房间环境内综合性能最优时的麦克风阵列系统参数配置。

2 相关研究目前,在麦克风阵列的研究与实践领域中,研究的主要方向集中在麦克风阵列设计和阵列信号的处理方法上。

麦克风阵列设计主要包括硬件和拓扑结构的设计;麦克风阵列的拓扑结构中常见的有线性阵列,如ICRC 麦克风阵列[1],NIST 的Mark-III 麦克风阵列[2]等;T 形阵列,如CHIL 的T 型麦克风阵列[3];圆形阵列,如Yuki TAMAI 等人制作的32通道圆形麦克风阵列[4];平面阵列,如MIT 的LOUD 超大平面麦克风阵列[5]等。

其中,线性均匀麦克风阵列的结构最简单,也是组成其他拓扑结构阵列的基础,其基本功能是声源的定向。

而阵列的处理方法主要是声源定向定位技术,声源定向定位技术主要分为三大类:(1)基于最大输出功率可控波束方法(Steered Beamformers)[6];(2)基于高分辨率谱估计定向方法(High-resolution Techniques)[7];(3)基于到达时间差的两步定向方法(Time Difference of Arrival Procedures)。

声源定向算法可以参考实现的有GCC 、SRP 、GCC-PHAT 、SRP-PHAT [10]等声源定向算法。

然而麦克风阵列的部署依据,即麦克风阵列的组成与性能的关系,尚无可参考的模型;本文采用理论与实践相结合的研究方法,采用拓扑结构最简单的线性麦克风阵列,在两个实验系统上分析了麦克风数量、麦克风间距、系统数据采样率、声源音量等参数不同时对线性麦克风阵列系统定向性能的影响,获得了具有参考价值的性能评价指标和系统参数配置,对于麦克风阵列的研究与应用均具有基础性的意义。

3 麦克风阵列系统这一节中,我们将介绍本文实验系统的构成和麦克风阵列系统的基本实现原理。

3.1 实验系统的构成表1. 两套麦克风阵列系统的硬件对比 DAR 麦克风阵列 NI 麦克风阵列麦克风型号LD2450 BSWA MPA 416 麦克风灵敏度0.14V/Pa 50mV/Pa 采集卡型号 恒通DAR2000NI PCI 4472 采集频率16k / 32k 1.0k~102.4k 采样精度16bit 24bit 本底噪声 高 低本文主要研究的是测试麦克风间距、麦克风数量、组成阵列的元件(主要是麦克风和多路音频采集卡)性能的改变对线性麦克风阵列定向性能的影响,为此,我们搭建了两套线性麦克风阵列系统,为方便表述,根据两套系统采集卡型号的不同,我们分别将两套系统命名为DAR 系统和NI 系统,这两套系统都主要由一块多路音频采集卡和一个由8个麦克风组成的阵列组成。

为保证两套系统录音的同步性,我们使用了我们实验室开发的分布式软件平台Smart Platform [9]来控制两套系统同步录音。

组成两套麦克风系统的元件型号及参数段进伟史元春陈孝杰: 线性麦克风阵列定向性能的研究 3对比如表1所示,可以看出,NI系统的元件性能整体高于DAR系统。

实验环境是一个约650×550cm大小的房间,如图1所示。

由于我们此次实验的目的是测量线性麦克风阵列在水平面上的定向性能,因此将麦克风阵列的高度设置为150cm,和一般成人站立时嘴巴的高度差不多;两套线性麦克风阵列放置在房间中的同一位置,以使实验对比具有可信度,放置位置见图1。

为了便于测量,我们按照房间地面上方砖的布置,选择了57个点作为测试声源点,图1中的四个着色点由于有障碍物的存在而无法进行测试,则实际有53个测试点。

3.2 麦克风阵列系统的实现原理麦克风阵列系统可以分为两层,一个是负责同步声音采集的硬件层,另一个是语音信号处理的软件层。

线性麦克风阵列系统从声音采集到最终的高质量语音输出一共需要经过六个步骤,分别是声音采集、信号预放大、模数转换、信号同步、声源方向计算和语音增强输出,硬件层包含前面四步,而软件层包含后面两步。

图1 实验麦克风阵列和测试点的布局图2 误差与α、r/b的函数关系示意图硬件层主要由多个麦克风和一个多路音频采集卡组成,麦克风完成声音采集和信号预放大;多路音频采集卡则完成模数转换和多路信号的同步。

软件层的作用是对采集到的声音信号进行处理以估计声源的方向,然后根据结果,调整各通道的延迟和增益来增强语音信号,实现定向采音的功能。

相关主题