JIU JIANG UNIVERSITY毕业论文(设计)题目基于声纹的说话人特征识别英文题目 Speaker feature recognition based on the voiceprint院系专业姓名年级指导教师2013年6月摘要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术。
它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。
目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。
本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。
通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。
关键字:说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱Speaker feature recognition based on the voiceprintAbstractSpeaker recognition is the voice parameters in a speech waveform which reflects the speaker's physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker.Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate,formant, the line spectrum of the Linear Prediction Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC).This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the Matlab7.0 platform, voice pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective .Key Words:Speaker Recognition;Feature Parameter;Pitch;Linear Prediction Cepstral Coefficient;Mel Frequency Cepstral Coefficient目录摘要 (I)Abstract....................................................................................................................... I I 目录.. (IV)引言 (1)第一章说话人识别研究 (4)1.1说话人识别研究的意义 (4)1.2说话人识别应用领域 (5)1.3说话人识别的技术优势 (6)1.4说话人识别研究的难点和热点 (7)1.4.1说话人识别技术研究的难点 (7)1.4.2说话人识别研究的热点 (10)1.5影响说话人识别性能的因素 (11)1.6论文的内容安排 (13)第二章说话人识别的基本介绍 (14)2.1语音的基础知识 (14)2.1.1语音的产生原理 (14)2.1.2语音产生模型 (15)2.1.3语音信号的预处理技术 (17)2.2说话人识别的分类 (20)2.3说话人识别的基本原理 (22)2.4说话人识别的常用特征 (24)2.5说话人识别系统的结构框架 (25)2.7说话人识别系统评价标准 (31)第三章特征参数的提取 (32)3.1 倒谱 (32)3.1.1 同态处理基本原理 (32)3.1.2 复倒谱和倒谱 (34)3.2线性预测倒谱(LPCC)的提取 (34)3.2.1 LPCC的介绍 (34)3.2.2 LPCC的提取过程 (36)3.2.3 Matlab中实现LPCC的提取 (36)3.3 Mel频率倒谱(MFCC)的提取 (38)3.3.1 Mel频率介绍 (38)3.3.2 MFCC提取过程 (39)3.3.3 Matlab中实现MFCC的提取 (41)3.4 基音周期的提取 (43)3.4.1基音周期的介绍 (43)3.4.2短时自相关函数 (45)3.4.3 MATLAB中实现基音周期的提取 (47)第四章说话人识别系统的实现 (47)4.1 实验实现的环境 (47)4.2 WA V声音文件格式分析 (48)4.3实验平台的选择 (49)4.4录音 (50)4.5 预处理和端点检测 (50)4.7 系统实验框图和步骤 (52)4.8实验结果和分析 (52)4.8.1实验结果 (52)4.8.2 结果分析 (60)4.9 小结 (60)参考文献 (60)附录 (61)致谢 (85)引言语音是人类交流信息的基本手段。
随着信息科学飞速发展,如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。
语音信号处理技术的发展依赖这些学科发展,而语音信号处理技术的进步也会促进这些学科的进步。
因此,语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。
语音信号的研究一般都基于语音信号的数字表示,因此语音信号的数字表示是进行语音信号数字处理的基础。
语音信号的数字表示基本上可以分为两大类:波形表示和参数表示。
波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”,而参数表示则是把语音信号表示成某种语音产生模型输出。
为了得到参数表述,首先必须对语音进行采样和量化,然后再进一步处理得到语音产生模型的参数。
语音模型的参数一般可分为两大类:一大类是激励参数;另一大类是声道参数。
对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面:1.从语言中产生和听觉感知来研究——语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动,从而形成声波的传播。
听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动,然后逐级传递到大脑皮层的语音中枢。
2.将语音作为一种信号来处理——早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域,后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。
到了八十年代,出现了分析合成法、码激励线性预测(CELP)、矢量量化(VQ)以及马尔可夫模型(HMM)等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。
语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容,但其前提是对语音信号进行分析。
只有将语音信号表示成其本质特征的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别模版或知识库。
而且语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。
例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。
有如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。
因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。
进行语音信号分析时,最先接触到的、最直观的是它的时域波形。
语音信号本身就是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。
时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。
常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分析法等。
频谱分析具有如下有点:时域波形较容易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽建性。
另外,语音信号的频谱具有非常明显的声学特征,利用频域分析获得的语音特征具有实际的物理意义。
如共振峰参数、基音周期等参数。
倒谱域是将对数功率谱进行反傅里叶变换后得到,它可以进一步将声道特征和激励特征有效的分开,因此可以更好地揭示语音信号的本质特征。
语音信号处理的主要应用包括:语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。
近年来,各个分支都取得了很大的进步,已经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。
本文要进行的是语音信号处理在说话人识别中的应用,以完成说话人识别系统的功能实现。