当前位置:文档之家› 语音信号处理语音识别剖析

语音信号处理语音识别剖析

❖ 现在,经过FFT变换或者LPC得到功率谱以后再经过对数变 换和傅立叶反变换得到的倒谱参数是常用的语音识别特征参 数。
9.2.2 语音识别
❖ 语音识别是语音识别系统的核心部分。除包括语音的声学模 型以及相应的语言模型的建立、参数匹配方法、搜索算法、 话者自适应算法,还包括增添新词的功能、数据库管理和友 好的人机交互界面等等。
❖ 语音识别方法:当今语音识别技术的主流算法,主要有基于参 数模型的隐马尔可夫模型(HMM)的方法和基于非参数模 型的矢量量化(VQ)的方法。另外,基于人工神经网络 (ANN)的语音识别方法,也得到了很好的应用。
传统的基于动态时间伸缩的算法(DTW),在连续语 音识别中仍然是主流方法。同时,在小词汇量、孤立字(词) 识别系统中,也已有许多改进的DTW算法被提出。
用于语音识别的距离测度有多种,如欧氏距离及其变形的 欧氏距离测度、似然比测度、加权的识别测度等。选择什么 样的距离测度与识别系统采用什么语音特征参数和什么样的 识别模型有关,
❖ 计算量和存储量的削减:对于在有限的硬件和软件资源下动 作的语音识别系统,降低识别处理的计算量和存储量非常重 要。当用HMM作为识别模型时,特征矢量的输出概率计算 以及输入语音和语音模型的匹配搜索将占用很大的时间和空 间。为了减少计算量和存储量,可以进行语音或者标准模式 的矢量量化和聚类运算分析,利用代表语音特征的中心值进 行匹配。在HMM语音识别系统中,识别运算时输出概率计 算所消耗的计算量较大,所以可以在输出概率计算上采用快 速算法。另外为了提高搜索效率,可以采用线搜索方法以及 向前向后的组合搜索法等。
9.1 概述
❖ 语音识别(Speech Recognition)主要指让机器听懂人说 的话,即在各种情况下,准确地识别出语音的内容,从而根 据其信息,执行人的各种意图。它是一门涉及面很广的交叉 学科,与计算机、通信、语音语言学、数理统计、信号处理、 神经生理学、神经心理学和人工智能等学科都有着密切的关 系。
一般语音识别系统按不同的角度有下面几种分类方法。
❖ 孤立词、连接词、连续语音识别系统以及语音理解和会话系 统。
❖ 大词汇、中词汇和小词汇量语音识别系统。
❖ 特定人和非特定人语音识别系统。
❖ 语音识别所采用的方法也可以作为语音识别系统分类的依据, 因此,也有从识别方法上来对语音识别系统进行分类的。语 音识别方法一般有模板匹配法、随机模型法和概率语法分析 法三种。
❖ 一般语音识别系统框图
9.2.1预处理和参数分析
❖ 语音信号预处理部分包括:语音信号的电压放大、反混叠滤 波、自动增益控制、模/数变换、去除声门激励及口唇辐射 的影响等。这里仅对个别需要注意的地方做一些介绍。
❖ 话筒自适应和输入电平的设定:输入语音信号的品质对语音 识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。 选择好的麦克风,不仅能提高输入语音质量,而且,还有助 于提高整个系统的鲁棒性。为了保持高精度的语音分析, A/D变换的电平必需正确的设定。同时还要通过AGC来自动 的调整输入电平放大的倍数或者通过对于输入数据进行规整 处理来控制语音数据幅度的变化。
❖ 语音参数分析:经过预处理后的语音信号,就要对其进行特征 参数分析,其目的是抽取语音特征,以使在语音识别时类内 距离尽量小,类间距离尽量大。识别参数可以选择下面的某 一种或几种的组合:平均能量、过零数或平均过零数、频谱、 共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关系 数)、声道形状的尺寸函数,以及音长、音高、声调等超声 短信息函数。
❖ 实用语音识别研究中存在的几个主要问题和困难如下: ❖ (1)语音识别的一种重要应用是自然语言的识别和理解。 ❖ (2)语音信息的变化很大。 ❖ (3)语音的模糊性。 ❖ (4)单个字母及单个词语发音时语音特性受上下文环境的
影响,使相同字母有不同的语音特性。 ❖ (5)环境的噪声和干扰对语音识别有严重影响。
❖ 抗噪声:环境噪声不可能完全消除。对于手自由的语音识别 (Hand-Free),话筒与嘴有一定距离的时候,以及在汽 车里或户外等周围环境噪声大的时候必须对输入信号进行降 噪处理。对于平稳噪声,传统的谱相减(SS)降噪声技术是 有效的,对于非平稳噪声也有通过两个话筒分别输入语音和 噪声相互抵消加以消除的方法。
❖ 语音模型:语音模型一般指的是用于参数匹配的声学模型。语 音声学模型的好坏对语音识别的性能影响很大,现在公认的 较好的概率统计模型是HMM模型。因为HMM可以吸收环 境和话者引起的特征参数的变动,实现非特定人的语音识别。
识别模型的基元单位的选择对于识别性能也有很大的影响。 对于日语和英语,以半音节、环境依存音素为模型的研究例 子较多。对于汉语,则可用“声母---韵母”,也可用音节 字、词等识别基元。
❖ 连续语音的自动分段:连续语音的自动分段,是指从语音信号 流中自动地分割出识别基元的问题。把连续的语音信号分成 对应于各音的区间叫做分割(Segmentation),分割的结 果产生的区间叫做分割区间(Segment),给分割区间付 与表示音种的符号叫做符号化。汉语自动分段是指根据汉语 特点及其参数的统计规律,设置某些参数的阈值,用计算机 程序自动的进行分段。通常可用的参数有:帧平均能量、帧 平均过零数、线性预测的第一个反射系数或其残差序列、音 调值等。从简单、快速的要求而言,最好采用前两种时域参 数即帧平均能量FN和帧平均过零数ZN。
9.2 语音识别原理和识别系统的组成
❖ 语音识别系统是建立在一定的硬件平台和操作系统之上的一 套应用软件系统。
❖ 语音识别一般分两个步骤。第一步是系统“学习”或“训练” 阶段。第二步是“识别”或“测试”阶段。
❖ 语音识别技术加上各种外围技术的组合,才能构成一个完整 的实际应用的语音识别系统。从语音识别系统的各个功能划 分别系统的核心算法部分以及语音识别系统的基本数据 库等几部分。
❖ 语音区间的端点检测:端点检测的目的是从包含语音的一段信 号中确定出语音的起点以及终点。有效的端点检测不仅能使 处理时间减到最小,而且能排除无声段的噪声干扰,从而使 识别系统具有良好的识别性能。传统的端点检测方法是将语 音信号的短时能量与过零率相结合加以判断的。但这种端点 检测算法如果运用不好,将会发生漏检或虚检的情况。为了 克服传统端点检测算法的缺点,已有很多改进方法被提出来。 例如,可以考虑采用基于相关性的语音端点检测算法。
相关主题