关于语音合成方法的调查报告摘要:本文是一篇关于语音合成方法的调查报告,在搜集整理大量相关文献的基础上,简要的总结了几种常用的语音合成方法,讨论各种合成方法的原理及算法,并简要分析各种合成方法的性能及适用场合。
关键词:语音合成;种类;原理;算法;性能正文语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。
语音合成从技术方式讲可分为波形合成、参数分析合成以及规则合成等三种。
1、波形合成波形合成法一般有两种形式。
一种是波形编码合成,它类似于语音编码种的波形编解码法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编辑压缩后存储,合成重放时再解码输出,称PCM波形合成法。
另一种是波形编辑合成,他把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。
1.1 波形编码合成基本原理:波形编码合成方法以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库。
重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。
性能分析:波形编码语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的细微特性,也叫录音编辑合成,合成单元越大,合成的自然度越好,其质量普遍高于参数合成。
且系统结构简单,价格低廉。
但合成语音的数码率较大,存储量也大,因而合成词汇量有限。
通常只能合成有限词汇的语音段。
目前用于自动报时、报站和报警等。
1.2 波形编辑合成基本原理:波形编辑合成方法将波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。
它采用语音编码技术,存储适当的语音基元。
合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。
算法简述:80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。
PSOLA就是基音同步叠加,它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。
该算法按以下三步实施:对原始波形进行分析,产生非参数的中间表示;对中间表示进行修改;将修改过的中间表示重新合成为语音信号。
由于修改的参数不同,又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。
PSOLA是用于波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法。
下图是利用PSOLA算法的语音合成系统的基本结构:图1 基于PSOLA算法的语音合成系统本质上说,PSOLA 算法是利用短时傅里叶变换重构信号的叠结相加法。
信号的x(n)短时傅里叶变换为:由于语音信号是一个短时平稳信号,因此在时域每隔若干个(例如R 个)样本取一个频谱函数就可以重构信号x(n),即可令: 其傅里叶逆变换为:然后就可以通过叠加得到原信号,即:时域基音同步叠加技术作为基音同步叠加技术的一种,通过以下步骤实现语音的合成: (1) 对语音合成单元设置基音同步标记。
(2) 以语音合成单元的同步标记为中心,选择适当长度(一般取两倍的基音周期)的时窗对合成单元做加窗处理,获得一组短时信号。
(3) 在合成规则的指导下,调整步骤1)中获得的同步标记,产生新的基音同步标记。
(4) 根据步骤3)得到的合成语音的同步标记,对步骤2)中得到的短时信号进行叠加,从而获得合成语音。
性能分析:PSOLA 算法在编辑和拼接语音波形前能根据上下文的要求,对拼接单元的韵律特征作出调整,而且音库中的采佯波形中保留了一部分原发音人的语音特征.这样使台成语音的自然度和清晰度都得到了显著提高。
2、参数分析合成参数分析合成多以音节、半音节或音素为合成单元。
首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。
在合成器中,通过合成参数的控制,将语音波形重新还原出来。
参数分析合成方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成、LPC 合成。
这类合成技术在的比特率低,音质适中。
为改善音质,发展了混合编码技术,主要手段是改善激励,如码本激励、多脉冲激励、长时预测规则码激励等,这样,比特率有所增大,同时音质得到提高。
参数分析合成的主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。
2.1 共振峰合成基本原理:语音合成的理论基础是语音生成的数学模型。
该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。
因此,声道参数、声道谐振特性一直是研究的重点。
习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。
音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。
再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),Z n e m n m x e X m nj j n ∈-=∑∞-∞=-ωωω)()()(Z n r e X e Y rRn j n j r ∈==,)()(ωωZm d e e Y m y m j j r r ∈=⎰∞∞-ωπωω)(21)(()()rr y m y m ∞=-∞=∑对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。
这就是共振峰合成技术的基本原理。
基于共振峰的理论有以下三种实用模型。
1)级联型共振峰模型在该模型中,声道被认为是一组串联的二阶谐振器。
该模型主要用于绝大部分元音的合成。
2)并联型共振峰模型许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。
3)混合型共振峰模型在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。
将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。
基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。
图2 共振峰合成器的系统模型性能分析:共振峰模型是基于对声道的一种比较准确的模拟,因而可以合成出自然度比较高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规则,最终用于共振峰合成系统。
高级共振峰合成器可合成出高质量的语音,几乎和自然语音没有差别。
但关键是如何得到合成所需的控制参数,如共振峰频率、带宽、幅度等。
而且,求取的参数还必须逐帧修正,才能使合成语音与自然语音达到最佳匹配。
但是,人们同时也发现该技术有明显的弱点。
首先由于它是建立在对声道的模拟上,因此,对于声道模型的不精确势必会影响其合成质量。
另外,实际工作表明,共振峰模型虽然描述了语音中最基本最主要的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。
另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。
2.2 LPC参数合成LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。
LPC语音合成器利用LPC语音分析方法,通过分析自然语音样本,计算出 LPC系数,就可以建立信号产生模型,从而合成出语音。
图3 LPC 语音合成器图3所示的线性预测合成的形式有两种:一种是直接用预测器系数,构成的递归型合成滤波器,其结构如图4所示 :图4 递归型合成滤波器用这种方法定期地改变激励参数 和预测器系数,就能合成出语音。
这种结构简单而直观,为了合成一个语音样本,需要进行p 次乘法和p 次加法。
它合成的语音样本由下式决定:其中, 为预测器系数;G 为模型增益;为激励;合成语音样本为 ;p 为预测器阶数。
直接形式的预测系数滤波器结构的优点是简单、易于实现,所以曾广泛被采用。
其缺点是合成语音样本需要很高的计算精度。
另一种合成的形式是采用反射系数 构成的格型合成滤波器。
它的合成语音样本由下式决定:其中,G 为模型增益; 为激励; 为反射系数; 为后向预测误差;p 为预测器阶数。
采用反射系数 的格型合成滤波器结构,虽然运算量大于直接型结构,却具有一系列优点:其参数 具有∣ ∣<1的性质,因而滤波器是稳定的;同时与直接结构形式相比,它对有限字长引起的量化效应灵敏度较低。
p a ))(n u i a )()1()(1n Gu n s a n s p i i +-=∑=i a )(n u )(n s 11()()(1)p i i i s n Gu n k b n -==+-∑ik i k ik ()i b n )(n u在实际进行语音合成时,除了构成合成滤波器之外,还必须在有浊音的情况下,将一定基音周期的脉冲序列作为音源;在清音的情况下,将白噪音作为音源。
而且,必须进行浊音/清音的判别和确定音源强度。
对于基音周期的检测,采用去掉共振峰影响后的最后一级残差信号 (前向预测误差)的自相关函数的方式是有效的。
这个残差信号的自相关函数也叫变形自相关函数 ,它除了可用来检测基音周期之外,也可用来区别浊音/清音等。
在之后找出 取峰值时的T,即从n=0开始,搜索基音周期可能存在的3~15ms 的区间,从而求出这个周期。
同样对于浊音/清音的判别方法,也可以采用误差信号 。
采用 的一个方法是利用 这个比值,如果是浊音的话, 则相当于 的一个极值。
所以可以设定 的比值在0.18以下为清音,在0.25以上为浊音,在这两个值之间引入了浊音度V 和清音度U 的概念,且U+V=1。
这时,确定U 和V 时要使U+V=1,即如图8-5所示,在U=1时为无声,只用白噪音作为音源。
在V=1时,为有声,使用与音调周期T 同步的脉冲序列作为音源。
在时,常常把对应于 和 的白噪音和脉冲序列的和信号作为音源。
图6 音源参数的设定法对于音源强度,可以直接使用相当于残差信号能量的,即采用 值。
用这种方法构成PARCOR 分析合成滤波器的整个结构如图7所示。
图7 PARCOR 分析合成滤波器)(p n e ()e r n ()0e r ()e r n )0(/)(e e r T r )(T r e ()e r n )0(/)(e e r T r 0.18()/(0)0.25e e r T r ≤≤U V (0)e r (0)e r 图5 变形自相关函数和基音周期检测 ()e r n ()e r n性能分析:LPC合成技术的优点是简单直观。