当前位置：文档之家› 语音合成

语音合成

问题Problem: 如何保证局部的时间结构，而使整体的时间长度发生变化？解决方法 Solution
将小段反复重复
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）
激励源分为浊音和清音。
T (a) 三角波
0
t1
T
t2
T1滤波器冲激响应
模型级联型、并联型、混合型。优点对音高、音长、音强等目标值可以通过设置激励和谐振器参数等来实现，调整起来较容易。缺点由于对声道的模拟不精确影响了合成的自然度；控制参数过多，导致实现困难。
Speech signal processing 2 共振峰合成技术
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）
如何将一段声音变慢或者变快？
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）
变慢一倍后的语谱图被拉长
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）
Speech signal processing 5 按规则合成
(c)声调与变调在连续的语流中，由于相邻音节之间的相互影响，各音节的基音频率时变曲线与孤立发音时的音节相比会发生较大的变异。（d)音长问题音长也是语音的重要特征之一，对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上。
对音系层的韵律事 1 语音合成技术概述-合成过程件预测：声调、语查找拼写错误，并将文本中分析文本中词或短语的边界，调、轻重、节律等出现的一些不规范或无法发标注词性、确定文字的读音，韵律标注音的字符过滤掉。同时分析文本中出现的数字、文本分析停顿姓氏、特殊字符、专有词语（韵律结构边界）文本规范化以及各种多音字的读音方式。携带文本标注携带韵律信息分析文本中每个句子的语法表示的文本和拼音信息重音结构和语义结构，确定语义分词语音的文本语调语音 & 词性标注对声学层的韵中心，句子的重音模式，语 & 生成调，从而为韵律处理提供必律参数预测语法分析要信息。韵律生成 & 语义分析
（1）提高合成语音的自然度（2）丰富合成语音的表现力（3）降低语音合成技术的复杂度（4）多语种文语合成
混合型共振峰模型
Speech signal processing 3 LPC参数合成技术
• 原理一个语音的采样能够用过去若干个语音采样的线性组合来逼近。 • 形式利用预测系数ai直接构成的递归型合成滤波器；利用反射系数ki构成格型合成滤波器。
u(n) =e(p)(n) + + 输入 kp e(p-1)(n) + + e(1)(n) -k2 k2 + + b(2)(n) + + e(0)(n) -k1 k1 + + b(1)(n)
语音合成定义为：通过机械的、电子的方法产生人造语音的技术。语音合成的三个层次:
Intention-To-Speech Concept-To-Speech
Text-To-Speech
Speech signal processing 1 语音合成技术概述- TTS
文本分析
韵律生成
语音生成
生文本
Speech signal processing 6 合成音质的评价
主观评价 •可懂度（清晰度）正确听辨被传送的、相互无联系的汉语单字的百分数。 •自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然。客观评价 • 时域测度 • 频域测度
Speech signal processing 6 语音合成的未来发展方向
对于音长的修改，就是找到分析信号的基音同步标注点与最后合成信号的基音同步标注点之间的对应关系，一般它们呈现一种线性关系，下图给出了音长缩短时的基音标注情况。
分析轴
合成轴 (b) 合成时映射关系
Speech signal processing 4 PSOLA合成技术
进行基频和音长的调整
(a) 提高基频
允许在叠加过程中有一定的误差
Speech signal processing 4 PSOLA基础-时间尺度的调整（TSM）

通过交叉相关方法确定
Speech signal processing 4 PSOLA合成技术
原理 (1) 对原始波形进行分析，进行基音标注。 (2) 对这些短时信号做必要的修正，形成一系列短时合成信号。 • 首先根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求，建立合成波形与原始波形之间基音周期的映射关系； • 再由此映射关系确定合成所需的短时合成信号系列。 (3) 将合成短时信号系列与目标基音周期同步排列并重叠相加得到合成波形。
Speech signal processing 4 PSOLA合成技术
(b) 降低基频
Speech signal processing 4 PSOLA合成技术
(c) 增加时长
Speech signal processing 4 PSOLA合成技术
(d) 减小时长
Speech signal processing 4 PSOLA合成技术
字音转换基频时长能量
Speech signal processing
Speech signal processing 1 语音合成技术概述建立韵律模型的两种方法基于规则的方法基于模型的方法
Speech signal processing 1 语音合成技术概述
• 语音生成方法主要目的：根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成符合要求的语音。主要方法: （1）共振峰合成（2）LPC（线性预测编码）参数合成（3）PSOLA（基音同步叠加）合成
Speech signal processing 2 共振峰合成技术
原理音色各异的语音具有不同的共振峰模式，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。
Speech signal processing 2 共振峰合成技术
Speech signal processing
语音合成
1 2
语音合成技术概述
共振峰合成技术 LPC参数合成技术 PSOLA合成按规则合成
3 4
5 6
语音合成的未来发展方向
Speech signal processing 1 语音合成技术概述
Speech signal processing 1 语音合成技术概述
Speech signal processing 5 按规则合成 (a) 重音规则指说话或朗读时读的比较重的音节或词语，要时间长一点、音程大一点。一般可以将汉语重音分为词重音和句重音两大类。（b)转接与音渡转接与音渡是音素序列转变成语音流时的动态变化规律。汉语发音中存在两种基本的过渡，即辅音与元音组合和元音与元音组合。前者称之为“转接”；后者称之为“音渡”。
基于拼接合成算法中需要解决的问题 • 声学基元的选择 •韵律修饰
Speech signal processing 5 按规则合成
选择更小的合成基元，加入庞大的规则库将其合成为词语或句子的合成方式，更侧重于各种合成规则的研究，因此称其为按规则合成。对汉语，基元一般应选声母和韵母。韵律规则也叫“超音段特征”，反映了语音在基频、共振峰、能量以及谱分布特性上的差异。主要包括声调、语调、重音等。
Speech signal processing 4 PSOLA合成技术
为原始语音段加基音标注是算法执行的基础。
• 浊音有基音周期，能够进行有效地标注。 • 对于清音，为了保持算法的一致性，一般标注为一个适当的常数。
需要按基音周期分别修改音长、基频及合成信号的幅值。
Speech signal processing 4 PSOLA合成技术
语音输出 x(n)
z-1
z-1
z-1
Speech signal processing 3 LPC参数合成技术
• LPC合成模型中的所有控制参数都必须随时间不断地修正。 (1) 对于清音语音段，可以简单地针对每一帧数据改变一次参数。 (2) 对于浊音语音段，根据控制参数改变时刻的选取不同，有基音同步合成和帧同步合成两种方式。 (3) 分析帧的长度固定，一般选择大于两个基音周期，因此为了得到每个基音周期起始处的控制参数，就必须进行内插。优点简单、易于实现。缺点合成语音样本需要很高的计算精度

e商务文档

语音合成

相关文档推荐：