当前位置:文档之家› 语音合成

语音合成


问题Problem: 如何保证局部的时间结构,而使整体的时间长 度发生变化? 解决方法 Solution
将小段反复重复
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)
激励源 分为浊音和清音。
T (a) 三角波
0
t1
T
t2
T1滤波器冲激响应
模型 级联型、并联型、混合型。 优点 对音高、音长、音强等目标值可以通过设置激励和 谐振器参数等来实现,调整起来较容易。 缺点 由于对声道的模拟不精确影响了合成的自然度;控 制参数过多,导致实现困难。
Speech signal processing 2 共振峰合成技术
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)
如何将一段声音变慢或者变快?
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)
变慢一倍后的语谱图被拉长
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)
Speech signal processing 5 按规则合成
(c)声调与变调 在连续的语流中,由于相邻音节之间的相互影响,各 音节的基音频率时变曲线与孤立发音时的音节相比会 发生较大的变异。 (d)音长问题 音长也是语音的重要特征之一,对语音的可懂度、 自然度都有一定的影响。汉语中音长主要体现在韵 母的调型段长度上。
对音系层的韵律事 1 语音合成技术概述-合成过程 件预测:声调、语 查找拼写错误,并将文本中 分析文本中词或短语的边界, 调、轻重、节律等 出现的一些不规范或无法发 标注词性、确定文字的读音, 韵律标注 音的字符过滤掉。 同时分析文本中出现的数字、 文本分析 停顿 姓氏、特殊字符、专有词语 (韵律结构边界) 文本规范化 以及各种多音字的读音方式。 携带文本标注 携带韵律信息 分析文本中每个句子的语法 表示的文本 和拼音信息 重音 结构和语义结构,确定语义 分词 语 音 的文本 语调 语音 & 词性标注 对声学层的韵 中心,句子的重音模式,语 & 生成 调,从而为韵律处理提供必 律参数预测 语法分析 要信息。 韵律生成 & 语义分析
(1)提高合成语音的自然度 (2)丰富合成语音的表现力 (3)降低语音合成技术的复杂度 (4)多语种文语合成
混 合 型 共 振 峰 模 型
Speech signal processing 3 LPC参数合成技术
• 原理 一个语音的采样能够用过去若干个语音采样的线 性组合来逼近。 • 形式 利用预测系数ai直接构成的递归型合成滤波器; 利用反射系数ki构成格型合成滤波器。
u(n) =e(p)(n) + + 输入 kp e(p-1)(n) + + e(1)(n) -k2 k2 + + b(2)(n) + + e(0)(n) -k1 k1 + + b(1)(n)
语音合成定义为:通过机械的、电子的方法 产生人造语音的技术。 语音合成的三个层次:
Intention-To-Speech Concept-To-Speech
Text-To-Speech
Speech signal processing 1 语音合成技术概述- TTS
文本分析
韵律生成
语音生成
生文本
Speech signal processing 6 合成音质的评价
主观评价 •可懂度(清晰度) 正确听辨被传送的、相互无联系的汉语单字的百分数。 •自然度 用来评价合成语音音质是否接近人说话的声音,合成词语 的语调是否自然。 客观评价 • 时域测度 • 频域测度
Speech signal processing 6 语音合成的未来发展方向
对于音长的修改,就是找到分析信号的基音同步 标注点与最后合成信号的基音同步标注点之间的 对应关系,一般它们呈现一种线性关系,下图给 出了音长缩短时的基音标注情况。
分析轴
合成轴 (b) 合成时映射关系
Speech signal processing 4 PSOLA合成技术
进行基频和音长的调整
(a) 提高基频
允许在叠加过程中有一定的误差
Speech signal processing 4 PSOLA基础-时间尺度的调整(TSM)

通过交叉相关方法确定
Speech signal processing 4 PSOLA合成技术
原理 (1) 对原始波形进行分析,进行基音标注。 (2) 对这些短时信号做必要的修正,形成一系列短时 合成信号。 • 首先根据原始语音波形的基音曲线和超音段特征 与目标基音曲线和超音段特征修正的要求,建立 合成波形与原始波形之间基音周期的映射关系; • 再由此映射关系确定合成所需的短时合成信号系 列。 (3) 将合成短时信号系列与目标基音周期同步排列并 重叠相加得到合成波形。
Speech signal processing 4 PSOLA合成技术
(b) 降低基频
Speech signal processing 4 PSOLA合成技术
(c) 增加时长
Speech signal processing 4 PSOLA合成技术
(d) 减小时长
Speech signal processing 4 PSOLA合成技术
字音转换 基频 时长 能量
Speech signal processing
Speech signal processing 1 语音合成技术概述 建立韵律模型的两种方法 基于规则的方法 基于模型的方法
Speech signal processing 1 语音合成技术概述
• 语音生成方法 主要目的:根据韵律建模的结果,从原始语音库 中取出相应的语音基元,利用特定的语音合成技 术对语音基元进行韵律特性的调整和修改,最终 合成符合要求的语音。 主要方法: (1)共振峰合成 (2)LPC(线性预测编码)参数合成 (3)PSOLA(基音同步叠加)合成
Speech signal processing 2 共振峰合成技术
原理 音色各异的语音具有不同的共振峰模式,以每个共 振峰频率及其带宽作为参数,可以构成共振峰滤波器。再 用若干个这种滤波器的组合来模拟声道的传输特性(频率 响应),对激励源发出的信号进行调制,再经过辐射模型 就可以得到合成语音。
Speech signal processing 2 共振峰合成技术
Speech signal processing
语音合成
1 2
语音合成技术概述
共振峰合成技术 LPC参数合成技术 PSOLA合成 按规则合成
3 4
5 6
语音合成的未来发展方向
Speech signal processing 1 语音合成技术概述
Speech signal processing 1 语音合成技术概述
Speech signal processing 5 按规则合成 (a) 重音规则 指说话或朗读时读的比较重的音节或词语,要时间长一 点、音程大一点。 一般可以将汉语重音分为词重音和句重音两大类。 (b)转接与音渡 转接与音渡是音素序列转变成语音流时的动态变化规 律。 汉语发音中存在两种基本的过渡,即辅音与元音组合 和元音与元音组合。前者称之为“转接”;后者称之 为“音渡”。
基于拼接合成算法中需要解决的问题 • 声学基元的选择 •韵律修饰
Speech signal processing 5 按规则合成
选择更小的合成基元,加入庞大的规则库将其合成 为词语或句子的合成方式,更侧重于各种合成规则的 研究,因此称其为按规则合成。 对汉语,基元一般应选声母和韵母。 韵律规则 也叫“超音段特征”,反映了语音在基频、共振峰、 能量以及谱分布特性上的差异。 主要包括声调、语调、重音等。
Speech signal processing 4 PSOLA合成技术
为原始语音段加基音标注是算法执行的基础。
• 浊音有基音周期,能够进行有效地标注。 • 对于清音,为了保持算法的一致性,一般标 注为一个适当的常数。
需要按基音周期分别修改音长、基频及合成信号的幅 值。
Speech signal processing 4 PSOLA合成技术
语音输出 x(n)
z-1
z-1
z-1
Speech signal processing 3 LPC参数合成技术
• LPC合成模型中的所有控制参数都必须随时间不断地 修正。 (1) 对于清音语音段,可以简单地针对每一帧数据改 变一次参数。 (2) 对于浊音语音段,根据控制参数改变时刻的选取 不同,有基音同步合成和帧同步合成两种方式。 (3) 分析帧的长度固定,一般选择大于两个基音周期, 因此为了得到每个基音周期起始处的控制参数,就必 须进行内插。 优点 简单、易于实现。 缺点 合成语音样本需要很高的计算精度
相关主题