当前位置：文档之家› 开源TTS语音合成和处理合集整理

开源TTS语音合成和处理合集整理

开源TTS/语音合成和处理工具
1.eSpeak-Chinese
eSpeak-Chinese是一个TTS软件。

它是基于Jonathan Duddington 的eSpeak，由于中文词典太大，eSpeak缺省并不带中文词典，需另外下载。

发布
eSpeak-Chinese只是为了方便用户安装。

国语支持的主要贡献者：
•Kyle Wang （waxaca at ) –创建了最初的字典，规则和声音文件。

•Silas S. Brown (/ssb22/) - 改进词典(加入CEDICT等).
粤语支持的主要贡献者:
•黄冠能 - 创建了粤语字典，简易的规则和声音文件。

eSpeak-Chinese是eGuideDog项目的重要组成部分。

另一个中文TTS(余音)在开发中。

它在设计上更简易但文件较大。

由于使用了真人发声，它比eSpeak的声音更自然。

目前它只支持粤语。

2.Flite
Flite是一个小型、快速的TTS系统，是著名的语音合成系统festival的c版本。

可用于嵌入式系统
3.FreeTTS
FreeTTS 是完全采用 Java 开发的语音合成系统，它是卡内基梅隆大学基于Flite 这个小型的语音合成引擎开发的。

FreeTTS是一个语音合成系统写的JavaTM编程语言完全。

它是根据Flite公司：一个小运行时语音合成引擎卡内基梅隆大学的发展。

弗莱特来源于节语音合成系统，从爱丁堡大学和卡内基梅隆大学的festvox项目。

这种FreeTTS版本包括：*核心语音合成引擎*支持的多寡：邻一8kHz的双音子，男，美国英语语音办公16KHz的双音子，男，美国英语语音办公16KHz的有限域，男*美国英语语音的festvox的进口（美国英语的声音只）*对进口的festvox（仅限美式英文）*支持工具中央结算系统的MBROLA北极的具体支持，支持的声音声音（单独下载）：办公自动化16KHz的女性，美国英语语音O 2个16KHz的男性声音*美国英语为JSAPI 1.0 *广泛的API文档部分支持*几个演示应用
4.eSpeak
eSpeak是一个紧凑的开放源码软件的语音合成器为英语和其他语言，为Linux 和Windows 。

eSpeak生产高质量的英语演讲。

它使用了不同的合成方法从其他开源语音合成引擎，和声音完全不同。

这也许不是作为自然人或“平稳” ，但我觉得发音更清晰，更容易听很长时间。

它可以运行命令行程序发言的文本文件或从标准输入。

一个共享库的版本也已推出。

•包括不同的声音，其特点可以改变。

•能产生语音输出为WAV文件。

• SSML （语音合成标记语言）的支持（未完成），并使用HTML 。

•该计划及其数据，其中包括数种语言，总计约700千字节。

•可以把文字，音素代码，所以它能够适应作为一个前端另一个语音合成引擎。

•潜在的其他语言。

一些包含在不同阶段所取得的进展。

帮助母语为这些或其他语言的欢迎。

•开发工具可用于生产和调整音素数据。

•写在C + +
Windows版本目前的Windows SAPI5和命令行版本的eSpeak 。

SAPI5版本的可以使用屏幕阅读器，如完，颌骨，超新星，以及窗的眼睛。

它们可以作为一个Windows安装程序包
该eSpeak语音合成器支持几种语言，但在大多数情况下，这些都是初稿，并需要更多的工作来改善。

援助的母语是值得欢迎的这些或其他新的语言。

请与我联系如果你想帮助。

eSpeak没有文字，语音合成的语言，一些比别人做得更好。

南非荷兰语，粤语，克罗地亚语，捷克语，荷兰语，英语，世界语，芬兰语，法语，德语，希腊语，印地语，匈牙利语，冰岛语，意大利语， Lojban ，马其顿语，普通话，挪威语，波兰语，葡萄牙语，罗马尼亚语，俄语，塞尔维亚语，斯洛伐克语，西班牙语，斯瓦希里语，瑞典，越南，威尔士。

5.OpenVXI
OpenVXI 提供的是完整的 VXML 解析服务，同时也提供了有限语言的 TTS 支持。

Voice eXtensible Markup Language（简称 VXML）是被用来创建语音对话系统，可以调用语音合成以及语音识别服务，可以用来记录语音录入和连接电话系统。

创建 VXML 语音的主要目的就是用 Web 开发的理念来开发交互式的语音应用。

VXML 提供了基于 Menu 和基于 Form 的两套框架，整合了语音识别和语音合成两个关键服务，使得语音应用的开发变得更为方便和快捷。

VXML 和普通的标记语言一样，需要有浏览器进行解析；还需要提供语音识别和语音合成服务的应用服务器；有时也需要有 http 服务器提供文档服务；当然，如果需要与电话系统相连，就必须加上 VOIP （网络电话）的支持。

如下图所示
的就是 VXML 的运行环境：
图 1. VXML 运行环境
一个企业级应用的系统框架
IVR (interactive voice-response services) 也就是自动应答服务，是使用VXML 的典型企业级应用。

IVR 和使用者通过电话，按键 (DTMF) 互动，如语音订票，语音查询，语音投票等。

普通的 IVR 都是支持 VXML 的解析和提供了 sip 协议的支持，通过和 ASR ( 语音识别 ) 应用服务器以及 TTS( 语音合成 ) 应用服务器的集成，可以实现几乎所有的 VXML 封装的操作。

企业级的 VXML 应用需要如下的体系结构，以使用 IBM Voice Server (WVS) 为例：
图 2. 一个 VXML 具体应用的例子
上图中的 IVR 事实上就是 VXML 解析器，通过解析 VXML，分发相应的工作给WVS ，实现 VXML 封装的语音识别和语音合成的功能。

6.Festival
Festival 是 Linux 下的一个语音合成软件
使用方法：
$ festival --tts letter.txt
$ festival
festival> (SayText "Greetings from ") $festival> (tts "myfile.txt")
在线演示：/projects/festival/onlinedemo.html 7.MBROLA
MBROLA 是一个 TTS 引擎，旨在尽可能的提供各种语言的语音合成器，这些语言在其首页上都有说明。

8.AstLinux
AstLinux 是一个定制的Linux发行版，主要是围绕这asterisk这个语音交换软件定制的。

9.HTS (HMM-based Speech Synthesis System)
HTS (HMM-based Speech Synthesis System)是一个语音合成系统
阅读 HTS 所使用的技术和算法，请看：
http://hts.sp.nitech.ac.jp/?Publications
10.Festvox
Festvox 是卡内基梅隆大学语音项目组开发的语音合成系统
11.Speak It
阅读的书页或选定文本使用微软语音合成引擎...
12.语音识别系统 Simon
Simon 是一个开源的语音识别系统，它不仅可以输入文字，而且可以代替键盘、鼠标操作电脑。

Simon 基于Qt用 C++ 开发，因为某些支持库与 KDE 相同，所以可完美的集成到KDE4 中。

除 KDE 之外，Simon 也可在GNOME、Xfce、及其他 X11 环境下运行。

13.语音合成引擎 gnuspeech
Gnuspeech是一个可扩展的语音合成实现包的基础上，实时，发音，语音合成按规则。

也就是说，它转换成语音的描述文本字符串，由一个发音辞典，信中对声音的规则，节奏和语调模型资助;参数转换成一个低级别的发音合成的语音说明，以及利用这些驱动发音模型的制作人声是正常的声音输出的GNU / Linux的设备输出合适的道
14.语音合成引擎 Epos
Epos 是一个跟语言本身无关的规则驱动的语音合成系统，主要作科研用途
在线演示：http://epos.ure.cas.cz/cgi-bin/saye.cgi?lang=czech
15.语音合成软件 NeXTeNS
NeXTeNS 是一个荷兰语的Text-to-Speech的软件。

16.JVoiceXML
Java VoiceXML Interpreter 一个用Java写的免费VoiceXML的解析器，支持JSAPI、JTAPI。

17.语音合成引擎 MARY
MARY 是一个支持英语、德语和藏语的 Text-to-Speech 合成系统。

e商务文档

开源TTS语音合成和处理合集整理

相关文档推荐：