第一部分语音识别与理解的研究进展和方向。
为了推进研究,找出有前途、有希望的研究方向,特别是那些在过去没有得到充分的探求或者资助的研究方向是非常重要的。
研究小组写的这篇文章引出了人类语言技术组织(HLT)的一系列经过深思熟虑的研究方向,对今后的研究,可能会成为在自动语音识别(ASR)和理解领域的主要转换范例。
在过去的几十年里,已经对信号处理和人类语言技术(HLT)有很大的兴趣和积极性。
作为第一步,这个组织回顾了此领域主要的发展情况和能引领他们成功的环境,然后专注于他们认为对未来研究特别有用的领域。
这篇文章的第一部分会集中焦点在自动语音识别领域(ASR)历史上有重要意义的发展上,包括几个被不同资金组织资助的主要的成就,并建议在其的中重点研究领域。
第二部分将详细探讨几个保持项目前景以能很大改善ASR的新途径。
这些涉及跨学科的研究和具体办法,以应对三至五年巨大挑战,旨在通过广受关注的现实任务处理以促进先进的研究第二部分语音识别与理解的重大发展自20世纪70年代中期期间见证了ASR的多学科领域继续处于起步阶段,其时代的到来,到实际应用和商业市场的数量迅速增长。
然而,尽管它的许多成就,ASR的仍然是一个远未解决的问题。
在过去,我们希望进一步的研究和发展,将使我们能够建立一个世界性的基础上日益强大的系统。
本节简要回顾了ASR的主要发展重点在五个方面:基础设施,知识表示,模型和算法,搜索,和元数据。
这些领域更广泛和更深入的讨论,可以发现在[12], [16], [19], [23], [24], [27], [32], [33], [41], [42], and [47].读者还可以参考以下网站:t he IEEE History Center’s Automatic Speech Synthesis和Recognition section、the Saras Institute’s History of Speech Language Technology Project在t .基础设施摩尔定律指出计算机发展的长期进展和预测,每12到18个月,计算实现一个给定的成本的费用会翻倍,以及同等萎缩的内存成本。
这些事态发展已使ASR的研究人员在足够短的时间框架运行的日益复杂的算法,使自1975年以来取得伟大进步。
常见的语音语料库语音训练,发展和评价的可用性一直是关键,让创造能力不断增加的复杂系统。
讲话是高度可变的信号,多参数的特点,因此大型语料库在自动化系统的建模不够好以达到熟练的水平。
多年来,这些语料库已被创建及注释,并分发由国家科学和技术研究所的全球组织(NIST),语言数据联盟(LCD),和其他组织。
录制的讲话字符已取得进展,从有限的制约发言材料,以逐步现实自发的讲话。
已经通过由NIST和其他机构制定的严格的评估基准和标准,关键是一直在发展中日益强大和有能力的系统。
许多实验室和研究人员受益于共同的研究工具的可用性,如Carnegie-Mellon University Language Model (CMULM) toolkit ,Hidden Markov Model Toolkit (HTK), Sphinx, and Stanfor Research Institute Language Modeling(SRILM).广泛研究的支持与车间相结合,任务定义,和国防部高级研究计划局(DARPA)和其他组织赞助的评价系统成为对今天的系统发展所必不可少的知识表示在语音信号表示的重大进展,包括感性动机的MEL频率倒谱系数,(MFCC) [10], [29]和感知线性预测(PLP)系数[21]以及通过倒谱归意味着减法(CMS)[16][44]相对光谱(RASTA)过滤[20]和声道长度正常化(VTLN) [13].建筑,最重要的发展一直搜索统一的图形表示,允许多个来源的知识被纳入到一个共同的概率框架。
非成分方法包括多个语音流,多个概率在假设层面相结合的估计,多重识别系统水平和多通道统增加约束(大-RAM与四克,依赖赖关系与跨字在Word,等等)最近,使用多种算法,同时适用于并行顺序,已证明是富有成效的,有基于特征的,如转换异方差的线性判别分析(HLDA) [31],功能空间的最低电话错误(fMPE) [40]和神经基于网络的功能[22]。
模型和算法在20世纪70年代初[38],语音识别进步的最显着的范式转变,已经出台了统计方法,尤其是随机处理隐马尔可夫模型(HMM模型)[3],[25]。
超过30年后,这种方法仍然占主导地位.一些模型和算法已被有效地纳入在此框架内。
期望最大化(EM)算法[11]和向前或向后Baum-Welch算法[4]已经是HMM模型从数据中训练的主要手段。
尽管其简单的N-gram 语言模型已经证明是非常强大和灵活的。
决策树[8]已被广泛应用于套的功能,如从训练数据的发音。
统计差别性的训练技术通常是基于利用最大互信息(MMI)和最小误差模型参数。
确定性方法包括纠正训练和一些神经网络技术[1] [5],[35]。
适应是至关重要的,以容纳多种渠道,环境,扬声器,词汇,主题域等变量条件。
流行的技术,包括最大后验概率(MAP)估计[17],[38],[51],最大似然线性回归(MLLR)[34],本征声音[30]。
培训可以采取少量的新任务或提供额外的培训材料,以及“一次性”学习或“无监督”培训测试时间域数据的基础上进行。
搜索关键解码或搜索策略,原本在非语言应用开发,都集中在堆栈解码(A*搜索)[26]和Viterbi 或N-最好的搜索[50]。
从通信和信息理论推导,堆栈解码随后应用于语音识别系统[25],[37]。
维特比搜索,广泛应用于搜索替代假说,来自动态规划在20世纪50年代[6],随后被用在语音应用程序,从20世纪60年代至80年代及以后,从俄罗斯和日本,美国和欧洲[3] [7],[9],[36] [45],[46],[48] [49]。
元数据句子和扬声器分割以及自动测定标点符号已成为一些处理系统的主要功能。
在20世纪90年代初开始,已启用音频索引和采取高性能主题自动检测和跟踪,以及申请语言和说话人识别[18]。
大挑战:主要的潜在研究计划大的挑战是本小组所谓的雄心勃勃,但实现三至五年的研究计划的举措,将大大推进在国家最先进的语音识别和理解。
大挑战以前由国家和国际倡议发起,一些机构和其他团体在很大程度上为今天的ASR和应用能力的成就负责。
下面描述了六个这样的潜在方案。
每个方案已经确定,可衡量的目标,包括重要的功能复杂,应该大大推进该领域,使其能够满足重大的应用。
这些丰富的任务域,可以使在不同的层次几个有前途的研究领域取得进展。
正如下文所述,这些方案倡议,每年也可以在多学科或跨区域的研究方法中受益,或提供的好处.日常音频这是一种长期的,代表了广泛的语音、扬声器、通道、环境条件下,人们通常会遇到常规的适应语音信号的响应和确认。
目前,当他们最初的开发和培训时遇到从有限的条件下不同的音频信号,ASR系统提供了显着的性能下降。
在许多情况下,这是真正的差异,即使是轻微的。
此重点研究领域将集中在创建和发展系统,这将是变异和变化对声学环境,混响,外部噪声源,沟通渠道(例如,远场麦克风,手机),扬声器的特性(如更健壮,说话风格,外来口音,情绪状态),和语言的特点(例如,正式/非正式的风格,方言,词汇,主题域)。
新技术和新架构建议探索不同环境如会议室演示和非结构化对话的关键问题。
主要的焦点将自动适应不断变化的条件,在多个层面探索的替代品,甚至同步。
我们的目标是在环境和多样化的情况下,提供更多的准确和有用的演讲稿,不同情况比现在是可能的,从而满足更多的应用。
这个具有挑战性的问题,可以高效地用上的专业知识和相关学科的知识,包括自然语言处理,信息检索,认知科学。
快速移植到新兴外语今天的国家的最先进的ASR系统提供最高的性能,通过建立复杂的声学和语言模型使用的特定于域的语音和文本的例子大集合。
对于许多语言,这种语言资源集往往不是现成的。
这项研究计划的目标是创建口语语言的技术,是迅速便携式。
为了准备这样的口语语言系统的快速发展,需要一个新的范例学习,多语言通用的语言,具体的手机的语音和声学单位。
三个具体研究的问题需要解决:1)声学建模为一个新的目标语言的跨语言的语音和声学单位,2)跨语言的单词发音的词汇建模新的语言,和3)跨语言的语言模型。
通过探索这些新兴的语言和充分的语言研究,跨语言的功能,如语言聚类和普遍的声学建模之间的相关性,可以利用声学和语言模型,以便快速适应。
引导技术也从少量标记的话语首先建立初步的系统,使用这些系统的多标签的钥匙话语的例子,在无人监督的方式,纳入新的标签数据,标签集和迭代,以改善系统,直到他们达到的性能水平与今天的高精确度的系统相媲美。
许多研究成果可以扩展到新兴语言的机器翻译,自然语言处理,信息检索系统设计。
预期这种日益增长的需求,一些语言资源和基础设施需要建立能够快速的可移植性设施。
研究还需要研究的名目,需要引导的目的,以创造一个合理的制度监督信息的最低金额。
自适应的语言能力国家的最先进的语音转录,扬声器核查,语言识别系统都是基于统计的标记训练数据模型,如转录讲话,并从人类提供的知识,如发音字典。
这种内置知识往往成为过时的系统后,很快部署在一个真实世界的应用程序,需要重大和经常性的人为干预和再培训,以维持系统的实用形式。
这与人类的讲话设施形成鲜明对比,这是不断更新的一辈子,会经常获得新的词汇和惯用表达式,以及巧妙地处理前所未见的外来口音和一些语言的地方方言。
特别是,人类表现出一个显着的学习一个新的域或应用程序的子语言的倾向,且没有明确的监管。
这项研究计划的目标是创建自适应(或自学)语音识别技术。
需要有在语音和语言处理的各个层次的学习,以应付不断变化的环境,非语音,扬声器,发音,方言,口音,言语,意义,主题,但部署系统的周期变化超过几个来源。
相对于人类,系统会进行自动模式发现,主动学习和适应。
在这方面的研究必须解决学习新模型,将此类模型集成到已经存在的知识源中。
因此,学习的一个重要方面是能够辨别东西已经学到和如何应用这个结果。
学习来自多个并发的方式,例如,新的文本和视频也可能是必要的。
例如,ASR系统可能会遇到在其语音输入新的专有名词,可能需要检查匹配的上下文来确定名称的拼写。
无标签或标记的部分数据的开发利用将对这种学习有其必要性。
投资于这类研究的一个动机是模仿机器学习领域有不断增长的积极性。
在这一努力下,成功延长已部署系统的寿命,并直接推动我们无标记讲话的繁重的要求,在新的语言和域的语音系统的开发能力中,基本上是通过创建系统,随着时间的推移自动学习和改善。