当前位置:文档之家› 语音信号处理综述

语音信号处理综述

语音信号处理综述摘要:随着信息技术的发展,语音信号处理技术不断地融入到各个领域。

作为21世纪信息技术领域最重要的科学技术之一,它成为了人机接口的关键技术,并且越来越受到人们的重视。

本文介绍了国内外语音技术的相关发展及该技术在通讯,家具,导航等领域的应用。

并对他们的语音技术的优缺点进行了总结。

关键词:语音技术通讯Review of Speech Signal ProcessingAbstract: With the development of information technology, the Automatic Speech Recognition (ASR) constantly into the fields. The ASR which is one the most important technology in information fields and it is the key technology of the man-machine interface, and which is more and more appreciated by people. The text introduces the development and application in communication, household and navigation of the ASR. I summer the advantages and disadvantages of their ASR.Key words: ASR communication一、研究语音信号处理技术的背景及其意义随着人们进入信息时代,人们的生活、学习、工作领域也越来越智能化。

作为人和这些领域沟通的关键接口,语音信号处理技术自然引起里人们的足够重视。

该技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术。

通过该技术人们可以不通过键盘的输入过程而直接通过语音进行操作,并且语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

如今,语音技术相关产品已经成为了我们生活的一部分,它的作用越来越被重视,人们对当前语音技术的提高也是越来越期待。

二、语音处理系统的分类(1)按发音方式分为孤立词、连接词和连续语音的语音识别系统。

语音识别系统可能要求说话者以单字、单词、或是短语为发音单位,其间就必须要略微停顿,否则识别就会有问题。

以前的语音识别系统,几乎都是以单字或单词为单位的孤立语音识别系统,随着连续语音识别技术渐趋成熟,连续词和连续语音这个最自然的说话方式,将成为语音识别系统的主流。

(2)按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别系统。

如果语音识别系统只为你进行电话拔号,那它只要能听懂10个数字就行了,这属于小词汇量语音识别系统;如果它是为你自动转接话务,那它还应识别单位名、人名和时间等成千上百的词和字,这属于中等词汇量语音识别系统;如果它是把1篇口述的演讲报告转换成为文字,这属于大词汇量语音识别系统。

(3)按说话人适应范围分为特定人、限定人和非特定人语音识别系统。

特定人系统是指系统在使用前必须由用户输入大量的发音数据、对其进行训练。

非特定人系统则试图达到在系统构建成功之后,用户需要事先输入大量的训练数据,即可使用的目的。

三、语音信号处理技术研究现状语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。

这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和等长匹配问题。

这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和马尔可夫模型(HMM)理论。

随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。

因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

HMM模型的广泛应用应归功于等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。

在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。

在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。

另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。

语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。

其中IBM公司于1997年开发出汉语语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。

它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。

我国语音识别研究工作起步于五十年代,但近年来发展很快。

研究水平也从实验室逐步走向实用。

从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项。

目前中科院自动化所、声学所、清华大学、北京大学那个上的高校及研究单位在大词汇连续语音识别系统上的研究水平已经接近国际先进指标。

其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(数字串)和96.8%(定长数字串)。

在有5%的情况下,系统识别率可以达到96.9%(长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。

研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川语言,达到实用要求。

此外,中科大讯飞输入法在语音信号处理方面也达到了国际先进水平。

中科院自动化所及其所属模式科技公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

电子科技大学钟林鹏等人优化了语音信号检测方法之一的功率谱算法,从而使语音信号检测更加精准。

山东大学王京辉等人通过对合成语音进行适当语音参数控制和调整从而改变了二次谱提取基频算法,提高了基频提取的准确度,进一步提出了一种新的机遇改进二次普的语音时长规整算法,该算法在保持语音质量的同时,有效降低了整体计算复杂度。

作者软件采用VC++和MATLAB混合编程思想,利用该软件可以实现语音变速和变声处理两功能。

哈尔滨工业大学游大涛等人通过优化声学特征的鲁棒特征提取算法改进了在噪音条件下的语音识别技术,此外作者还提出了在鲁棒性方面优于MFCC和PLP的检测方法——基于声源分离机制的语音活动性检测方法。

大连理工大学汪林等人提出了近似个性HRFT的主管选择法、基于对数幅度误差最小化的CAPZ模型、基于共极点/零点(CAPZ)模型串生消除法、结合盲源分离和波束形成的联合分离等方法,这些方法有效改善了语音信号处理技术在噪音环境下的语音识别能力和盲源分离处理能力。

北京交通大学王杏等人提出了基于改进噪声估计和幅度补偿的改进谱减法,该方法在消除噪声的同时能有效避免冤信号收到损伤从而影响混叠语音的分离。

四、语音信号处理的应用语音信号处理技术室计算机智能接口与人机交互的重要手段之一。

其应用市场前景广泛,在一些应用领域中正迅速成为一个关键的具有竞争力的技术。

如声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、工业控制、家庭服务、通讯服务、旅行服务、医疗服务、银行服务等等。

语音识别技术还可以用于自动口语翻译,及通过口语识别技术、及其翻译技术、语音合成技术等相结合,可将一种语言的输入语音翻译为另一种语言的语音输出,实现跨语言的交流。

目前美欧及日本、韩国、中国都在开张相关技术的研究,并实现了应用。

五、结论及展望如今语音信号处理技术已经取得了很大进步,但是目前还是存在很多问题,如说话人发音方式的变化、语音变短、背景噪音、信道失衡等等,有鉴于此,仍然有诸多方面需要进一步探究和完善。

(1)目前使用的语言模型只是一种概率模型,没有用到以语言学为基础的文法模型,因此需要计算机准确理解人类语言,需要优化吸血方法。

如特征提取、搜索算法、自适应算法等等。

(2)在一些词汇识别方面,计算机所呈现的语音模型太过局限。

例如当用户输入“信噪比”这个词汇,计算机会显示其错误或者不规范。

此外,现实世界的声音是多种多样的,当发音和标准声音区别区别较大时,计算机或设备将不能识别或者说识别错误。

(3)语音端点检测受背景噪音的影响很大,这就需要进一步改进技术或方法使其受环境影响更小。

(4)不同的特征之间按一定的法则组合后对识别率具有影响,因此还需要优化相应的算法减小影响。

相关主题