基于中国少数民族语言的语音识别研究陈楠(云南民族大学电气信息工程学院,云南昆明 650031)摘要:语音识别是当今语音研究的热点,它是一门涉及多领域的交叉学科,也是模式识别和人工智能领域的重要分支。
针对中国有着55个少数民族这一实际情况,不少语言都处于濒临状态,因此,本文主要介绍了语音识别在少数民族语言应用中的技术和概况。
希望利用这一数字化技术达到保护少数民族语言文化遗产的目的。
关键字:语音识别,隐马尔可夫,数字化处理,少数民族语言Based on China's minority language speech recognition researchCHEN Nan(College of Electrical and Information Engineering,Yunnan University ofNationalities,Kunming650031,China)Abstract:Speech recognition is the voice of today's hot, it is an interdisciplinary field involving multiple, pattern recognition and artificial intelligence is an important branch. China has 55 ethnic minority groups for the actual situation, many languages are at the brink of the state, therefore, this paper describes the application of speech recognition in minority languages in the technology and profiles. Hope to use this digital technology to achieve the purpose of protecting the cultural heritage of minority languages.Keywords:speech recognition, Hidden Markov, digital processing, minority languages1 引言1.1语音识别技术概述语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容[1]。
语音识别技术是以语音信号处理为研究对象,让机器接收并识别、理解语音信号,并将其转换为相应数字信号的技术。
让机器听懂人类的语言,这是人们长期以来梦寐以求的事情,而语音识别是一门非常复杂的交叉性学科,它涉及语音语言学、计算机科学、信号处理学、生理学、心理学等一系列学科,是模式识别的重要分支。
50年代,是语音识别研究工作的开始时期,它以贝尔实验室研制成功可识别十个数字的Audry系统为标志。
20世纪80年代语言识别研究进一步走向深入,基于特定人孤立语音技术的系统研制成功。
在过去的30年里,隐马尔可夫模型和人工神经元网络在语音识别中得到了成功的应用。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
并通过算法和计算机技术相结合的方式来实现。
目前,这样的系统能够做到识别理解数十万条词汇的连续语音信号。
这种现代模式识别系统除了在语音领域的应用外,还可以广泛应用于信号处理和模式识别的其他领域。
语音识别一般分为两个步骤:学习和识别阶段。
学习阶段的任务是建立识别基本单元的声学模型以及语言模型。
识别阶段是将输入的目标语言的特征参数和模型进行比较,得到识别结果。
语音识别系统本质上讲是一种模式识别系统,其原理如下图所示:[2]图1语音识别原理示意图该流程简单介绍如下:(1)语音采集设备如话筒、电话等将语音转换成模拟信号。
(2)数字化一般包括预滤波、采样和A/D变换。
该过程将模拟信号转变成计算机能处理的数字信号。
(3)预处理一般包括预加重、加窗分帧。
经预处理后的信号被转换成了帧序列的加窗的短时信号。
(4)参数分析是对时信号进行分析并提取语音特征参数的过程,如时域、频域分析,矢量量化等。
(5)语音识别是目标语音根据特征参数与模型库中的参数进行比较,产生识别结果的过程。
一般有模板匹配法、随机模型法和神经网络等。
1.2中国少数民族语言概述语言是一种特殊的社会资源, 语言资源由语言本体和语言应用两部分构成。
语言本体包括语音、词汇、语法、语义系统, 是语言资源的物质基础语言应用包括人类社会对语言的各种使用及其所产生的影响, 是语言资源价值的具体体现。
中国是一个统一的多民族国家,已确定民族成分的有56个民族,有55个人口较少的民族。
多民族、多语言、多文种(文字和语音)并存是我国的一个基本国情。
除回族、满族已全部转用汉语外,其他54个民族都有自己的语言,有30个民族有余自己的语言相一致的文字;分七种语系。
由于有的民族使用一种以上的语言或文字,如瑶族使用3种语言,高山族使用13多种语言;傣族使用4种文字,景颇族使用2种文字等,因此,共有73种语言,55多种文字,63多种语言[3]。
随着社会开放程度的不断提高 ,民族语言文字的使用有衰退的趋势 ,中国一些使用人口比较少的民族语言已经处于濒临状态 ,民族语言文字的消亡 ,直接危及民族文化的繁荣和发展 ,抢救和保护民族语言文字资源 ,是繁荣和发展民族文化的重要前提 ,而且刻不容缓。
2 中国少数民族语言发音特点分析2.1 中国少数民族语音特性分析其中由于我国是个多民族的国家,个少数民族的语音各有其特点,先统计如下表[4]:表 1 中国少数民族语言语音情况表表2 中国少数民族语言语音情况表-续表1表3 中国少数民族语言语音情况表-续表2表4 中国少数民族语言语音情况表-续表32.2 中国少数民族语音识别研究现状在语音识别的领域中主要涉及到的研究内容包括:语音信号处理、特征提取和选择;语音识别模型、识别基元及模型研究。
目前,句不完全统计,我国共有36个民族或多或少的开展了语音方面的研究工作,其中研究工作相对比较深入的少数民族语言种类有蒙古语、藏语、维吾尔语、哈萨克语、壮(侗)语等。
但是黎族,傈僳族,仫佬族,普米族,京族,塔塔尔族,门巴族,珞巴族,布依族的研究在语言学和音位学上的研究都很少见。
3 少数语言研究中的关键技术和模型3.1语音识别技术流程少数民族语言的语音识别与其他语音识别技术类似,可以将流程简单概括为:图2 少数民族语音识别流程图3.2预处理算法语音信号在处理成数字信号的过程中,将受到周围的各环境的影响而使语音产生变形,预处理的任务就是修正这种变形,尽可能的还原人的有效发音。
少数民族语音识别预处理包括:信号获取、去除噪声、语音增强三个环节。
3.2.1语音信号的获取计算机声卡作为语音信号与计算机的接口卡件,其最基本的一项功能就是A/D转换。
声卡是pc的一种多媒体设备,可以用windows的MCI(Media Control Interface)命令来控制声卡[5]。
图3信号获取过程中相关函数使用流程示意图3.2.2语音信号的降噪增强在语音采集过程中,都会或多或少的产生背景噪音,设法去除语音信号中的噪声,增强有用信号,提高语音信号的信噪比就成为预处理研究中的一个重要步骤。
常用的语音降噪增强算法(1)基于语音频谱特征的谐波增强法(2)基于短时谱估计的增强算法(3)基于信号子空间处理的增强算法(4)于听觉掩蔽效应的语音增强算法(5)基于小波变换的语音增强算法3.3端点检测算法端点检测是指从背景噪声中找出语音的开始点和终止点,是语音处理领域的基本问题,特别是在孤立词语识别中,找出每个单字的语音信号范围是很重要的,确定语音信号的开始和终止可以减少系统的大量计算,使系统运行效率得到很大的提高。
少数民族语言的端点检测采用加窗、短时能量、过零率相结合的方法进行。
3.3.1加窗[6](1)矩形窗⎩⎨⎧>-≤≤=N n N n n w ,010,1)( (1)(2)汉宁窗⎩⎨⎧>-≤≤--=N n N n N n n w ,010),12cos(46.054.0)(π (2)(3)汉明窗⎩⎨⎧>-≤≤--=N n N n N n n w ,010)],12cos(1[5.0)(π (3) 3.4 针对语音特征建立语音识别模型3.4.1原始语音数据我国少数民族语言的语音同英语等其他语音一样,原始语音数据量大,且多余信息占很大比例,需要提取的核心特征参数为频幅、频率、和时长,可以将其看为一个三维的数据模型如图:图4原始语音的三维模型3.4.2 MFCC特征参数MFCC是基于人的听觉机理,通过模拟人的听觉系统导出的声学特征对不同频率的语音具有不同的感知能力,在1000Hz以下,感知能力与频率间的线性关系,而1000Hz以上,感知能力则与频率成对数关系。
图5 MFCC提取过程示意图3.4.3 HMM模型在语音识别领域中占据主导地位的HMM,包括有满协方差矩阵和对角协方差矩阵的连续混合密度的HMM 、半连续的HMM ,以及基于VQ的离散HMM .一个HMM通常由状态转移概率矩阵A、观察概率密度函数矩阵B和初始概率分布矢量π表征。
隐马尔可夫模型是一种用参数表示的,用于描述随机过程统计特性的概率模型,他是马尔可夫链演变而来的。
隐马尔可夫模型既解决了用短时模型描述平稳段的信号,有解决了每一个短时间平稳短是如何转变到下一短时平稳段的问题。
由于语音结构信息是多层次的,除了语音特性外,还牵扯到音调、音长、能量等超音段信息及语法、语句等高层次语音结构信息。
而HMM既可以描述瞬变的随机过程,又可以描述动态的随机过程转移的特性,所以他能够利用这些超音段和语音结构的信息。
HMM可分为两部分,一部分是马尔可夫链,由 ,A描述,产生的输出为状态序列,另一部分是一个随机过程,由B描述,产生的输出为观察值序列,T为观察值时间长度[7]。
图 6 HMM的两个组成部分3.4.4 CDCPM模型中心距离连续概率模型(Center-Distance Continuous Probabilistic Model,CDCPM)新概率统计模型,可用于非特定人或特定人、孤立词或连续语音识别。
模型的参数是每个状态的均值特征矢量以及特征矢量与其均值特征矢量之间距离的均值;与连续HMM(CHMM)不同的是,中心距离连续概率模型(CDCPM) 只保留HMM模型中的B矩阵,且B中的PDF被一个一维的PDF取代,它没有状态转移概率矩阵A,且输出观察概率矩阵B中各状态的概率密度函数只是一个一维的(中心距离的)概率密度函数(PDF)。