当前位置：文档之家› 汉语大词汇量连续语音识别系统研究进展

汉语大词汇量连续语音识别系统研究进展

Research on Large Vocabulary Continuous Speech Recognition System for Mandarin Chinese
N I Chong-jia
1, 2
, LIU W en-junal Labo rator y of Patter n Recog nitio n , Institute of A utomatio n , Chine se A cademy of Sciences , Beijing 100190 , China ; 2 .Scho ol o f Statistics and M a thematics , Shando ng U nive rsity o f Finance , Jinan , Shandong 250014 , China) Abstract:T he technolog y o f larg e vo cabula ry co ntinuous speech recog nitio n(LV CS R) has dev elo ped quickly a nd achieved broad applica tion in recent y ears . M any big companies has reinfor ced the speech r eco gnition resea rch and various commercial sy stems have appeared in the ma rke t . T his paper reviews the recent resea rch pro gr esses o f LV CSR and de scribe s the main frames and desig ns of cur rent ma ndarin Chinese LV CSR sy stems .T he key issue s and principle s in LCVS R are analy zed in detail . T he pr ospects a nd r esea rch trends for LV CS R at ho me and abroad a re also discussed . Key words : co mputer applicatio n ;Chinese info rmation pr ocessing ; ove rview ;speech recog nitio n ; mo del adaptatio n ; sear ch techno lo gy
倪崇嘉1 , 2 , 刘文举1 , 徐波1
( 1. 中国科学院自动化研究所模式识别国家重点实验室 , 北京 100190 ; 2 .山东财政学院统计与数理学院 , 山东济南 250014) 摘要 : 大词汇量连续语音识别( L VCSR) 技术近年来发展迅速 , 并在许多领域得到了广泛的应用 , 国内外许多大公司加大了对语音识别技术的研究 , 不少商业化的语音识别系统已经面世 , 并得到较为广泛的使用。该文综述了近年来大词汇量连续语音识别技术的研究进展 , 描述了汉语大词汇量连续语音识别系统 , 主要是基于统计方法的语音识别系统的框架与设计方法 , 对语音识别系统的一些关键技术和原理进行了分析 , 并对近年来国内外对语音识别研究发展动向进行了讨论。关键词 : 计算机应用 ; 中文信息处理 ; 综述 ; 语音识别 ; 模型自适应 ; 搜索技术中图分类号 :T P391 文献标识码 :A
图 1 语音识别系统基本流程图
114
中文信息学报
2009 年
其中 , 前端处理完成的基本任务就是特征提取和归一化 , 在广播语音或电话语音等大段语音处理中 , 还需要作相应的前端预处理工作 , 切分成语音片段输入。声学比对和语言解码也就是搜索和解码 , 是整个识别系统的主要算法所在 ; 主要采用 Viterbi 等动态规划方法 , 搜索在给定模型情况下的最优结果。
L T L WN 1 转化为音素模型串 H 1 ; XT 1 , S 1 |H 1 ) 引 ∑ P( ST
1
入隐含声学状态序列 S , 包含模型的时间对齐信
T 1 T 息 , 用于计算声学得分 ; max { P( XT 1 , S1 T S
1
HL 1) } 是
T
Vit erbi 近似 ; X t |S t )×P ( St | S t -1 ) 将状态 ∏P(
t =1
转移概率 P ( St | S t -1 ) 和观测序列概率 P ( Xt | S t) 分开计算 , 并略去 H L 1 符号 , 因为此时模型已经确定。每帧观测概率 P ( Xt S t ) 通常由混合高斯模型 ( Gaussian Mi xt ure M odel , GMM ) 描述 :
第 23 卷第 1 期 2009 年 1 月
中文信息学报 JO URNA L OF CH INESE INFO RM A T ION P ROCESSING
V ol . 23 , No . 1 Jan . , 2009
文章编号 : 1003-0077( 2007) 06-0112-12
汉语大词汇量连续语音识别系统研究进展
1期
倪崇嘉等 : 汉语大词汇量连续语音识别系统研究进展
113
分析与处理来获取蕴含其中的语音信息作为智能设备应答以及高层次予以理解的基础。语音识别是通过识别或理解过程把语音信号转换为相应的文本文件或命令的高技术。作为一个专门的研究领域 , 语音识别是一门涉及很广的交叉学科 , 与计算机学科、信号处理学科、数理统计学、声学、语音学、语言学、神经生理学等有密切的关系[ 1] 。语音识别起始于 20 世纪 50 年代 , 20 世纪 60 年代末和 70 年代末是语音识别的发展阶段。在这一阶段 , 语音识别最重要的发展 , 一是前苏联 Vi nt sy uk 首次提出用动态规划( DP) 方法解决语音信号不等长问题 , 并在此基础上发展而来的基于动态规划( DP) 的动态时间规整( DT W)
[ 3] [ 1 , 2]
的设计、参数提取和优化、系统的自适应方面取得一些关键进展 , 语音识别技术进入高速发展时期 , 并且在某些领域已经成熟并产品化。语音识别技术成熟的同时也开始与其他领域相关技术进行结合 , 如与自然语言处理技术结合产生了基于口语识别和理解的人机对话系统等。 NIST 评测也逐步从朗读语音到广播语音、自然对话语音、电话语音 , 发展到目前的真实场景的会议语音 , 对语音识别技术的发展起到了推动作用。我国语音识别研究工作起步较晚 , 但是发展非常迅速 , 同时研究水平也从实验室逐步走向实用。从 1987 年开始 , 国家开始执行 863 计划后 , 国家 863 智能计算机主题专家组为语音识别研究立项 , 每两年一次。从 1991 年开始 , 国家 863 智能计算机主题专家组每一到两年举行一次全国性语音识别系统测试 , 参加测试的系统代表了国内在这一领域的研究水平。在 2005 年 863 计划中文信息处理与智能人机接口技术评测[ 7] 中 , 8 家单位参加语音识别评测 , 共提交了 17 个参评系统。评测的任务是桌面连续语音识别和电话连续语音关键词检测 , 评测的项目是在桌面连续语音识别 ( 2 倍实时 ) 、桌面连续语音识别( 20 倍实时) 和电话连续语音关键词检测 ( 2 倍实时) 。在国家 863 计划和 973 计划的大力支持下 , 国内的一批科研院所 ( 如中国科学院自动化所、声学所 , 清华大学等) 进行了汉语大词汇量连续语音识别的研究 , 取得了许多研究成果 , 极大地推动了汉语语音识别的发展。另外 , 鉴于中国未来庞大的市场 , 国外也非常重视汉语语音识别的研究。 IBM 、 AP P LE 、 M OT OROL A 等公司投入到汉语语音识别系统的开发中 , 其投资也逐渐增加。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者 , 研究成果已达到相当高水平。目前来说 , 在汉语的非特定人大词汇量连续语音识别方面 , 国内科研机构与国际先进水平差距不大 ; 在语音技术产品化和商业化方面 , 已经有语音识别相关产品问世。大词汇量非特定人连续语音识别系统基本包括前端处理、声学比对、语言解码等 , 如图 1 所示。
息存取平台 , 有可能取而代之的是各种各样的手提式
1 引言
直到今天 , 语音是人与人之间最自然、最重要的交流方式。随着科学技术的发展以及无线通讯网络的创新普及 , 传统的桌面上电脑不再是人们唯一的信
收稿日期 : 2008 -02-10 定稿日期 : 2008 -11 -27
设备( 如 PDA 、 M obile Phone 等) 以及人们生活中的智能设备。人们迫切需要一种便捷的方式实现人与机器的自然交互 , 语音识别技术因此应运而生。从语音识别技术诞生的那天开始 , 人们就致力于赋予计算机类似于人耳一样的听觉能力 , 通过对语音数据的
, 二是语音
信号的线性预测编码( LPC ) , 有效地解决了语音信号的特征提取。该阶段研究的特点是以孤立字语音识别为主 , 通常把孤立字作为整体建立模板[ 4] 。 20 世纪 80 年代是语音识别技术发展的突破阶段。在这一阶段 , 人们开始将大词汇量、非特定人、连续语音三大语音特性集成到一起。 20 世纪 80 年代 , H MM 经 Bell 实验室的 Rabiner 介绍 , 开始成为主流的声学建模方式 , 同时很多基于 H M M 的参数估计和解码算法被提出并应用 , 从而完成了声学模型从模板匹配技术转向基于统计模型技术 , 人们研究从微观转向宏观 , 不再刻意追求细化语音特征 , 而是从整体平均的角度建立最佳的语音识别系统。在 20 世纪 80 年代以 N 元文法为代表的统计语言模型开始广泛应用于语音识别系统。代表的系统是 1988 年美国 CM U 大学 VQ/ H M M 方法实现的 997 词的非特定人、连续语音识别系统 SP HINX[ 5] , 开创了语音识别的新时代。在 20 世纪 70 年代 , 美国开始实施 A RPA ( US A dvanced Research Pro ject Agency ) 计划 , 对语音识别研究给予很大支持 , 并且从 1987 年起 , 美国 NIST ( Nati onal Inst itut e o f S tandards and T echnolog y ) 开始对参加计划的大学、研究机构和公司研发的语音识别系统进行评 [ 6] 测 , 这些评测促进了竞争 , 加快了语音识别技术的发展。 20 世纪 90 年代以后 , 语音识别在细化模型

e商务文档

汉语大词汇量连续语音识别系统研究进展

相关文档推荐：