当前位置:
文档之家› 汉语大词汇量连续语音识别系统研究进展
汉语大词汇量连续语音识别系统研究进展
Research on Large Vocabulary Continuous Speech Recognition System for Mandarin Chinese
N I Chong-jia
1, 2
, LIU W en-junal Labo rator y of Patter n Recog nitio n , Institute of A utomatio n , Chine se A cademy of Sciences , Beijing 100190 , China ; 2 .Scho ol o f Statistics and M a thematics , Shando ng U nive rsity o f Finance , Jinan , Shandong 250014 , China) Abstract:T he technolog y o f larg e vo cabula ry co ntinuous speech recog nitio n(LV CS R) has dev elo ped quickly a nd achieved broad applica tion in recent y ears . M any big companies has reinfor ced the speech r eco gnition resea rch and various commercial sy stems have appeared in the ma rke t . T his paper reviews the recent resea rch pro gr esses o f LV CSR and de scribe s the main frames and desig ns of cur rent ma ndarin Chinese LV CSR sy stems .T he key issue s and principle s in LCVS R are analy zed in detail . T he pr ospects a nd r esea rch trends for LV CS R at ho me and abroad a re also discussed . Key words : co mputer applicatio n ;Chinese info rmation pr ocessing ; ove rview ;speech recog nitio n ; mo del adaptatio n ; sear ch techno lo gy
倪崇嘉1 , 2 , 刘文举1 , 徐 波1
( 1. 中国科学院 自动化研究所 模式识别国家重点实 验室 , 北京 100190 ; 2 .山东财政学院 统计与数理学院 , 山东 济南 250014) 摘 要 : 大词汇量连续语音识别( L VCSR) 技术近年来发展迅速 , 并 在许多领 域得到 了广泛 的应用 , 国内 外许多 大 公司 加大了对语音识别技术的研究 , 不少商业化的 语音识 别系统 已经面 世 , 并 得到较 为广泛 的使用 。 该 文综述 了 近年来大词汇量连续语音识别技术的研究进展 , 描述了汉语 大词汇 量连续语 音识别 系统 , 主要是 基于统 计方法 的 语音识别系统的框架与设计方法 , 对语音识别系 统的一些关 键技术 和原理进 行了分 析 , 并对近年 来国内 外对语 音 识别研究发展动向进行了讨论 。 关键词 : 计算机应用 ; 中文信息处理 ; 综述 ; 语音识别 ; 模型自适应 ; 搜索技术 中图分类号 :T P391 文献标识码 :A
图 1 语音识别系统 基本流程图
114
中文信息学报
2009 年
其中 , 前端处理完成的基本任务就是特征提取 和归一化 , 在广播语音或电话语音等大段语音处理 中 , 还需要作相应的前端预处理工作 , 切分成语音片 段输入 。 声学比对和语言解码也就是搜索和解码 , 是整个识别系统的主要算法所在 ; 主要采用 Viterbi 等动态 规划 方法 , 搜索在 给定 模型 情况 下的 最优 结果 。
L T L WN 1 转化为音素模型串 H 1 ; XT 1 , S 1 |H 1 ) 引 ∑ P( ST
1
入隐含声学状态序列 S , 包含模型的时间对齐信
T 1 T 息 , 用于 计算 声学 得分 ; max { P( XT 1 , S1 T S
1
HL 1) } 是
T
Vit erbi 近似 ; X t |S t )×P ( St | S t -1 ) 将状态 ∏P(
t =1
转移概率 P ( St | S t -1 ) 和观测序列概率 P ( Xt | S t) 分 开计算 , 并略去 H L 1 符号 , 因为此时模型已经确定 。 每帧观 测 概 率 P ( Xt S t ) 通 常 由 混合 高 斯 模 型 ( Gaussian Mi xt ure M odel , GMM ) 描述 :
第 23 卷 第 1 期 2009 年 1 月
中文信息学报 JO URNA L OF CH INESE INFO RM A T ION P ROCESSING
V ol . 23 , No . 1 Jan . , 2009
文章编号 : 1003-0077( 2007) 06-0112-12
汉语大词汇量连续语音识别系统研究进展
1期
倪崇嘉等 : 汉语大词汇量连续语音识别系统研 究进展
113
分析与处理来获取蕴含其中的语音信息作为智能设 备应答以及高层次予以理解的基础 。 语音识别是通过识别或理解过程把语音信号转 换为相应的文本文件或命令的高技术 。 作为一个专 门的研究领域 , 语音识别是一门涉及很广的交叉学 科 , 与计算机学科 、 信号处理学科 、数理统计学 、声学 、 语音学 、 语言学 、 神经生理学等有密切的关系[ 1] 。 语音识别起 始于 20 世纪 50 年代 , 20 世纪 60 年代末和 70 年代末是语音识别的发展阶段 。 在这 一阶 段 , 语 音 识 别 最 重 要 的 发 展 , 一 是 前 苏 联 Vi nt sy uk 首次提出用动态规划( DP) 方法解决语音 信号不等长问题 , 并在此基础上发展而来的基于动 态规划( DP) 的动态时间规整( DT W)
[ 3] [ 1 , 2]
的设计 、 参数提取和优化 、 系统的自适应方面取得一 些关键进展 , 语音识别技术进入高速发展时期 , 并且 在某些领域已经成熟并产品化 。 语音识别技术成熟 的同时也开始与其他领域相关技术进行结合 , 如与 自然语言处理技术结合产生了基于口语识别和理解 的人机对话系统等 。 NIST 评测也逐步从朗读语音 到广播语音 、 自然对话语音 、电话语音 , 发展到目前 的真实场景的会议语音 , 对语音识别技术的发展起 到了推动作用 。 我国语音识别研究工作起步较晚 , 但是发展非 常迅速 , 同时研究水平也 从实验室逐步走 向实用 。 从 1987 年开 始 , 国家 开始 执行 863 计划 后 , 国家 863 智能计算机主题专家组为语音识别研究立项 , 每两年一次 。 从 1991 年开始 , 国家 863 智能计算机 主题专家组每一到两年举行一次全国性语音识别系 统测试 , 参加测试的系统代表了国内在这一领域的 研究水平 。 在 2005 年 863 计划中文信息处理与智 能人机接口技术评测[ 7] 中 , 8 家单位参加语音识别 评测 , 共提交了 17 个参评系统 。 评测的任务是桌面 连续语音识别和电话连续语音关键词检测 , 评测的 项目是在桌面连续语音识别 ( 2 倍实时 ) 、桌面连续 语音识别( 20 倍实时) 和电话连续语音关键词检测 ( 2 倍实时) 。 在国家 863 计划和 973 计划的大力支 持下 , 国内的一批科研院所 ( 如中国科 学院自动化 所、 声学所 , 清华大学等) 进行了汉语大词汇量连续 语音识别的研究 , 取得了许多研究成果 , 极大地推动 了汉语语音识别的发展 。 另外 , 鉴于中国未来庞大 的市 场 , 国 外 也非 常 重视 汉语 语 音识 别 的研 究 。 IBM 、 AP P LE 、 M OT OROL A 等公司投 入到汉语语 音识别系统的开发中 , 其投资也逐渐增加 。 美国 、 新 加坡等地聚集了一批来自大陆 、台湾 、 香港等地的学 者 , 研究成果已达到相当高水平 。 目前来说 , 在汉语 的非特定人大词汇量连续语音识别方面 , 国内科研 机构与国际先进水平差距不大 ; 在语音技术产品化 和商业化方面 , 已经有语音识别相关产品问世 。 大词汇量非特定人连续语音识别系统基本包括 前端处理 、 声学比对 、 语言解码等 , 如图 1 所示 。
息存取平台 , 有可能取而代之的是各种各样的手提式
1 引言
直到今天 , 语音是人与人之间最自然 、 最重要的 交流方式 。 随着科学技术的发展以及无线通讯网络 的创新普及 , 传统的桌面上电脑不再是人们唯一的信
收稿日期 : 2008 -02-10 定稿日期 : 2008 -11 -27
设备( 如 PDA 、 M obile Phone 等) 以及人们生活中的智 能设备 。 人们迫切需要一种便捷的方式实现人与机 器的自然交互 , 语音识别技术因此应运而生 。 从语音 识别技术诞生的那天开始 , 人们就致力于赋予计算 机类似于人耳一样的听觉能力 , 通过对语音数据的
, 二是语音
信号的线性预测编码( LPC ) , 有效地解决了语音 信号的特征提取 。 该阶段研究的特点是以孤立字语 音识别为主 , 通常把孤 立字作为整体建 立模板[ 4] 。 20 世纪 80 年代是语音识别技术发展的突破阶段 。 在这一阶段 , 人们开始将大词汇量 、非特定人 、连续 语音三大语音特性集成到 一起 。 20 世纪 80 年代 , H MM 经 Bell 实验室的 Rabiner 介绍 , 开始成为主 流的声学建模方式 , 同时很多基于 H M M 的参数估 计和解码算法被提出并应用 , 从而完成了声学模型 从模板匹配技术转向基于统计模型技术 , 人们研究 从微观转向宏观 , 不再刻意追求细化语音特征 , 而是 从整体平均的角度 建立最佳的语 音识别系统 。 在 20 世纪 80 年代以 N 元文法为代表的统计语言模型 开始 广 泛应 用 于 语音 识 别系 统 。 代 表的 系 统 是 1988 年美国 CM U 大学 VQ/ H M M 方法实现的 997 词的非特定人 、连续语音识别系统 SP HINX[ 5] , 开 创了语音识别的新时代 。 在 20 世纪 70 年代 , 美国开 始 实 施 A RPA ( US A dvanced Research Pro ject Agency ) 计划 , 对语音识别研究给予很大支持 , 并且 从 1987 年 起 , 美 国 NIST ( Nati onal Inst itut e o f S tandards and T echnolog y ) 开 始对 参加 计 划的 大 学、 研究机构 和公司 研发 的语 音识别 系统 进行 评 [ 6] 测 , 这些评测促进了竞争 , 加快了语音识别技术的 发展 。 20 世纪 90 年代以后 , 语音识别在细 化模型