当前位置:文档之家› 语音识别技术综述

语音识别技术综述


模型参数得到后可以用 Viterbi 算法来确定与观察序列对 应的最佳的状态序列。建好模型后,在识别阶段就是要计算 每个模型产生观察符号序列的输出概率,输出概率最大的模 型所表示的词就是我们的识别结果。这个过程计算量很大, 有人提出了前向-后向算法, 大大减少了计算量, 已经被广泛采 用, 关于它们的各种改进方法也被大量提出。 ANN 在语音识别中的应用是现在研究的又一热点。 ANN 本质上是一个自适应非线性动力学系统,是由结点互连组成 的计算网络, 模拟了人类大脑神经元活动的基本原理, 具有自 学习能力、 记忆、 联想、 推理、 概括能力和快速并行实现的特点, 同时还具备自组织、自适应的功能。这些能力是 HMM 模型 不具备的, 可用于处理一些环境信息十分复杂, 背景知识不清 楚, 推理规则不明确的问题, 允许样品有较大的缺损、 畸变, 因 此对于噪声环境下非特定人的语音识别问题来说是一种很好 的解决方案。目前大部分应用神经网络的语音识别系统都采 用了 BP 网并取得了较好的识别效果。 将 ANN 与 HMM 结合分别利用各自优点进行识别将是 今后的一条研究途径。二者结合的混合语音识别方法的研究 开始于上世纪 90 年代, 目前已有一些方法将 ANN 辅助 HMM 进行计算和学习概率参数。 语言模型主要分为规则模型和统计模型两种。统计语言 模型是用概率统计的方法来揭示语言单位内在的统计规律, 其中 N-Gram 简单有效, 被广泛使用。N-Gram 模型基于这样 一种假设: n 个词的出现只与前面 N-1 个词相关, 第 而与其它 任何词都不相关, 整句的概率就是各个词出现概率的乘积。 这 些概率可以通过直接从语料库中统计 N 个词同时出现的次数 得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。 5 总结 尽管语音识别技术已经取得了长足的进步,而语音识别 系统也层出不穷, 不断的改变人类现有的生活方式, 但其比较 成功的应用也只是在某些特定的领域,谈不上大规模广泛的 应用。只有建立从声学、 语音学到语言学的知识为基础、 以信 息论、模式识别数理统计和人工智能为主要实现手段的语音 处理机制,把整个语音识别过程从系统工程的高度进行分析 构建, 才有可能获得能与人类相比的高性能的、 完整的计算机 语音识别系统。 参考文献: [1] 易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000. [2] 胡航.语音信号处理[M].哈尔滨工业大学出版社,2000. [3] 赵力.语音信号处理[M].机械工业出版社,2003. [4] 张卫清.语音识别算法的研究[D].南京理工大学 (硕士生论 文) ,2004. [5] 何湘智.语音识别研究与发展[J].计算机与现代化,2002(3).
—— 科协论坛 ・ 2010 年第 3 期 (下) ——
63
科研探索
与 知识创新
语音识别技术综述
□ 邢铭生 朱 浩 王宏斌
450001) (郑州大学信息工程学院 摘 河南・郑州
要: 语音识别是以语音为研究对象, 让机器通过识别和理解过程把语音信号转变为相应的文本或命令, 使
人机能自然地进行语音交流的技术。 语音识别涉及到生理学、 心理学、 语言学、 计算机科学以及信号处理等诸多 领域, 甚至还涉及到人的体态语言, 其最终目标是实现人与机器进行自然语言通信。 随着时代的不断进步, 语音 识别技术已经发展成一门综合人类智能各项研究的独立学科, 现在正逐步成为信息技术中人机接口的关键技术。 关键词:语音识别 中图分类号:TN912 1 应用领域 如今,一些语音识别的应用已经应用到实际生活中,如 IBM 的 Viavoice、Microsoft 的 Speech SDK、Dragon 公司的 Dragon Dictate 系统等。语音识别的应用领域非常广泛, 几乎 涉及到日常生活的方方面面。如语音拨号系统、 、家庭服务、 订票系统、 声控智能玩具、 医疗服务、 银行服务、 听写机、 计算 机控制、 工业控制、 语音通信系统等。预计在不远的将来, 语 音识别技术将在工业、 家电、 通信、 医疗、 、 家庭服务等各个领 域深刻改变人类现有的日常生活方式。语音识别听写机在一 些领域的应用被美国新闻界评为 1997 年计算机发展十件大 事之一。很多专家都认为语音识别技术是 2000 年至 2010 年 间信息技术领域十大重要的科技发展技术之一。 2 发展历史 语音识别的研究工作开始于 50 年代, Bell 实验室实现了 第一个可识别十个英文数字的语音识别系统—Audry 系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研 究则是在 60 年代末 70 年代初。 年代, 60 提出了动态规划 (DP) 和线性预测分析技术 (LP) 其中后者较好地解决了语音信号 , 产生模型的问题, 极大地促进了语音识别的发展。 年代, 70 动 态时间归正技术 (DTW) 解决了语音特征不等长匹配问题, 对 特定人孤立词语音识别十分有效,在语音识别领域取得了突 破。在此期间还提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。 80 年代语音识别研究进一步深入,HMM 模型和人工神 经网络 (ANN) 在语音识别中成功应用。1988 年, FULEE Kai 等用 VQ/I-IMM 方法实现了 997 个词汇的非特定人连续语音 识别系统 SPHINX。 这是世界上第 1 个高性能的非特定人、 大 词汇量、连续语音识别系统。人们终于在实验室突破了大词 汇量、 连续语音和非特定人这三大障碍, 并以此确定了统计方 法和模型在语音识别和语言处理中的主流地位。使得借助人 工智能中的启发式搜索和语音模型自身的特点, 高效、 快捷的 算法使得建立实时的连续语音识别系统成为可能。 90 年代, 人们开始进一步研究语音识别与自然语言处理 的结合,逐步发展到基于自然口语识别和理解的人机对话系 统。人工神经元网络(ANN)也开始应用于语音识07-3973(2010)03-062-02 HMM 模型建立的语音识别系统性能相当, 在很多系统中还被 结合在一起使用以提高识别率及系统的鲁棒性。小波分析也 开始用于特征提取, 但目前性能不理想, 其研究还在进一步深 入中。 现在语音识别系统已经开始从实验室走向实用,出现了 比较成熟的已推向市场的产品。许多发达国家如美国、 日本、 韩国以及 IBM、 Apple、 Microsoft、 & T 等著名公司都为语 AT 音识别系统的实用化开发研究投以巨资。 3 研究的热点与难点 目前语音识别领域的研究热点包括: 稳健语音识别 (识别 的鲁棒性) 语音输入设备研究 、 、 声学 HMM 模型的细化、 说话 人自适应技术、 大词汇量关键词识别、 高效的识别 (搜索) 算法 研究 、 可信度评测算法研究、 ANN 的应用、 语言模型及深层次 的自然语言理解。 目前研究的难点主要表现在:1) ( 语音识别系统的适应性 差。主要体现在对环境依赖性强。 高噪声环境下语音识别 (2) 进展困难, 因为此时人的发音变化很大, 像声音变高, 语速变 慢, 音调及共振峰变化等等, 必须寻找新的信号分析处理方法。 (3) 如何把语言学、 生理学、 心理学方面知识量化、 建模并有效 用于语音识别, 目前也是一个难点。 (4)由于我们对人类的 听觉理解、 知识积累和学习机制以及大脑神经系统的控制机 理等方面的认识还很不清楚, 这必将阻碍语音识别的进一步 发展。 4 语音识别系统 一个典型的语音识别系统如图所示:
文献标识码:A
—— 科协论坛 ・ 2010 年第 3 期 (下) ——
科研探索
与 知识创新
输入的语言信号首先要进行反混叠滤波、 采样、 A/D 转换 等过程进行数字化, 之后要进行预处理, 包括预加重、 加窗和 分帧、 端点检测等。我们称之为对语音信号进行预处理。 语音信号的特征参数主要有: 短时能量 En, 反映语音振幅 或能量随着时间缓慢变化的规律; 短时平均过零率 Zn, 对于离 散信号来讲, 简单的说就是样本改变符号的次数, 可以粗略分 辨清音和浊音; 短时自相关函数; 经过 FFT 或 LPC 运算得到 的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱 参数; 根据人耳听觉特性变换的美尔 (MEL) 线性预测系数等。 ; 通常识别参数可选择上面的某一种或几种的组合。 语音识别是语音识别系统最核心的部分。包括语音的声 学模型 (训练学习) 与模式匹配 (识别算法) 以及相应的语言模 型与语言处理 2 大部分。声学模型用于参数匹配,通常在模 型训练阶段按照一定的准则,由用语音特征参数表征的大量 已知模式中通过学习算法来获取代表该模式本质特征的模型 参数而产生。在识别 (模式匹配) 时将输入的语音特征同声学 模型 (模式) 根据一定准则进行匹配与比较, 使未知模式与模 型库中的某一个模型获得最佳匹配以得到最佳的识别结果。 语言模型一般指在匹配搜索时用于字词和路径约束的语言规 则,它包括由识别语音命令构成的语法网络或由统计方法构 成的语言模型, 语言处理则可以进行语法、 语义分析。 声学模型是语音识别系统中最关键的一部分。目前最常 用 也最 有 效 的几 种 声 学识 别 模 型包 括 动 态时 间 归 整模 型 (DTW) 隐马尔可夫模型 、 (HMM) 和人工神经网络模型 (ANN) 等。 DTW 是较早的一种模式匹配和模型训练技术, 它把整个 单词作为识别单元,在训练阶段将词汇表中每个词的特征矢 量序列作为模板存入模板库,在识别阶段将待识别语音的特 征矢量序列依次与库中的每个模板进行相似度比较,将相似 度最高者作为识别结果输出。DTW 应用动态规划方法成功 解决了语音信号特征参数序列比较时时长不等的难题,在小 词汇量、孤立词语音识别中获得了良好性能。但因其不适合 连续语音大词汇量语音识别系统, 目前已逐渐被 HMM 和 ANN 模型替代。 HMM 模型是语音信号时变特征的有参表示法。它由相 互关联的两个随机过程共同描述信号的统计特性,其中一个 是隐蔽的 (不可观测的) 具有有限状态的 Markor 链, 另一个是 与 Markor 链的每一状态相关联的观察矢量的随机过程 (可观 测的) 。HMM 很好的模拟了人得语言过程, 目前应用十分广 泛。 HMM 模型的模型参数包括 HMM 拓扑结构 (状态数目 N、 状态之间的转移方向等) 每个状态可以观察到的符号数 M 、 (符 号集合 O) 状态转移概率 A 及描述观察符号统计特性的一组 、 随机函数, 包括观察符号的概率分布 B 和初始状态概率分布 , 因此一个 HMM 模型可以由{N, A, }来确定, M, B, 对词汇表 中的每一个词都要建立相应的 HMM 模型。
相关主题