当前位置:
文档之家› 深度学习在语音识别中的研究进展综述
深度学习在语音识别中的研究进展综述
面上 ,由于移 动设 备对语 音识别 的需求 与 日俱增 ,以语 音为 主 的移动终端应用不断融人人们 的 日常生活 中 ,如国际市场上有 苹果公 司的 Siri、微软的 (Vs)、短信听写 (SMD)等语 音应 用都 采 用 了最 新 的 语 音识 别 技 术 。现 在 ,绝 大 多数 的 SMD系统 的识别准确率都超过 了90% ,甚至有些超过 了95% , 这意 味着新一 轮的语音研究热潮正在不断兴起 。
Overview of speech recognition based on deep learning
Hou Yimin , Zhou Huiqiong” W ang Zhengyi ,
(1.School ofAutomation Engineering,Northeast Dianli University,Jilin Jilin 132012, China;2.Ch ina Aviation Planning& Design Institute Co.Ltd.,Be ng 100120,China )
随着移动互联 网的不 断发展 ,实现人与计算 机之 间的 自由 架 。目前许 多国 内外知 名研 究机 构 ,如微 软 、讯 飞、Google、 交互 越来越受到人们 的重视 。用语 音来实现这一 目标 ,主要包 IBM都 积极 开展对深度学 习 的研究 J。在 人们生 活的应用 层
括三项技 术 ,即语音识 别 、语 音编 码和语 音合成 J。本 文所研 究 的 自动语音识别 (automatic speech recognition,ASR)技 术 ,主 要是完成语音 到文 字的转 变 J,属 于非 特定 人语 音识 别 。语 音识别发 展到现在 ,已经改变 了人们 生活 的很多方 面 ,从语音 打字机 、数据库检索 到特定 的环境所需 的语 音命令 ,给人们 的 生活带来 了很 多方 便。对于语音识别系统 ,最具有代表性 的识 别方法有 特征 参 数 匹 配法 、隐 马尔 可 夫法 和 神 经 网络 法… 。
对于神经 网络 ,2006年 以前 ,人 们 尝试 训 练 深度 架 构都 失 败 1 深 度 学 习神 经 网络
了 ,用浅层 网络的学习训练一个深度 的有 监督 前馈神经网络是
失败 的,失败的主要原 因是 梯度不 稳定 ,并且 监督 学习数 据的 获取也非常 昂贵 ,梯度下降算法对初始值 的敏感 也使深度网络 参 数难 以训 练 ,最 后 还是 将 其 变 为 浅 层 (只 包含 1—2个 隐 层 )。直到 2006年 ,Hinton等人 提 出逐层贪婪无监 督预训练 深 度网络之后 ,微 软成 功地将深度学 习应用到 自己的语 音识 别 系统 中,比起 之 前 的 最 优 方 法 ,使 单 词 错 误 率 降 低 了 约 30% ,这称 得上是 语音 识别 领 域 中的再 一次 重 大突 破 。随 后 ,微软 的基 于上下文 相关 的深度神经 网络一 隐马尔可夫模 型
摘 要 :在 当今 的大数 据 时代 里 ,对 于 处理 大 量未 经标 注的原 始 语 音数 据 的传 统 机 器 学 习算 法 ,很 多都 已不再 适 用。与此 同时 ,深度 学 习模 型凭 借其 对 海量数据 的 强 大建 模 能力 ,能够 直接 对未标 注数据 进 行 处理 ,成 为 当前 语音 识 别领 域 的一 个研 究热 点。 主要 分 析和 总结 了当前 几种 具有代 表性 的深 度 学习模型 ,介 绍 了其在 语 音识 别 中对于语音特征提取及声学建模 中的应用,最后总结 了当前所面临的问题和发展方向。 关键 词 :机 器 学 习;深度 学 习 ;语音 数据 ;语音 识 别 中图 分类号 :TP181 文献标 志 码 :A 文 章编 号 :1001-3695(2017)08—2241-06 doi:10.3969/j.issn.1001-3695.2017.08.001
第 34卷 第 8期 2017年 8月
计 算 机 应 用 研 究
Application Research of Computers
Vo1.34 No.8 Aug. 2017
深 度 学 习在 语 音 识 别 中 的 研 究 进 展 综 述
侯一 民 ,周 慧琼 ”,王政一
(1.东北 电 力大 学 自动化 工程 学院 ,吉林 吉林 132012;2.中国航 空规 划设 计研 究总 院有 限公 司 ,北京 100120)
Abstract: In the era of big data,many of traditional machine learning methods of disposing unlabeled raw voice data have be— come less applicable.At the sam e time,deep learning m odels can directly process unlabeled data because of its powerful capa- bility of modeling to deal with the massive data, and has become a hot research in the f ield of speech recognition.To begin with,this paper analyzed and sum marized the state-of-the-art deep learning of models.And then,it discussed the applications to speech recognition with speech features extraction and acoustic modeling. Finally,it concluded the problems faced and de— velopm ent orientation. Key words: machine learning; deep learning; voice data; speech recognition