当前位置：文档之家› 视觉及语音识别技术的当下与未来

视觉及语音识别技术的当下与未来

视觉、语音识别技术
【引言】：在这个信息高速发展的时代下，人们已经不再停留于对于信息的解读与计算，未来信息时代的发展方向是人机互动，更确切的说，是人物互动，通过识别系统来感知外界信息以达到互动，而最直接的便是视觉、语音识别技术的识别，同时我们可以把这个互动看作机器的智能反应，而识别技术便是达成该飞跃的密钥。

【摘要】
1.视觉、语音识别技术的概念，及其发展至今的过程。

2.视觉、语音识别系统的应用。

3.视音融合的未来的展望。

*计算机视觉、语音识别
语音识别技术，也被称为自动语音识别，即Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

与说话人识别及说话人确定不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

这本身就是富有挑战性的，计算机需要去通过智能技术计算出当事人的身份，以达到识别的目的
而作为人类视觉模拟的计算机视觉是利用计算机从而为图中提取景物的二维或三维的结构和属性的描述，并加以理解。

计算机视觉同样是一个重要又富有挑战意义的研究领域。

对于计算机视觉系统来说，输入时表示三维景物投影的灰度阵列，可以有若干个输入阵列，这些阵列可提供从不同方面、不同视角、不同时刻得到的信息。

纵观语音识别的历史，早在计算机发明之前，自动语音识别的设想就已经被提上日程，早起的声码器可被视作语音识别的雏形。

1960年，人工神经网络被引入了语音识别。

这一时代的两大突破时线性预测编码和动态时间弯折技术。

而语音识别技术的最重大突破是隐马尔科夫模型的应用。

*视觉识别和语音识别的应用
视觉识别的应用很多，视觉的最大优点是与被测对象无接触，因此对观测者与被观测者都不会产生任何损伤。

而智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题。

伴随网络技术和数字视频技术的飞速发展，监控技术正走向智能化、网络化方向不断前进。

它在工业上可应用于对烟叶品质进行图像处理，借助MATLAB图像处理工具箱和神经网络技术，对各种类型的烟叶的数字图像进行计算机视觉分析，包括边缘检测、轮廓提取、用图像工具箱抽取烟叶数字图像特征，最后通过自动识别待测烟叶样本的品质的只能评定。

在商业上，如商业人流统计、防止扒窃等等。

其理念是将风险的分析和识别转交给计算机或者芯片，使值班人员从“死盯”监视器的工作中解脱出来，将人为失误的可能性降至最低，在不需要人为干预情况下，利用计算机视觉和视频分析的方法对摄像机拍摄的图像序列进行自动分析，实现对动态场景中目标的定位、识别和跟踪，并在此基础上分析和判断目标的行为，从而既能完成日常管理工作又能在异常情况发生时做出反应。

军事方面，计算机视觉开辟了人工智能的一个全新领域，它模拟并帮助理解人类的视觉系统。

就军事领域的应用而言，在执行地空突防飞行和其它空袭任务过程中，采用被动式地形侦查与勘测技术能够提高飞行的隐蔽性，解决易于被敌方探测的需要。

当然不得不提视觉识别技术在公安工作中的应用，例如计算机人脸识别技术是利用计算机对人脸图像进行分析，从中提取有效地识别信息，用来“辨别”身份的一门极速。

它涉及到图像处理、模式识别、计算机视觉和神经网络等等。

人脸识别技术在商业上和法律上都有
大量应用，入身份证、护照、信用卡、驾驶执照与实际持证人的核对，这些细小之处足见视觉识别技术对我们日常百姓的重要。

同时，视频监控系统中的人物跟踪，Video图像的实时匹配、公安系统的犯罪身份识别、银行及海关的监控系统和自动门卫系统。

在日、夜间进行车辆的检测，通过对道路交通样本库的采集和组织，运用虚拟线圈法或者目标跟踪法对车辆进行检测。

这些基础应用已经对世界产生了潜移默化的影响。

北京大学的视觉信息处理研究室的：建筑物与复杂场景三维数字化技术的基础研究，数学机械化与自动推理平台“课题”信息安全、传输与可靠性研究，基于小波的视频压缩与通讯系统研究等等，都体现了视觉信息处理的整个大的发展趋势。

而语音识别技术在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成一个服务的“提供者”和生活“伙伴”。

使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，语音识别正逐步成为实习技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作，其发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已大于98%，对特定人语音识别系统的识别精度就更高，当然这只是在中小词汇量或特定人的情况下产生的精度。

现阶段，由于大规模集成电路技术的发展，这些复杂的语音识别系统也可以完全制成专用芯片，大量生产，在西方经济发达国家，大量的语音识别产品进入市场和服务领域。

一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。

当然，在这里我们不研究最后的效果如何，但是我们必须承认，语音识别技术领域依然有很大的发掘空间，值得我们去继续探索，最终将高端技术运用到现实生活中。

*未来的展望
计算机视觉识别技术和计算机语音识别技术是两个分立的技术，顾名思义，一个从视觉入手，一个从语音入手，但是它们又是密不可分的，因为介于现阶段技术层面的不成熟，视觉和语音识别在目前都还无法支持无限领域，如果进行单一的识别会出现一系列的问题。

例如，视觉识别技术的分辨是可调的，即高分辨和低分辨，但是实际应用过程中，用户会因为与之前的信息由细微差别而无法通过高分辨，也就无法完成识别的目的。

同时，如果将识别模式调整为低分辨，则又会出现非本人的用户通过识别，同样也无法完成识别。

语音识别一样也面临着同样的窘境，视觉识别和语音识别最本质的东西都是一样的，是通过逻辑运算，运用统计学计算概率来达到识别的目的。

随着个人计算机CPU处理速度的不断提升、存储容量的加大，人机交互技术已经越来越引起人们的重视。

传统的人机交互设备，如键盘，鼠标等，由于自身速度、友好性方面的限制，会逐渐被更加友好的人机交互设备所替代，人机交互技术已经从以计算机为中心，逐步转移到以人为中心的交互方式。

在此篇论文上半部分我提到，单一的识别具有局限性，语音识别在相对安静的环境下能够对连续的单词及词组达到较高的识别率。

然而，使其应用到有背景噪声的多人交互的真实环境时，其较差的抗干扰能力，使其无法满足广泛的要求。

事实上，在真实的吵杂环境中，人们对语言的感知是双模态的，它很自然的包含了语言及视觉信息。

其中，最显著的例子就是当人们欣赏电影片段时，清晰的画面与音响效果同样重要。

早在1954年Pollack就提到了视觉信息在语音识别中的辅助性，而McGurk效应则说明了视、听融合在语言感知的重要性。

因此，对于计算机语音识别技术来说，除了传统的音频信息以外，也可以通过人脸嘴部的视觉信息，或人体的手势动作来提高人机交互的识别效果。

类似与通过观察说话人的口型进行语音交流，人机交互中视觉特征的引入可以提高传统单语音识别系统的性能。

由于视觉特征不受外界噪音环境的影响，系统识别能力更具健壮性、实用性。

因此，视觉的语音识别技术在未来的实用性更高，它可突破单一识别模式的局限性，
广泛应用于安全识别、视频电话、交互式电视、视频游戏、军事应用等领域。

同时，这种视---音融合可使二者的优势有机的结合到一起，在未来中达到高质量的识别。

当然，视--音融合依旧在初级阶段，首先，根据未来系统识别的要求，此类数据库应该具有更多说话人视频、语音的训练资源和完整标注。

这些资源的建立需要空前庞大的人员以及时间才能符合系统的要求。

其次，语音识别中视、音的互补性。

对视--音双模态数据库中同步的视频语音数据，分别提取视觉特征和语音特征，进行语音识别下视、音互补性的研究。

这需要对人体视觉及听觉系统的物理器官作深入的分析，找出其相互的联系。

结论：
视觉识别技术和语音识别技术都还在发展阶段，都还有一定的发展空间，但同时，它们各自的局限却也是不能回避的，视觉识别自身分辨程度不同会对模式影响颇大，并没有一个统一的规则来决定分辨底线，语音识别技术则是过于依赖于外界环境的好坏，没有非常完美的抗干扰能力。

未来，我们需要将二者统一，通过双模式识别，来最终识别当事人，视--音融合，各取所长，在最大的概率下识别。

在未来，随着各识别技术的发展，我们最终会迎来跨世纪的一个时代，实现以人为主的人机互动。

【参考文献】
1：《智能视频监控中目标检测与识别》上海交通大学出版社作者：万卫兵、霍宏、赵宇明编著
2：《基于视觉信息的语音识别技术研究》上海大学作者：刘家涛
3：《计算机视觉识别技术的应用》作者：吴楚林。

e商务文档

视觉及语音识别技术的当下与未来

相关文档推荐：