当前位置:文档之家› 人工智能与语言识别

人工智能与语言识别

人工智能与语言识别
摘要:语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。

语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。

神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学。

本文针时语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法。

该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。

关键词:语言识别;神经网络;遗传算法;BP网络
Artificial Intelligence and Speech Recognition
Abstract: Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science. This paper mainly studies the application of the BP neural network in the research of speech recognition. The training speed can be accelerated by the method and the recognition performance is also promoted.
Key words: speech recognition;neural network;genetic algorithm;BP network
正文
一、语言识别的概述
随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。

在现代社会中,人们逐渐习惯借助计算机来完成各项事务。

在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。

二、语言识别的基本原理
语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。

现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。

人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。

网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。

BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。

大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程。

三、语音识别中的BP网络构造
语音识别中的BP网络构造主要包括输入层、隐层、输出层、初始权值、学习速率与期望误差的选取几个方面的问题。

1)网络层数:理论上,在不限制隐层节点数的情况下,两层(只有一个隐层)的BP网络可以实现任意非线性映射。

当模式样本很多时,减小网络规模,增加一个隐层是必要的,但BP网络隐层数一般不超过两层。

2)输入层节点数:在BP网络语音识别系统中,输入层节点数与选取的语音信号特征参数的维度和阶数有关。

3)输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。

当BP网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据训练模板的语音数来确定。

4)隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高,这在结构上。

要比增加更多的隐层简单的多。

但究竞选取多少个隐层节点才合适?在理论上并没有1个明确的规定。

在具体设计时。

比较实际的做法是通过对不同神经元数进行训练对比。

然后适当的加上一点余量。

一般可利用下面式子决定:n1=√m+a +a,其中n1为隐层节数;m为输入节点数;n为输出节点数;a为取l—10的常数。

5)初始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练时间的长短关系很大。

一般总是希望经过初始加权后的每个神经元的输出值都接近于零。

所以,一般取初始值在(-1,1)之间的随机数。

6)学习速率与期望误差的选取:学习速率决定每一次循环训练中所产生的权值变化量。

小的学习速率虽然会导致收敛速度慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。

所以,一般情况下,学习速率的选取范围在0.01~0.8之间。

期望误差0.O00001。

解决了上述几个方面的问题后。

输入层各节点将输入信号经权重藕合到隐层的每个节点。

隐层各节点对来自前一层的信号加权,经激发函数转换后再藕合到输出层。

参考文献
[1]胡航.语音信号处理(第一版)[M].哈尔滨:哈尔滨工业大学出版社,2000.
[2]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[3]蔡莲红,黄德智,蔡锐.现代语音技术基础于应用[M].北京:清华大学出版社,2003.
[4]孙宁,孙劲光,孙宁.基于神经网络的语音识别技术研究[J].计算机与数字工程,2005,34(3):58—61.
[5]夏克文,李吕彪,沈钧毅.前向神经网络隐含层节点数的最优算法[J].计算机科学,2005,32(10):143—145.
[6]蔡自兴,徐光祐.人工智能及其应用[M].第4版. 北京:清华大学出版社,2010.
[7]Lippman R P. Review of Neural Network for Speech Recognition[J].Neural Computation,1989,l(1):l—38.。

相关主题