当前位置：文档之家› 4机器人多感知技术-听觉

4机器人多感知技术-听觉

尤其在大词汇量、非特定人、连续语音识别等方面；尤其在大词汇量、非特定人、连续语音识别等方面；已有许多语音识别产品问世。代表：已有许多语音识别产品问世。代表： IBM Via Voice
2011-11-2
河北工业大学机械学院
2
第四章机器人听觉
从识别的难易程度和应用的目的，从识别的难易程度和应用的目的，可将语音识别系统分为两大类：识别系统分为两大类：
9
4.1 声音信号的特征
3. 音调周期特性
从频谱分析的角度来看，从频谱分析的角度来看，一个振动信号可分为基波和各次谐波。谐波。音调周期就是话音信号的基波周期。音调周期就是话音信号的基波周期。男性的音调周期较长，女性和小孩的音调周期较短；男性的音调周期较长，女性和小孩的音调周期较短；每个人的音调周期互不相同，同一个人的音调周期变化不每个人的音调周期互不相同，大；各种字的音调周期也不相同。各种字的音调周期也不相同。
出现峰值时的频率值称为声道的共振峰位置特共振峰特性。简称共振峰特性性，简称共振峰特性。话音信号的频谱等于声带发出的脉冲信号频谱与声道频率特性的乘积，即道频率特性的乘积， S(f)=Ss(f) ·H(f)
2011-11-2 河北工业大学机械学院
16
4.1 声音信号的特征
用一个求最大值电路求出F的峰值时的频率值即为共振峰特性用一个求最大值电路求出的峰值时的频率值即为共振峰特性的峰值时的频率值即为
2011-11-2
河北工业大学机械学院
19
4.2 特定人的语音识别系统特定人语音识别系统判别的基本方法是：特定人语音识别系统判别的基本方法是：
1. 确定识别方法所用的特征确定识别方法所用的特征; 2. 将接收到的话音提取特征矩阵将接收到的话音提取特征矩阵; 3. 与事先存储在系统之内的标准模板中的特征矩阵相比较，与事先存储在系统之内的标准模板中的特征矩阵相比较，计算它们的距离。计算它们的距离。这个距离可以用各个对应的特征值之差的平方和来定义。的平方和来定义。 4. 如果距离小于某个值，则系统认为该发言人是指定的发如果距离小于某个值，言人，并确定所说的话是什么。言人，并确定所说的话是什么。
第四章机器人听觉
随着计算机技术的发展和语音识别技术的提高，随着计算机技术的发展和语音识别技术的提高，各种声交互系统得到越来越广泛的应用。种声交互系统得到越来越广泛的应用。例如
电话自动提款系统区分授权人和非授权人的“声锁” 区分授权人和非授权人的“声锁”等；
在机器人系统中，在机器人系统中，听觉系统是机器人的重要感觉器官之一（听觉接收外部信息量占总信息的5%）：官之一（听觉接收外部信息量占总信息的）：
发无阵音
声音强弱
2011-11-2
河北工业大学机械学院
5
4.1 声音信号的特征
1. 2. 3. 4. 5. 声音信号的特征信号幅度过零率音调周期线性预测系数声道共振峰值
发声源特性
声道特性
每种特征只能反映声音信号的一个侧面语音的每一小段（取样周期20ms）都有一组特征，语音的每一小段（取样周期）都有一组特征，称之为一个特征向量称之为一个特征向量一个字音就有一组特征向量，称之为特征矩阵一个字音就有一组特征向量，称之为特征矩阵
2011-11-2
河北工业大学机械学院
3
第四章机器人听觉
机器人的听觉系统的框图
2011-11-2
河北工业大学机械学院
4
4.1 声音信号的特征
人的发音器官可分为两部分，声道和声带。人的发音器官可分为两部分，即声道和声带。
声带是发音器，声道相当于一个谐振腔或滤波器。声带是发音器，声道相当于一个谐振腔或滤波器。整个发音过程可用一个电模型表示。整个发音过程可用一个电模型表示。发有阵音声道的特性
2011-11-2 河北工业大学机械学院
17
4.2 特定人的语音识别系统
特定人语音识别方法是将事先指定的人的声音中的每一个字音的特征矩阵存储起来，形成一个标准模板（个字音的特征矩阵存储起来，形成一个标准模板（或叫模），然后再进行匹配然后再进行匹配。板），然后再进行匹配。它首先要记忆一个或几个语音特征，它首先要记忆一个或几个语音特征，而且被指定人讲话的内容也必须是事先规定好的有限的几句话。的内容也必须是事先规定好的有限的几句话。特定人语音识别系统可以识别讲话的人是否是事先指定的人，别系统可以识别讲话的人是否是事先指定的人，讲的是哪一句话。句话。
2011-11-2
河北工业大学机械学院
1
第四章机器人听觉
机器人听觉系统与人耳的功能还有很大的距离
由于人类的语言非常复杂。无论哪个民族，由于人类的语言非常复杂。无论哪个民族，其词汇量都非常大，即使是同一个人，常大，即使是同一个人，他的发音也随着环境和身体状况而变化。而变化。
近年来，近年来，机器人听觉取得了令人鼓舞的成果
2011-11-2
河北工业大学机械学院
15
4.1 声音信号的特征
5. 声道共振峰特征
声带相当于一个脉冲串发生器，而声道相当于一个时变声带相当于一个脉冲串发生器，滤波器。实际上这个滤波器的频率特征具有一些共振峰，滤波器。实际上这个滤波器的频率特征具有一些共振峰，共振峰峰值的频率位置随所发话音的不同而变化。共振峰峰值的频率位置随所发话音的不同而变化。经分析，从零频算起的前三个共振峰很重要，经分析，从零频算起的前三个共振峰很重要，影响话音的波形。的波形。
2011-11-2
河北工业大学机械学院
11
4.1 声音信号的特征
具体处理方法
2011-11-2
河北工业大学机械学院
12
4.1 声音信号的特征
按上述办法提取的脉冲串进入相应当单元时，按上述办法提取的脉冲串进入相应当单元时，这个单元可以粗略的估计信号的基波周期。以粗略的估计信号的基波周期。每个单元将其幅值保持时间τ，期间对后来的脉冲不作任何处理；脉冲按指数规律下降，何处理；时间τ后，脉冲按指数规律下降，直到遇到幅度超过它的脉冲时，上边的过程重新开始。超过它的脉冲时，上边的过程重新开始。其中τ与脉冲幅值成正比。值成正比。
2011-11-2
河北工业大学机械学院
7
4.1 声音信号的特征
2. 过零率特征
过零率是指短时间段内语音信号过零次数，过零率是指短时间段内语音信号过零次数，它大致反映是指短时间段内语音信号过零次数信号在短时间内的平均频率。信号在短时间内的平均频率。经统计，有阵音的过零率大致为20～30，无阵音的过零经统计，有阵音的过零率大致为20～30， 20 率范围为80 120，一般的噪声过零率在这两个范围之间。 80～率范围为80～120，一般的噪声过零率在这两个范围之间。
2011-11-2
河北工业大学机械学院
14
4.1 声音信号的特征
实验表明，用前个值来估计就能保证足够的精度个值来估计就能保证足够的精度，实验表明，用前8个值来估计就能保证足够的精度，这时预测公式为
s9=a1s1+a2s2+ …+a8s8
式中，分别为第一、第二、式中， a1、a2、…、a8分别为第一、第二、……、第八预测、系数，综合称为预测系数特征。系数，综合称为预测系数特征。某一段话音在不同的短时间段内，某一段话音在不同的短时间段内，其预测系数特征是不同的，必须分段求取。同的，必须分段求取。
因此，可用音调周期进行话音识别。因此，可用音调周期进行话音识别。注意：只有“有阵音”才具有音调周期特性，注意：只有“有阵音”才具有音调周期特性，无阵音”不具备音调周期特性。 “无阵音”不具备音调周期特性。
2011-11-2 河北工业大学机械学院
10
4.1 声音信号的特征
估计音调周期的方法较多，这里介绍一种并行处理法。估计音调周期的方法较多，这里介绍一种并行处理法。原理：根据话音信号的峰直和谷值的位置，原理：根据话音信号的峰直和谷值的位置，提取一些脉冲将其附近某一邻域内的峰与谷忽略，串．将其附近某一邻域内的峰与谷忽略，这样得到的脉冲串可以保留原来信号钓周期特性，串可以保留原来信号钓周期特性，再用适当的方法估计话音的周期。音的周期。整个音调周期估计器的框图如下
这些脉冲的宽度可作为音调周期的估计值。这些脉冲的宽度可作为音调周期的估计值。
2011-11-2
河北工业大学机械学院
13
4.1 声音信号的特征
4. 线性预测系数特征
预测系数，简称预测系数它用几个数值来反映滤波器特性。简称预测系数，它用几个数值来反映滤波器特性。在一个短时间内，在一个短时间内，话音信号可以认为是一串窄脉冲夹在一个滤波器输入端时的滤波输出信号。在一个滤波器输入端时的滤波输出信号。信号波形受滤波器的影响，可从该波形中提取表征滤波器特性的特征值。器的影响，可从该波形中提取表征滤波器特性的特征值。的话音信号取样，对20ms的话音信号取样，取样周期为的话音信号取样取样周期为0.125ms，取样值，依次为s 、、、依次为 1、s2、s3、…。预测系数反映这些取样值之间的关系，预测系数反映这些取样值之间的关系，即反映滤波器的特性。的特性。滤波器的特征是连续的，滤波器的特征是连续的，所以一个取样值可用前面若干个取样值的线性组合来求得。干个取样值的线性组合来求得。
2011-11-2
河北工业大学机械学院
18
4.2 特定人的语音识别系统
为了识别发言人的话，为了识别发言人的话，首先要找出话音的起点和终点。终点。实验证明，必须把幅度特征过零率特征联合起幅度特征和实验证明，必须把幅度特征和过零率特征联合起来检测话音的起点和终点。来检测话音的起点和终点。为此，系统还要能够保留一段声音信号，为此，系统还要能够保留一段声音信号，当发现明显的声音信号时，明显的声音信号时，要从这点向前考察各个短时间段的幅度与过零率，间段的幅度与过零率，只要其中之一超过某个限就认为这段还是属于发音段，值，就认为这段还是属于发音段，直到这两种特征都低于限值时才停止考察，征都低于限值时才停止考察，这个时间点就是话音的起点。音的起点。对于终点，也用相同的办法来判别。对于终点，也用相同的办法来判别。

e商务文档

4机器人多感知技术-听觉

相关文档推荐：