当前位置:文档之家› 4机器人多感知技术-听觉

4机器人多感知技术-听觉

尤其在大词汇量、非特定人、连续语音识别等方面; 尤其在大词汇量、非特定人、连续语音识别等方面; 已有许多语音识别产品问世。代表: 已有许多语音识别产品问世。代表: IBM Via Voice
2011-11-2
河北工业大学机械学院
2
第四章 机器人听觉
从识别的难易程度和应用的目的, 从识别的难易程度和应用的目的,可将语音 识别系统分为两大类: 识别系统分为两大类:
9
4.1 声音信号的特征
3. 音调周期特性
从频谱分析的角度来看, 从频谱分析的角度来看,一个振动信号可分为基波和各次 谐波。 谐波。 音调周期就是话音信号的基波周期。 音调周期就是话音信号的基波周期。 男性的音调周期较长,女性和小孩的音调周期较短; 男性的音调周期较长,女性和小孩的音调周期较短; 每个人的音调周期互不相同,同一个人的音调周期变化不 每个人的音调周期互不相同, 大; 各种字的音调周期也不相同。 各种字的音调周期也不相同。
出现峰值时的频率值称为声道的共振峰位置特 共振峰特性。 简称共振峰特性 性,简称共振峰特性。 话音信号的频谱等于声带发出的脉冲信号频谱与声 道频率特性的乘积,即 道频率特性的乘积, S(f)=Ss(f) ·H(f)
2011-11-2 河北工业大学机械学院
16
4.1 声音信号的特征
用一个求最大值电路求出F的峰值时的频率值即为共振峰特性 用一个求最大值电路求出 的峰值时的频率值即为共振峰特性 的峰值时的频率值即为
2011-11-2
河北工业大学机械学院
19
4.2 特定人的语音识别系统 特定人语音识别系统判别的基本方法是: 特定人语音识别系统判别的基本方法是:
1. 确定识别方法所用的特征 确定识别方法所用的特征; 2. 将接收到的话音提取特征矩阵 将接收到的话音提取特征矩阵; 3. 与事先存储在系统之内的标准模板中的特征矩阵相比较, 与事先存储在系统之内的标准模板中的特征矩阵相比较, 计算它们的距离。 计算它们的距离。这个距离可以用各个对应的特征值之差 的平方和来定义。 的平方和来定义。 4. 如果距离小于某个值,则系统认为该发言人是指定的发 如果距离小于某个值, 言人,并确定所说的话是什么。 言人,并确定所说的话是什么。
第四章 机器人听觉
随着计算机技术的发展和语音识别技术的提高, 随着计算机技术的发展和语音识别技术的提高,各 种声交互系统得到越来越广泛的应用。 种声交互系统得到越来越广泛的应用。例如
电话自动提款系统 区分授权人和非授权人的“声锁” 区分授权人和非授权人的“声锁”等;
在机器人系统中, 在机器人系统中,听觉系统是机器人的重要感觉器 官之一(听觉接收外部信息量占总信息的5%): 官之一(听觉接收外部信息量占总信息的 ):
发无阵音
声音强弱
2011-11-2
河北工业大学机械学院
5
4.1 声音信号的特征
1. 2. 3. 4. 5. 声音信号的特征 信号幅度 过零率 音调周期 线性预测系数 声道共振峰值
发声源特性
声道特性
每种特征只能反映声音信号的一个侧面 语音的每一小段(取样周期20ms)都有一组特征, 语音的每一小段(取样周期 )都有一组特征, 称之为一个特征向量 称之为一个特征向量 一个字音就有一组特征向量,称之为特征矩阵 一个字音就有一组特征向量,称之为特征矩阵
2011-11-2
河北工业大学机械学院
3
第四章 机器人听觉
机器人的听觉系统的框图
2011-11-2
河北工业大学机械学院
4
4.1 声音信号的特征
人的发音器官可分为两部分, 声道和声带。 人的发音器官可分为两部分,即声道和声带。
声带是发音器,声道相当于一个谐振腔或滤波器。 声带是发音器,声道相当于一个谐振腔或滤波器。 整个发音过程可用一个电模型表示。 整个发音过程可用一个电模型表示。 发有阵音 声道的特性
2011-11-2 河北工业大学机械学院
17
4.2 特定人的语音识别系统
特定人语音识别方法是将事先指定的人的声音中的每一 个字音的特征矩阵存储起来,形成一个标准模板( 个字音的特征矩阵存储起来,形成一个标准模板(或叫模 ),然后再进行匹配 然后再进行匹配。 板),然后再进行匹配。 它首先要记忆一个或几个语音特征, 它首先要记忆一个或几个语音特征,而且被指定人讲话 的内容也必须是事先规定好的有限的几句话。 的内容也必须是事先规定好的有限的几句话。特定人语音识 别系统可以识别讲话的人是否是事先指定的人, 别系统可以识别讲话的人是否是事先指定的人,讲的是哪一 句话。 句话。
2011-11-2
河北工业大学机械学院
1
第四章 机器人听觉
机器人听觉系统与人耳的功能还有很大的距离
由于人类的语言非常复杂。无论哪个民族, 由于人类的语言非常复杂。无论哪个民族,其词汇量都非 常大,即使是同一个人, 常大,即使是同一个人,他的发音也随着环境和身体状况 而变化。 而变化。
近年来, 近年来,机器人听觉取得了令人鼓舞的成果
2011-11-2
河北工业大学机械学院
15
4.1 声音信号的特征
5. 声道共振峰特征
声带相当于一个脉冲串发生器,而声道相当于一个时变 声带相当于一个脉冲串发生器, 滤波器。实际上这个滤波器的频率特征具有一些共振峰, 滤波器。实际上这个滤波器的频率特征具有一些共振峰, 共振峰峰值的频率位置随所发话音的不同而变化。 共振峰峰值的频率位置随所发话音的不同而变化。 经分析,从零频算起的前三个共振峰很重要, 经分析,从零频算起的前三个共振峰很重要,影响话音 的波形。 的波形。
2011-11-2
河北工业大学机械学院
11
4.1 声音信号的特征
具体处理方法
2011-11-2
河北工业大学机械学院
12
4.1 声音信号的特征
按上述办法提取的脉冲串进入相应当单元时, 按上述办法提取的脉冲串进入相应当单元时,这个单元可 以粗略的估计信号的基波周期。 以粗略的估计信号的基波周期。 每个单元将其幅值保持时间τ,期间对后来的脉冲不作任 何处理; 脉冲按指数规律下降, 何处理;时间τ后,脉冲按指数规律下降,直到遇到幅度 超过它的脉冲时,上边的过程重新开始。 超过它的脉冲时,上边的过程重新开始。其中τ与脉冲幅 值成正比。 值成正比。
2011-11-2
河北工业大学机械学院
7
4.1 声音信号的特征
2. 过零率特征
过零率是指短时间段内语音信号过零次数, 过零率是指短时间段内语音信号过零次数,它大致反映 是指短时间段内语音信号过零次数 信号在短时间内的平均频率。 信号在短时间内的平均频率。 经统计,有阵音的过零率大致为20~30,无阵音的过零 经统计,有阵音的过零率大致为20~30, 20 率范围为80 120,一般的噪声过零率在这两个范围之间。 80~ 率范围为80~120,一般的噪声过零率在这两个范围之间。
2011-11-2
河北工业大学机械学院
14
4.1 声音信号的特征
实验表明,用前 个值来估计就能保证足够的精度 个值来估计就能保证足够的精度, 实验表明,用前8个值来估计就能保证足够的精度,这时 预测公式为
s9=a1s1+a2s2+ …+a8s8
式中, 分别为第一、第二、 式中, a1、a2、…、a8分别为第一、第二、……、第八预测 、 系数,综合称为预测系数特征。 系数,综合称为预测系数特征。 某一段话音在不同的短时间段内, 某一段话音在不同的短时间段内,其预测系数特征是不 同的,必须分段求取。 同的,必须分段求取。
因此,可用音调周期进行话音识别。 因此,可用音调周期进行话音识别。 注意:只有“有阵音”才具有音调周期特性, 注意:只有“有阵音”才具有音调周期特性, 无阵音”不具备音调周期特性。 “无阵音”不具备音调周期特性。
2011-11-2 河北工业大学机械学院
10
4.1 声音信号的特征
估计音调周期的方法较多,这里介绍一种并行处理法。 估计音调周期的方法较多,这里介绍一种并行处理法。原理:根据话音信号的峰直和谷值的位置, 原理:根据话音信号的峰直和谷值的位置,提取一些脉冲 将其附近某一邻域内的峰与谷忽略, 串.将其附近某一邻域内的峰与谷忽略,这样得到的脉冲 串可以保留原来信号钓周期特性, 串可以保留原来信号钓周期特性,再用适当的方法估计话 音的周期。 音的周期。整个音调周期估计器的框图如下
这些脉冲的宽度可作为音调周期的估计值。 这些脉冲的宽度可作为音调周期的估计值。
2011-11-2
河北工业大学机械学院
13
4.1 声音信号的特征
4. 线性预测系数特征
预测系数, 简称预测系数 它用几个数值来反映滤波器特性。 简称预测系数,它用几个数值来反映滤波器特性。 在一个短时间内, 在一个短时间内,话音信号可以认为是一串窄脉冲夹 在一个滤波器输入端时的滤波输出信号。 在一个滤波器输入端时的滤波输出信号。信号波形受滤波 器的影响,可从该波形中提取表征滤波器特性的特征值。 器的影响,可从该波形中提取表征滤波器特性的特征值。 的话音信号取样, 对20ms的话音信号取样,取样周期为 的话音信号取样 取样周期为0.125ms,取样值 , 依次为s 、 、 、 依次为 1、s2、s3、…。 预测系数反映这些取样值之间的关系, 预测系数反映这些取样值之间的关系,即反映滤波器 的特性。 的特性。 滤波器的特征是连续的, 滤波器的特征是连续的,所以一个取样值可用前面若 干个取样值的线性组合来求得。 干个取样值的线性组合来求得。
2011-11-2
河北工业大学机械学院
18
4.2 特定人的语音识别系统
为了识别发言人的话, 为了识别发言人的话,首先要找出话音的起点和 终点。 终点。 实验证明,必须把幅度特征 过零率特征联合起 幅度特征和 实验证明,必须把幅度特征和过零率特征联合起 来检测话音的起点和终点。 来检测话音的起点和终点。 为此,系统还要能够保留一段声音信号, 为此,系统还要能够保留一段声音信号,当发现 明显的声音信号时, 明显的声音信号时,要从这点向前考察各个短时 间段的幅度与过零率, 间段的幅度与过零率,只要其中之一超过某个限 就认为这段还是属于发音段, 值,就认为这段还是属于发音段,直到这两种特 征都低于限值时才停止考察, 征都低于限值时才停止考察,这个时间点就是话 音的起点。 音的起点。 对于终点,也用相同的办法来判别。 对于终点,也用相同的办法来判别。
相关主题