当前位置:文档之家› 语音信号特征参数研究

语音信号特征参数研究

( 12)
( 13)
图 1 sunday.wav 原始波形图
图 2 sunday.wav 短时能量图 a
756 电脑知识与技术
图 3 sunday.wav 短时能量图 b
本栏目责任编辑: 唐一东
多媒体技术及其应用
图 4 sunday.wav 短时能量图 c
图 5 Sunday.wav 短时平均幅度图
参考文献: [1] 张智星.音讯处理与辨识[EB/OL].网上在线课程.[2008- 01- 23].]http://www.cs.nthu.edu.tw/ ̄jang. [2] 边肇祺.张学工.模式识别[M].北京: 清华大学出版社,2005. [3] 王炳锡.实用语音识别基础[M].北京: 国防工业出版社,2005.
4 语音信号特征提取实验
我们对采样频率(fs)为 16kHZ 的 sunday.wav 来提取上一节中介绍的特征参数: 短时能量、短 时 平 均 幅 度 。 其 中 每 帧 大 小 为 256 ( 即每帧包含 256 个取样点) , 帧叠为 0。
我们可用公式( 3) 计算得到图 2 所示的短时能量图。我们希望短时能量图平滑一些, 采用减去每帧中的中位值后再进行绝对值 求和的方法, 如公式( 12) 所示, 公式( 12) 中的 median 为每帧帧向量的中位值, 所得的短时能量图如图 3 所示。但这短时能量图没变 化多少, 且短时能量对于高电平信号非常敏感, 我们采用对数短时能量计算方式来得到短时能量, 如公式( 13) 所示, 公式( 13) 中的 δ 为一个无穷小量, 是为防止对 0 取对数而加入的, 计算后所得的短时能量图如图 4 所示。根据公式( 6) 所得的短时平均幅度为图 5 所示。它与图 3 很接近。
多媒体技术及其应用
本栏目责任编辑: 唐一东
语音信号特征参数研究
石海燕
( 浙江工业大学 信息工程学院, 浙江 杭州 310032)
摘要: 在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对 语音信号特征参数、语音信号特征参数的选择进行了介绍, 并介绍了语音信号的短时能量、短时平均幅度的提取。
语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成 一帧一帧, 每帧大小大约是 20 ̄30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语 音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的 1/2 或 1/3。 帧叠大, 相应的计算量也大。
( 上接第 753 页) 因 子 分 别 为 90%、70%、50%、30%、25%) 后 ( 对 应 的 PSNR 值 分 别 为 39.236、36.369、35.020、33.631、33.082) 再 提 取 的 水 印 , 对 应 的 BER 值分别为 0.00195、0.01758、0.04492、0.12012、0.16113, 试验结果表明算法对 JPEG 压 缩 具 有 很 好 的 鲁 棒 性 , 即 使 25%的 压 缩 因 子下, 都能较准确的提取水印信号; (f)~(i)为经小波压缩( bpp 分别为 8.00、3.50、1.50、0.80) 后( 对应的 PSNR 值分别为 45.390、43.452、 39.452、37.305) 再提取的水印, 对应的 BER 值分别为 0、0.00391、0.02148、0.20703, 试验结果表明算法对小波压缩也具有一定的鲁棒 性, 只有在低于 0.80bpp 的压缩条件下, 提取水印开始明显模糊。
5 结束语
语音信号具有很大的信息冗余, 我们提取出最能表征语音信号的特征能极大地提高语音识别准确率, 也能极大的压缩语音信 号。在本文第 2 节中介绍了大量语音信号特征; 在第 3 节中介绍了语音信号特征的选择; 第 4 节中对部分语音信号特征进行了提 取, 并用可视化的方法展示了部分语音信号特征。提取出语音信号特征后, 接下来就可以对语音信号进行语音识别, 这就是我们接 下来的工作。在语音信号特征提取之前可先对语音信号进行端点检测, 准确标记出语音信号的起止点, 这样也能提高语音识别的准 确率, 这也是我们接下来想进行的工作。以及有关语音信号特征的线性、非线性组合以提高语音识别的准确率也是我们接下来想进 行的工作。
可以根据平均过零数来粗略区分清音和浊音, 发清音时具有较高的平均过零数, 发浊音时具有较低的平均过零数。短时平均过 零数还可以用于识别语音信号的起点和终点。
具体应用领域对语音信号特征有不同的要求 , 特征的选择很重要, 它强烈地影响应用系统的效率。我们要对具体的应用选择合 适的特征, 在一个说话人识别系统中倒谱特征、倒谱与差值倒谱特征组合以及倒谱、差值倒谱、基音、差值基音组合有更好的识别准 确 率 [2]。 由 此 可 见 多 特 征 组 合 有 更 高 的 识 别 准 确 率 。
( 9) 其中 αi 都是实数, 称作预测系数。预测值 s! (n)与真值 s(n)之间的预测误差 ε(n)可以用下式计算:
( 10)
( 11) 由于 s(n)是一个随机序列, 所以 ε(n)也是一个随机序列。可以用 ε(n)的均方差来衡量线性预测的准确性。δε2 越小, 预测的准确性 在均方误差最小意义下越好。 还有以下几类特征参数: 线谱对(LSP)参数、线性预测倒谱参数(Linear Prediction Cepstrum Coefficient, LPCC)、美尔频标倒谱系数 (Mel Frequency Cepstrum Coefficient, MFCC)、感觉加权线性预测特征(Perceptual Linear Predictive,PLP)( PLP 参数、RASTA- PLP 参数) 、 动 态 差 分 参 数 、高 阶 信 号 谱 类 特 征 等 [3]。
常用的语音特征参数有平均能量、平价跨零数或跨零率、共振峰、LPC 参数、倒谱参数、临界带倒谱等。下一节介绍一些常用的 语音特征。
2 语音信号特征参数介绍
( 1) 基音周期(Pitch) 人的语音基本上由两类构成, 一类是浊音(voice), 另一类是清音(unvoice)。浊音的语音信号具有较强的周期性, 不同的浊音波形 是不同的。浊音的这种周期叫基音周期, 其倒数叫做基音频率, 它主要和声带的特性有关。一般来说, 成年男性的语音的基音频率在 60Hz ̄200Hz, 而成年女性和儿童语音的基音频率在 200Hz ̄450Hz。清音的语音信号具有随机噪声的特点, 一般来说清音的幅度小于 浊音的幅度。基音周期(Pitch)是指发浊音时声带震动所引起的周期运动时间间隔, 代表声带震动的快慢, 震动越快音高会越高, 基音 周期是声带振动频率 F0 的倒数, 它是语音信号分析的一个重要参数。 ( 2) 短时频谱 语音信号特征在较短的时间间隔中保持基本不变, 即语音信号具有时变特性, 因而可以将语音信号看作是一个短时平稳过程。 语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。可以用下列公式计算:
( 8) 这样得到的 c(n)被称做是“倒频谱”或“倒谱”。 ( 8) 线性预测编码( LPC) 参数 考虑语音信号序列 s(n)。假设某时刻 n 之前的 P 个语音信号值 s(n- 1),s(n- 2),…,s(n- P)已知, 但时刻 n 的语音信号值 s(n)未知。如 果用前 P 个已知的信号值的某种线性组合预测 s(n)的值, 则预测值 s! (n)可以表示为:
( 1)
收稿日期: 2008- 01- 12 个人简介: 石海燕( 1977- ) , 女, 浙江诸暨人, 实验师, 主要研究方向: 语音处理、模式识别。
754 电脑知识与技术
本栏目责任编辑: 唐一东
多媒体技术及其应用
也即 sw(n) 的离散傅立叶变换。|Sw(k)|2 称为 s(n)的短时功率谱。 ( 3) 短时自相关函数 sw(n)的自相关函数 Rw(τ)称为 s(n)的短时自相关函数。可用公式( 4) 计算:
( 2) ( 4) 短时能量 s(n)的 短 时 能 量 计 算 公 式 如 下 :
( 3) 短时能量代表声音的尺寸, 可由声音信号的震幅来类比。 ( 5) 短时平均幅度 s(n)的 短 时 平 均 幅 度 计 算 公 式 如 下 :
( 4) 短时能量和短时平均幅度都是表示一段语音信号能量大小的参数。 ( 6) 短时过零率 信号按段分割就称为短时, 段可是帧大小。过零就是信号的幅度值从正值到负值、负值到正值要经过零点, 统计信号在一秒钟 内有几次过零就是过零率。s(n)的短时过零率表示一段语音信号中语音信号波形与横轴相交的次数。可以用式( 5) 计算:
1 引言
在 语 音 识 别 的 发 展 过 程 中 使 用 了 大 量 的 语 音 信 号 特 征 参 数 。特 征 参 数 的 提 取 是 关 系 到 语 音 识 别 系 统 性 能 好 坏 的 一 个 关 键 技 术 , 其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的特征参数抽出来。接下去所要作的识别处理都 是建立在特征参数之上的, 如果特征参数不能很好地反映语音信号的本质, 识别就不能成功。
3 语音信号特征选择
短时自相关分析可用来区分清音和浊音, 浊音信号是准周期性的, 用短时自相关函数求出语音波形序列的基音周期。对语音信 号进行线性预测分析时也要用到短时自相关函数。
755
多媒体技术及其应用
本栏目责任编辑: 唐一东
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律, 清音段的幅度一般比浊音段的幅度小很多, 根据语音信号短 时能量值的变化, 可大致判定浊音变为清音或清音变为浊音的时刻。短时能量在高信噪比的语音信号中, 可以用来区分静音, 静音 的噪声能量很小, 而有语音信号时短时能量值显著地增大到某一数值, 通过这一点也可以区分语音信号的起点和终点( 也即端点) 。
相关主题