当前位置:文档之家› 第3章音频信息处理技术 共102页

第3章音频信息处理技术 共102页

m
d(S,Yi) j(s(j)yij)2
j1
其中,Yi是码本中第i个码字,每个码字有m维; j 是权
函数;d是误差值。
若矢量量化编码的对象是语音模型参数,将多数由 参数来表示的语音频谱失真作为误差准则。最常用的是 I-S准则:
d(X,Y i)2 1 ln Y X i((e ejj ))2 Y X i((e ejj ))21 d
图3.3-2 增量调制编码过程示意图
输出码
2. 自适应增量调制(ADM) 在ADM中,常用的规则有两种: 一种是控制可变因子M,使量化阶距在一定范围内 变化。对于每一个新的采样,其量化阶距为其前面数值 的M倍。而M的值则由输入信号的变化率来决定。其典 型的规则为
2 y(k)y(k1) M 1/2 y(k)y(k1)
声音文件所需的存储空间可用下式来计算
存 储 量 字 节 /秒 采 样 率 量 化 精 度 声 道 数
8 以16位、22.05 kHz的频率录制1分钟的立体声,所需存 储空间为5.292 MB。
如果录制1小时的立体声。其所要求的存储空间为 60×5.292=317.52 MB。
音频信息编码技术可分为三类:
(2) 参数编码
通过构造发声模型作为基础,用一套模拟声带频谱特 性的滤波器系数和若干声源参数来描述这个模型,在发送 端从模拟语音信号中提取各个特征参量并进行量化编码, 以实现语音信息的数字化。
优点:语音编码速率较低(2~9.6kbit/s),压缩比特 率低。
缺点:合成语音质量较差,实现的复杂度高。
了解音频信息的相关知识对更进一步掌握多媒体 技术是很重要的。
3.1.1 声音概念
1. 声音定义 声音是振动波,具有振幅、周期和频率。 2. 声音三要素 (1) 音调 — (高低) (2) 音强 — (强弱) (3) 音色 — (特质)
3. 声音的质量 简称音质。音质与频率范围成正比,频率范围 越宽音质越好。
(4) 根据量化得到的聚类结果修正码字,即寻找每 一类的新的代表性码字。
(5) 判断(3)中量化编码误差是否小于规定数值, 或者迭代次数是否超过规定值,若是,训练结束。否 则转(3)继续。
矢量量化编码的关键技术的另一个方面是量化编 码准则问题,这与被编码对象特性有关。举例来说, 若直接对输入语音波形进行矢量量化,则多用最小均 方误差MSE (Mean-Squared-Error) 准则:
度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration),信噪比是有用信号与噪声之比的简称。
(2) 声音主观质量的度量
表3.1-1 5分制平均观点分举例
MOS 5 4 3 2 1
质量级别 优(Excellent)
良(Good) 中(Fair) 差(Poor) 劣(Unacceptable)
式中,a i 为预测系数。当前值与预测值的差为
e0 y0yˆ0
信号

采样 y 0 -
量化器
输出

yˆ 0 预测器

输入 + +
(a)
图3.3-5 (a) 编码器; (b) 解码器
信号 滤波 预测器
(b)
我们定义 a i 就是使估值的均方差最小的 a i 。估
值的均方差可由下式决定:
E { y 0 ( y ˆ 0 ) 2 } E { y 0 [ ( a 1 y 1 a 2 y 2 a N y N ) 2 } ]
采样
量化
编码
图3.2-1 音频信息处理框图
按不同应用目标 进行数字压缩
(1) 采样过程
数字激光唱盘CD FM无线电广播 AM无线电广播
电话
10 20
50 200
3400 7k 15k 20k 频率/Hz
图3.2-2 常见音频应用带宽示意图
(2) 量化过程 (3) 编码过程
3.3 音频信号压缩编码
典型代表:线性预测编码器(LPC)
(3) 混合编码 混合编码是指同时使用两种或两种以上的编码方法进 行编码的过程。 波形编码:保真度好,计算量小,但编码后速率高; 参数编码:码速率较低,但保真度欠佳,计算复杂。 波形编码与参数编码结合——混和编码:克服弱点, 结合优点 压缩比特率:4~16kbit/s 编码器:多脉冲激励线性预测编码器(MPE-LPC)、 规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性 预 测 编 码 器 ( CELP ) 、 矢 量 和 激 励 线 性 预 测 编 码 器 (VSELP)和多带激励线性预测编码器。
(2) 相位(Phase):如果人的两耳听到的信号具有相同 的相位,那么大脑就认为声音在中部;如果两耳听到信 号有180°的相位差,那么声音就不包含方向信息了。
(3) 时序(Timing):声音的传播速度为1英尺每毫秒; 如果声音到达右耳的时间比到达左耳的早,我们就认为 声源就在右边。
5. 声音质量评价
三种压缩编码的性能比较
主观 音质评价混和法 Nhomakorabea参量法
波形法
2 4 6 8 16 32 kbit/s
3.3.1 增量调制
1. 一般增量调制
脉冲 发生器
输入 信号

比较器
极性判别
调制器
信道

y ' t
译码器
图3.3-1 增量调制的系统结构框图
u(模拟输入)
0 1 1 11 1 1 1 00 0 0 1 10 0 0 10 0 1 0
另一类使用较多的自适应增量调制称为连续可变斜率 增量(CVSD)调制。CVSD的自适应规则为
(k 1 ) P y (k)y (k 1 )y (k 2 ) (k) (k 1 ) Q其它
式中,β可在0~1之间取值。可以看到,β的大小可以通 过调节增量调制来适应输入信号变化所需时间的长短。P 和Q为增量,而且P要大于等于Q。
失真级别 觉察不到 觉察得到,但不难听 有点难听 难听,但不反感 难以忍受
3.2 音频信号数字化
0.2 0.1
0 -0.1 -0.2
0 0.2 0.1
0 -0.1 -0.2
0
0.5
1
1.5
2
2.5
x 104
200
400
600
800 1000 1200 1400 1600
模拟 音频信号
音频信号数字化
(1) 波形编码
基于对语音信号波形的数字化处理,试图使处理后 重建的语音信号波形与原语音信号波形保持一致。
优点:实现简单、语音质量好、适应性强,有成熟 的技术实现方法。
缺点:压缩程度不高、实现的码速率较高,码率低 于32kbit/s时音质降低明显,16kbit/s时音质就非常差了。
常用的波形法编码技术有增量调制(DM)、自适应差 分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化 编码(VQ)等等。
50Hz ~ 7,000Hz

调频广播(FM)
20Hz ~ 15,000Hz
高级音响
10Hz ~ 40,000Hz
3.1.3 声音信号特性分析
1. 时域 起始——稳定——结束 2. 频域 声音信号由正弦分量组成——周期、非周期 频谱分析——线状谱、连续谱 声音信号的描述——声波频率、声压、声强 人耳对声音的感觉通过声压或声压级描述——非线性 听域(1kHz):2×10-5Pa—— 0dB 痛域:20 Pa —— 120dB
3.3.4 变换域编码
信号 输入 输入 缓冲
变换
量化 编码
边信息 提取
比特分配 量阶尺寸
谱插值
编码 合 输出 路
编码 输入 分

解码
反变换
输出 缓冲
比特分配 量阶尺寸
谱插值
(a)
(b)
图3.3-8 (a) 编码;(b) 解码
3.3.5 矢量量化
信号序 列输入
构成 矢量
矢量 码本
矢量 码本
传送
传送
第3章 音频信息处理技术
3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择 3.6 IP电话技术
3.1 声学基础知识
人类从外界获得的信息大约有16%是从耳朵得到的。 在多媒体技术中,音频信息占有很重要的地位, 比如视频会议系统,音频信息的优先级最高。
人的耳朵只能感觉到振动频率在20Hz到20000Hz之间的 声波,超出此范围的振动波不能引起听觉器官的感觉。其中, 人耳对400-4000Hz的声波最敏感。
男性语音
100Hz ~ 9,000Hz
女性语音
150Hz ~ 10,000Hz



电话语音
200Hz ~ 3,400Hz




调幅广播(AM)
4. 声音的连续时基性 声音具有连续性和过程性,数据前后相关,数 据量大,具有实时性。
3.1.2 声音频率分布
次声波
人耳可听域
<20Hz
20~20,000Hz
超声波 >20,000Hz
模拟波信号有三个要素:基线、周期和振幅。
振幅即波形的最高点(或最低点)与基线间的距离,它 表示了声音音量的大小。
周期是波形中两个相邻波峰之间的距离,它表示完成一 次振动过程所需的时间,其大小体现了振动的速度。频率是 周期的倒数,周期越短,频率越高。
y 1.0
0.5
-1.0
-0.5
0
0.5
-0.5
1.0 x
-1.0
图3.3-3 律压扩特性
b7 b6 b5 b4 b3 b2 b1 b0
符号位
折线编号
相关主题