当前位置：文档之家› 第3章音频信息处理技术共102页

第3章音频信息处理技术共102页

m
d(S,Yi) j(s(j)yij)2
j1
其中，Yi是码本中第i个码字，每个码字有m维； j 是权
函数；d是误差值。
若矢量量化编码的对象是语音模型参数，将多数由参数来表示的语音频谱失真作为误差准则。最常用的是 I-S准则：
d(X,Y i)2 1 ln Y X i((e ejj ))2 Y X i((e ejj ))21 d
图3.3-2 增量调制编码过程示意图
输出码
2. 自适应增量调制(ADM) 在ADM中，常用的规则有两种：一种是控制可变因子M，使量化阶距在一定范围内变化。对于每一个新的采样，其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。其典型的规则为
2 y(k)y(k1) M 1/2 y(k)y(k1)
声音文件所需的存储空间可用下式来计算
存储量字节 /秒采样率量化精度声道数
8 以16位、22.05 kHz的频率录制1分钟的立体声，所需存储空间为5.292 MB。
如果录制1小时的立体声。其所要求的存储空间为 60×5.292=317.52 MB。
音频信息编码技术可分为三类：
(2) 参数编码
通过构造发声模型作为基础，用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型，在发送端从模拟语音信号中提取各个特征参量并进行量化编码，以实现语音信息的数字化。
优点：语音编码速率较低（2～9.6kbit/s），压缩比特率低。
缺点：合成语音质量较差，实现的复杂度高。
了解音频信息的相关知识对更进一步掌握多媒体技术是很重要的。
3.1.1 声音概念
1. 声音定义声音是振动波，具有振幅、周期和频率。 2. 声音三要素 (1) 音调 — (高低) (2) 音强 — (强弱) (3) 音色 — (特质)
3. 声音的质量简称音质。音质与频率范围成正比，频率范围越宽音质越好。
(4) 根据量化得到的聚类结果修正码字，即寻找每一类的新的代表性码字。
(5) 判断(3)中量化编码误差是否小于规定数值，或者迭代次数是否超过规定值，若是，训练结束。否则转(3)继续。
矢量量化编码的关键技术的另一个方面是量化编码准则问题，这与被编码对象特性有关。举例来说，若直接对输入语音波形进行矢量量化，则多用最小均方误差MSE (Mean-Squared-Error) 准则：
度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪声之比的简称。
(2) 声音主观质量的度量
表3.1-1 5分制平均观点分举例
MOS 5 4 3 2 1
质量级别优(Excellent)
良(Good) 中(Fair) 差(Poor) 劣(Unacceptable)
式中，a i 为预测系数。当前值与预测值的差为
e0 y0yˆ0
信号
＋
采样 y 0 －
量化器
输出
＋
yˆ 0 预测器
＋
输入＋＋
(a)
图3.3-5 (a) 编码器； (b) 解码器
信号滤波预测器
(b)
我们定义 a i 就是使估值的均方差最小的 a i 。估
值的均方差可由下式决定：
E { y 0 ( y ˆ 0 ) 2 } E { y 0 [ ( a 1 y 1 a 2 y 2 a N y N ) 2 } ]
采样
量化
编码
图3.2-1 音频信息处理框图
按不同应用目标进行数字压缩
(1) 采样过程
数字激光唱盘CD FM无线电广播 AM无线电广播
电话
10 20
50 200
3400 7k 15k 20k 频率/Hz
图3.2-2 常见音频应用带宽示意图
(2) 量化过程 (3) 编码过程
3.3 音频信号压缩编码
典型代表：线性预测编码器（LPC）
(3) 混合编码混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。波形编码：保真度好，计算量小，但编码后速率高；参数编码：码速率较低，但保真度欠佳，计算复杂。波形编码与参数编码结合——混和编码：克服弱点，结合优点压缩比特率：4～16kbit/s 编码器：多脉冲激励线性预测编码器（MPE-LPC）、规则脉冲激励线性预测编码器（RPE-LPC）、码激励线性预测编码器（ CELP ）、矢量和激励线性预测编码器（VSELP）和多带激励线性预测编码器。
(2) 相位(Phase)：如果人的两耳听到的信号具有相同的相位，那么大脑就认为声音在中部；如果两耳听到信号有180°的相位差，那么声音就不包含方向信息了。
(3) 时序(Timing)：声音的传播速度为1英尺每毫秒；如果声音到达右耳的时间比到达左耳的早，我们就认为声源就在右边。
5. 声音质量评价
三种压缩编码的性能比较
主观音质评价混和法 Nhomakorabea参量法
波形法
2 4 6 8 16 32 kbit/s
3.3.1 增量调制
1. 一般增量调制
脉冲发生器
输入信号
＋
比较器
极性判别
调制器
信道
－
y ' t
译码器
图3.3-1 增量调制的系统结构框图
u（模拟输入）
0 1 1 11 1 1 1 00 0 0 1 10 0 0 10 0 1 0
另一类使用较多的自适应增量调制称为连续可变斜率增量(CVSD)调制。CVSD的自适应规则为
(k 1 ) P y (k)y (k 1 )y (k 2 ) (k) (k 1 ) Q其它
式中，β可在0～1之间取值。可以看到，β的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P 和Q为增量，而且P要大于等于Q。
失真级别觉察不到觉察得到，但不难听有点难听难听，但不反感难以忍受
3.2 音频信号数字化
0.2 0.1
0 -0.1 -0.2
0 0.2 0.1
0 -0.1 -0.2
0
0.5
1
1.5
2
2.5
x 104
200
400
600
800 1000 1200 1400 1600
模拟音频信号
音频信号数字化
(1) 波形编码
基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。
优点：实现简单、语音质量好、适应性强，有成熟的技术实现方法。
缺点：压缩程度不高、实现的码速率较高，码率低于32kbit/s时音质降低明显，16kbit/s时音质就非常差了。
常用的波形法编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。
50Hz ～ 7,000Hz
度
调频广播(FM)
20Hz ～ 15,000Hz
高级音响
10Hz ～ 40,000Hz
3.1.3 声音信号特性分析
1. 时域起始——稳定——结束 2. 频域声音信号由正弦分量组成——周期、非周期频谱分析——线状谱、连续谱声音信号的描述——声波频率、声压、声强人耳对声音的感觉通过声压或声压级描述——非线性听域（1kHz）：2×10-5Pa—— 0dB 痛域：20 Pa —— 120dB
3.3.4 变换域编码
信号输入输入缓冲
变换
量化编码
边信息提取
比特分配量阶尺寸
谱插值
编码合输出路
编码输入分
路
解码
反变换
输出缓冲
比特分配量阶尺寸
谱插值
(a)
(b)
图3.3-8 (a) 编码；(b) 解码
3.3.5 矢量量化
信号序列输入
构成矢量
矢量码本
矢量码本
传送
传送
第3章音频信息处理技术
3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择 3.6 IP电话技术
3.1 声学基础知识
人类从外界获得的信息大约有16%是从耳朵得到的。在多媒体技术中，音频信息占有很重要的地位，比如视频会议系统，音频信息的优先级最高。
人的耳朵只能感觉到振动频率在20Hz到20000Hz之间的声波，超出此范围的振动波不能引起听觉器官的感觉。其中，人耳对400-4000Hz的声波最敏感。
男性语音
100Hz ～ 9,000Hz
女性语音
150Hz ～ 10,000Hz
声
频
源
电话语音
200Hz ～ 3,400Hz
带
种
宽
类
调幅广播(AM)
4. 声音的连续时基性声音具有连续性和过程性，数据前后相关，数据量大，具有实时性。
3.1.2 声音频率分布
次声波
人耳可听域
<20Hz
20～20,000Hz
超声波 >20,000Hz
模拟波信号有三个要素：基线、周期和振幅。
振幅即波形的最高点（或最低点）与基线间的距离，它表示了声音音量的大小。
周期是波形中两个相邻波峰之间的距离，它表示完成一次振动过程所需的时间，其大小体现了振动的速度。频率是周期的倒数，周期越短，频率越高。
y 1.0
0.5
-1.0
-0.5
0
0.5
-0.5
1.0 x
-1.0
图3.3-3 律压扩特性
b7 b6 b5 b4 b3 b2 b1 b0
符号位
折线编号

e商务文档

第3章音频信息处理技术共102页

相关文档推荐：

e商务文档

第3章音频信息处理技术 共102页

相关文档推荐：

第3章音频信息处理技术共102页