当前位置:文档之家› 音频压缩编码原理及标准.

音频压缩编码原理及标准.



离散余弦变换(DCT)
将原信号沿负方向延拓定义域,并合理选择对称坐标轴, 使其正、负轴对称,这样信号变为实轴对称的偶函数,DFT 变换后仅有余弦项而不存在正弦项,运算量大为减小。 原本的N个样本,经过对称后变为2N个 2N为抽取的样本值总数,为DCT变换的块长度。 例:采样为48KHz的PCM样值进行DCT变换,窗长分别为 21.33ms(相当于1024个样值),5.33ms(相当于256个样 值),则频率分辨率和时间分辨率分别为?
时域编码

结合声音幅度的出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。
频域编码
利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率 采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率



子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码 变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码
对某频率的声音信号的拾取会采用中心频率接近此频率 的带通滤波器,因此,只有通过该带通滤波器的那部分 噪声才会对该信号产生影响


临界带宽——描述人耳的滤波特性
如果在一频带内噪声的功率等于该纯音的功率,且这时, 纯音刚好能被听到(临界状态),此纯音附近的窄带噪 声带宽的宽度便称为临界带宽 通常认为20Hz~20KHz内有24个临界频带


首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号。 对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。
声音信号从时域变为频域,用频率分量形式表示 原信号,再对其频谱系数进行量化编码 量化编码过程中,利用心理声学模型,对频谱系 数进行优化,来实现对音频数据进行有效的压缩
音频压缩编码的基本原理 MPEG-1音频压缩编码标准 杜比AC-3音频压缩算法 MPEG-2音频压缩编码标准 MPEG-4音频压缩编码标准


按照对声音质量的要求不同以及使用频带的宽窄 ,将音频信号分为以下4类: 窄带语音:又称电话频带语音,300-3400Hz,用 于各类电话通信,数字化时采样频率常用8kHz。 宽带语音:用于电话会议,视频会议,507000Hz ,数字化时采样频率常用16kHz。 数字音频广播:20-15000Hz,数字化时采样频率 常用32kHz。 高保真立体声音频信号:20-20KHz,用于VCD、 DVD、CD等,数字化时采样频率常用44.1kHz 或 48kHz。

MPEG-1 层1原理方框图
MPEG-1 层1 1、子带分析滤波器组
将宽频带信号分割成32个子带信号 子带为等宽的均匀划分
2、标定
将每个子带中12个采样值归并成一个块 找出12个采样值中绝对值最大的样本值 根据其值的大小确定比例因子(查表得到,大于该绝对值 的一系列值中的最小值定为比例因子) 将12个采样值用比例因子归一化(标定) 比例因子用6个bit来表示 每12采样值并成的块进行一次比特分配,并记录一个比例 因子
MPEG-1 音频压缩算法的特点
世界上第一个高保真音频数据压缩标准 输入线性PCM信号,采样频率可以为32kHz,44.1KHz, 48KHz,输出数码率32-384kbit/s 压缩后的比特流可以是: 单声道模式/双-单声道模式/立体声模式/联合立体声模式 提供3个独立的压缩层次:第1层(Layer1),第2层,第 3层

生理声学——研究听觉器官的构造和听音机理 心理声学——研究听觉心理,研究主观量与客观 量之间 的关系。 心理声学模型中一个基本概念:
听觉系统中存在一个听觉阈值电平,低于这个电平的音频信号 就听不到,因此就可以把这部分信号忽略掉,无需对它进行编 码,而不影响听觉效果


心理声学模型要完成掩蔽阈值的估算,输出信号-掩蔽比 率(SMR)
3.1 音频压缩编码的基本原理

巨大的数据量给存储和传输带来的压力
CD唱片 Fs=44.1KHz 量化精度 16bit 数码率? 1.41Mbit/s 1S信号所需存储空间? 176.4KB
双声道
数字音频信号中存在着大量冗余 频域冗余: 1. 低频成分比高频成分多 2. 语音信号的共振峰 时域冗余: 1. 小幅度样本比大幅度样值出现的概率大。 2. 相邻样值间的相关性 3. 信号周期的相关性 4. 长时自相关 5. 话音间隙冗余 听觉冗余: 利用人耳的感知特性,将听不到的信号压缩掉。

时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT

离散余弦变换(DCT)
时频变换(DFT)
逆变换
变换时将PCM样值分为N长的一块块进行变换 块长:一块中包含的样本数N 窗长:N ×(1/Fs) 频率分辨率:Fs/N 频率轴上的所能得到的最小频率间隔 块越长,变化编码的频率分辨率越高,但损失了时域分辨率
音频压缩编码的方法
分类方法二: 波形编码
对音频信号的时域或频域波形采样值进行编码。
主要利用音频样值的幅度分布规律和相邻样值间的相关性 进行压缩。

参数编码
根据声音形成机理的分析,以重建语音信号具有足够可 懂度的原则上,通过建立语音信号的产生模型,提取代 表语音信号特征的参数进行编码

混合编码
上述两种编码的混合


MPEG-1 音频压缩算法的特点
可预先定义压缩后的数码率

编码后的数据流支持循环冗余校验 支持数据流中载带附加信息


MPEG-1 音频压缩编码的基本原理
MPEG-1音频压缩的基础是量化 MPEG-1使用感知音频编码来达到压缩音频数据又尽可能 保证音质的目的。 感知音频编码的理论依据是听觉系统的掩蔽特性。基本 思想是在编码过程中,保留有用的信息而丢掉被掩蔽的 信号。 MPEG-1提供3个独立的压缩层次,它们的基本模型相同 。层1是最基础的。任何MPEG-1音频码流帧结构的同步 头中都有一个2bit的层代码字段用来指出所用的是哪一个 层次 MPEG-1按规定构成“帧”格式,层1的每帧包含384个 采样值码字。384个采样值来自32个子带,每个子带12个 采样值。层2和层3每帧包含1152个采样值的码字每个子 带包含36个采样值。

MPEG-1 层2


SCPSI 比例因子选择信息
为了降低传送比例因子的码率,信号平稳变化时,只传 送其中1个或2个较大的比例因子;对于瞬态变化的信号 ,3个比例因子都传递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子

音频压缩编码的方法
分类方法一: 时域编码
利用声音信号在时间域内幅度变化经PAM后形成的样本 值,对不同样本值实现二进制码替代,从而形成数据码 流
频域编码
将时域中的声音信号进行频率变换,结合声音的相关性 及人的感知,选取量化比特数进行编码

统计编码
依据各个信号幅值出现的概率不同进行概率匹配编码

MPEG-1 层1的帧结构
同步头:用于同步和记录帧信息 32bit CRC:用于检验传输差错的循环冗余校验码 16bit 比特分配:描述比特分配信息的字段 ,每个子带4bit 比例因子:每个子带6bit 采样值码字:同一个子带内的每个采样值用2~15bit表示 可能的附加辅助数据:长度未作规定


窄带噪声的掩蔽效应要明显于纯音 声压级较低时,掩蔽仅局限于中心频率附近较窄的频率范围 随着声压级的提高,掩蔽区的频率范围加宽 随着声压级的提高,对高于中心频率的声音掩蔽作用加强


时域掩蔽

前向掩蔽:20ms,由于人耳的积累效应,被掩蔽声尚未 被听到,掩蔽声已经出现,其掩蔽效果很差 后向掩蔽:100ms,由于人耳的存储效应,掩蔽声虽已 消失,掩蔽效应仍然存在。


可变字长编码
3.2 MPEG-1音频压缩编码标准

MPEG Moving Picture coding Experts Group 活动图像专 家组
1988年由国际标准化组织ISO和国际电工委员会IEC联合成 立的专家组,负责开发电视图像数据和声音数据的编码、 解码和它们的同步等标准。 已经开发和正在开发的MPEG标准有:



声音信号的频率范围? 20Hz-20KHz 声音频谱的特点: 高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段 电平分布特点: 声音信号的电感受被 另一个较强的声音(掩蔽音)影响
掩蔽阈 掩蔽量 听阈
掩蔽量与掩蔽声具有的声压级成正比 掩蔽声的声压级越高、掩蔽的频率范围随之加宽 被掩蔽声的频率越接近掩蔽声,掩蔽效应越显著、掩蔽 量增大 掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱,对于高 于掩蔽声频率的声音掩蔽效果显著。

利用声音的掩蔽效应,可以用有用的信号去掩蔽 无用的信号 只需把无用信号的声压级降至掩蔽域之下即可, 无需消除无用分量


人耳听力系统
空气声感受器 空气声转换为 骨导声 (能量处理) 中耳
带通滤波器
结构声能转换 为液体声,机 械振动转换为 神经脉冲 内耳
外耳
放大器
频率分析与信 号处理器
拾音器
目标:计算子带的信号掩蔽比(SMR)
① ② ③ ④ ⑤ ⑥ ⑦ ⑧
数字音频信号用傅里叶FFT变时域为频域 确定每个子带的声压级 确定安静状态的阈值 找出声音信号中的纯音和非纯音成分 单独掩蔽域值的计算 总体掩蔽阈值的计算 每个子带最小掩蔽阈值的确定 每个子带的信号-掩蔽比率的计算
MPEG-1 层1 5、动态比特分配
相关主题