音频压缩编码原理及标准
感知音频编码(MPEG)原理
利用人耳的听觉感知特性,使用心理声学模型,将人耳 不能感知的声音成分去掉,只保留人耳能感知的声音成 分。 不为追求最小的量化噪声,只要量化噪声不被人耳感知 即可。
音频编解码器的性能指标: 重建的音频质量、数码率、复杂度和时延。 研究 的基本问题是: 更好的音频质量,并尽可能小的编解码时延 和算法复杂度;降低数码率。 重建音频质量的评价方法有客观评价和主观 评价。
声音信号的频率范围? 20Hz-20KHz 声音频谱的特点: 高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段 电平分布特点: 声音信号的电平存在冗余
一个较弱的声音(被掩蔽音)的听觉感受被 另一个较强的声音(掩蔽音)影响
掩蔽阈 掩蔽量 听阈
掩蔽量与掩蔽声具有的声压级成正比 掩蔽声的声压级越高、掩蔽的频率范围随之加宽 被掩蔽声的频率越接近掩蔽声,掩蔽效应越显著、掩蔽 量增大 掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱,对于高 于掩蔽声频率的声音掩蔽效果显著。
MPEG-1 层2
MPEG-1 层2 层2和层1的不同
1、使用1024点的FFT,提高频谱分辨率 2、每帧包含1152个采样值的码字。每个子带包含36个采样 值的码字,按照3个块进行编码,每块12个采样值。
3、描述比特分配的字段长度随子带的不同而不同。低频段 子带用4bit描述,中频段3个bit,高频段2个bit 4、编码器可对一个子带内3块采样值使用3种不同的比例因 子,传输时采用比例因子选择信息(SCFSI)描述
3.1 音频压缩编码的基本原理
巨大的数据量给存储和传输带来的压力
CD唱片 Fs=44.1KHz 量化精度 16bit 数码率? 1.41Mbit/s 1S信号所需存储空间? 176.4KB
双声道
数字音频信号中存在着大量冗余 频域冗余: 1. 低频成分比高频成分多 2. 语音信号的共振峰 时域冗余: 1. 小幅度样本比大幅度样值出现的概率大。 2. 相邻样值间的相关性 3. 信号周期的相关性 4. 长时自相关 5. 话音间隙冗余 听觉冗余: 利用人耳的感知特性,将听不到的信号压缩掉。
首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号。 对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。
声音信号从时域变为频域,用频率分量形式表示 原信号,再对其频谱系数进行量化编码 量化编码过程中,利用心理声学模型,对频谱系 数进行优化,来实现对音频数据进行有效的压缩
时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT
离散余弦变换(DCT)
时频变换(DFT)
逆变换
变换时将PCM样值分为N长的一块块进行变换 块长:一块中包含的样本数N 窗长:N ×(1/Fs) 频率分辨率:Fs/N 频率轴上的所能得到的最小频率间隔 块越长,变化编码的频率分辨率越高,但损失了时域分辨率
为了满足数码率和掩蔽特性的要求,比特分配器应同时 考虑来自分析滤波器的输出样值及来自心理声学模型的 信号掩蔽比(SMR),来决定分配给各个子带信号的量 化比特数,使量化噪声低于掩蔽阈值。 不同的子带信号可分配不同的量化比特数,但对于各个 子带信号而言,是线性量化。
6、帧结构
量化后的采样值和格式标记以及其他附加辅助数据按照 规定的帧格式组装成比特流数据
时间分辨率:长窗=2N ×(1/Fs)=42.68ms 短窗= 2N ×(1/Fs)=10.66ms 频率分辨率:长窗=Fs/2N=23.43Hz 短窗= Fs/2N=93.75Hz
统计编码
依据各个信号幅值出现的概率不同进行概率匹配编码 熵编码是依据声音信号幅度的概率分布特点,通过合理 的比特数分配使得信号概率与比特数之间相匹配,以达 到降低平均码长的目的
音频压缩编码的方法
分类方法一: 时域编码
利用声音信号在时间域内幅度变化经PAM后形成的样本 值,对不同样本值实现二进制码替代,从而形成数据码 流
频域编码
将时域中的声音信号进行频率变换,结合声音的相关性 及人的感知,选取量化比特数进行编码
统计编码
依据各个信号幅值出现的概率不同进行概率匹配编码
对某频率的声音信号的拾取会采用中心频率接近此频率 的带通滤波器,因此,只有通过该带通滤波器的那部分 噪声才会对该信号产生影响
临界带宽——描述人耳的滤波特性
如果在一频带内噪声的功率等于该纯音的功率,且这时, 纯音刚好能被听到(临界状态),此纯音附近的窄带噪 声带宽的宽度便称为临界带宽 通常认为20Hz~20KHz内有24个临界频带
MPEG-1 层1的帧结构
同步头:用于同步和记录帧信息 32bit CRC:用于检验传输差错的循环冗余校验码 16bit 比特分配:描述比特分配信息的字段 ,每个子带4bit 比例因子:每个子带6bit 采样值码字:同一个子带内的每个采样值用2~15bit表示 可能的附加辅助数据:长度未作规定
音频压缩编码的方法
分类方法二: 波形编码
对音频信号的时域或频域波形采样值进行编码。
主要利用音频样值的幅度分布规律和相邻样值间的相关性 进行压缩。
参数编码
根据声音形成机理的分析,以重建语音信号具有足够可 懂度的原则上,通过建立语音信号的产生模型,提取代 表语音信号特征的参数进行编码
混合编码
上述两种编码的混合
生理声学——研究听觉器官的构造和听音机理 心理声学——研究听觉心理,研究主观量与客观 量之间 的关系。 心理声学模型中一个基本概念:
听觉系统中存在一个听觉阈值电平,低于这个电平的音频信号 就听不到,因此就可以把这部分信号忽略掉,无需对它进行编 码,而不影响听觉效果
心理声学模型要完成掩蔽阈值的估算,输出信号-掩蔽比 率 声压级较低时,掩蔽仅局限于中心频率附近较窄的频率范围 随着声压级的提高,掩蔽区的频率范围加宽 随着声压级的提高,对高于中心频率的声音掩蔽作用加强
时域掩蔽
前向掩蔽:20ms,由于人耳的积累效应,被掩蔽声尚未 被听到,掩蔽声已经出现,其掩蔽效果很差 后向掩蔽:100ms,由于人耳的存储效应,掩蔽声虽已 消失,掩蔽效应仍然存在。
MPEG-1:数字存储媒体标准,1992年正式发布。 MPEG-2:数字电视标准 ,1993年11月发布。 MPEG-4:多媒体应用标准(1999年发布)。 MPEG-7:多媒体内容描述接口标准(1998年10月) MPEG-21:开放的多媒体传输和消费的框架。(2002年6月)
MPEG-1 层2
、
SCPSI 比例因子选择信息
为了降低传送比例因子的码率,信号平稳变化时,只传 送其中1个或2个较大的比例因子;对于瞬态变化的信号 ,3个比例因子都传递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子
利用声音的掩蔽效应,可以用有用的信号去掩蔽 无用的信号 只需把无用信号的声压级降至掩蔽域之下即可, 无需消除无用分量
人耳听力系统
空气声感受器 空气声转换为 骨导声 (能量处理) 中耳
带通滤波器
结构声能转换 为液体声,机 械振动转换为 神经脉冲 内耳
外耳
放大器
频率分析与信 号处理器
拾音器
时域编码
结合声音幅度的出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。
频域编码
利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率 采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率
子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码 变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码
音频压缩编码的基本原理 MPEG-1音频压缩编码标准 杜比AC-3音频压缩算法 MPEG-2音频压缩编码标准 MPEG-4音频压缩编码标准
按照对声音质量的要求不同以及使用频带的宽窄 ,将音频信号分为以下4类: 窄带语音:又称电话频带语音,300-3400Hz,用 于各类电话通信,数字化时采样频率常用8kHz。 宽带语音:用于电话会议,视频会议,507000Hz ,数字化时采样频率常用16kHz。 数字音频广播:20-15000Hz,数字化时采样频率 常用32kHz。 高保真立体声音频信号:20-20KHz,用于VCD、 DVD、CD等,数字化时采样频率常用44.1kHz 或 48kHz。
MPEG-1 音频压缩算法的特点
世界上第一个高保真音频数据压缩标准 输入线性PCM信号,采样频率可以为32kHz,44.1KHz, 48KHz,输出数码率32-384kbit/s 压缩后的比特流可以是: 单声道模式/双-单声道模式/立体声模式/联合立体声模式 提供3个独立的压缩层次:第1层(Layer1),第2层,第 3层
MPEG-1 层1 3、快速傅里叶变换(FFT)
信号从时域变换到频域的过程 使信号具有高的频率分辨率,为心理声学模型分析提供 信号的频谱特征
4、心理声学模型
MPEG-1 层1把音频信号分到频域子带,然后根据每个子 带内的量化噪声的大小对每个子带进行量化。为了达到 最大的压缩比,应求出每个子带的量化级数使得量化噪 声恰好不被听到
MPEG-1 层1原理方框图
MPEG-1 层1 1、子带分析滤波器组