音频压缩编码技术
4、混合编码 混合编码充分吸收了波形编码与参数编码的 优点,并将二者结合,它包括多脉冲线性预测 编码(MPL-PC)、矢量和激励线性预测编码 (VSELP)、码激励线性预测编码(CELP)等。
四、MPEG-1音频压缩编码标准
1﹑ MPEG-1音频的三个层次 MPEG-1(ISO/IEC11172)标准的第三部分 (ISO/ IEC11172-3)称为MPEG-1音频。 MPEG-1音频部分提供单声道(mono)与双 声道 (stereo)数字音频,取样频率为32kHz ﹑44.1kHz和48kHz。音频的压缩编码技术采用 的是MUSICAM方案。 MPEG-1音频按照压缩编码的复杂程度规定 了3个层次,即Layer1﹑Layer2﹑Layer3三个层
次的基本模型是相同的。层次越高,压缩比越 大,编﹑解码器越复杂。每个层次针对不同应 用。三个层的解码器后相兼容,即Layer3的解 码器可以对三个层的码流解码, Layer2解码器 可以解码Layer1和 Layer2。 2﹑ Layer1音频编码器 Layer1是简单型,通常目标码率为为每通 道192kb/s。立体声码率为384kb/s,压缩比为 1︰4。 Layer1被广泛应用在VCD的音频压缩编 码中。 Layer1音频编码器的方框图如下图。
PCM输入信号
32
32
32子带滤波器组
量化编码
复
比例因子计算
比例因子
用 器
音频码 流输出
512点FFT
心里声学模型
动态比特分配
Layer1音频编码器的方框图
输入的PCM数字音频信号首先通过一个多通道滤波 器组,变换成32个等宽频带子带。这些滤波器的输出 是临界频带系数样值。通过研究人耳对频率的分辨率 可知,在低频段可以分辨出相差几赫兹的音调声;而 在高频段,要分辨音调音,其频率间隔必须相差几百 赫兹,这些固有区域称为临界频带。输出临界频带样 值是经过量化的,如果一个子带覆盖若干个临界频带 ,就选择具有最小噪声掩蔽的临界频带,并利用该临 界频带来计算分配给自带量化信号的比特数。 心理声学模型首先确定各个子带中允许的最大量 化噪声,对小于它的量化噪声的子带都会被掩蔽掉, 即如果自带内的信号功率低于掩蔽阈值,则不进行编 码。对子带内的信号功率不低于掩蔽阈值时,需要确 定编码的系数所需的比特数。
就找出信噪比的新估计值,重新计算该子带的掩蔽噪声 比。上述过程重复进行,直到再没有多余的比特可分配 了为止,这个过程称为比特分配。 按输入信号的大小来改变量化步长,输入信号小时 用较小的量化步长,输入信号大时用较大的量化步长。 因此,需要将码中的比特分为两组,一组比特用来量化 步长大小,这组比特代表幅度值的“比例因子”,其余 比 特用来均匀量化与这些量化步长对应的信号,这组比特 代表幅度值的“尾数”。通常量化信噪比SNR取决于位 数 的比特数。 MPEG-1音频数据是一帧一帧传送的,Layer1每帧 有32个子带组成,每个子带包括12个样值每帧有384个
要的作用。由于人们的听觉系统存在着某些不敏感效 应,某些情况下的音频不能被感知,因此从感知效果 来看这些不敏感的音频分量可认为是知觉冗余。如果 将这部分冗余压缩掉,可提高编码效率,这是音频压 缩的另一个理论基础。
4、对音频数据压缩的两个途径
(1)利用信号本身的统计特性,在完全不丢失 信息的情况下进行高效的熵编码(平均信息量编码) (2)利用人们对音频信号的感知特性,通过省 略人们所不能分辨或不敏感的信息来压缩信息量,这 就是知觉编码。
编码中可利用此特性,把高频声道的多个部分 耦合到一个公共声道,已达到压缩编码的目的 。
三、数字音频信号压缩编码的主 要类型
数字音频信号的压缩编码主要分为熵编码 、波形编码、参数编码和混合编码四种类型。 1、熵编码
主要包括霍夫曼编码、算术编码与游程编码。
2、波形编码
主要包括全频带编码子带编码和矢量量编 码,波形编码能够在高码率的条件下获得高质 量的音频信号,因而适用于高保真语音及音乐 信号的压缩编码。 3、参数编码 指使用合适的模型参数与参考激励信号来 模拟音频信号进行编码,当声音重放时,根据 这些参数重建音频信号,这就是通常所说的声 码器(Vocoder)。参数编码压缩比很高,计算 量也很大,因而不适合高保真要求的应用场合。
音频压缩编码技术
信息学院 电子二班
本内容参照清华大学出版社许志祥编著的 《数字电视与图像通信技术》2009年8月第1版。 先讲声音编码机器压缩依据,分析人的听觉生 理-心理特性,再简单介绍数字音频信号压缩编 码的主要类型,最后重点介绍MPEG-1音频压缩 编码标准。
一、概述 二、人的听觉生理—心理特性 三、数字音频信号压缩编码的主要类型 四、MPEG-1音频压缩编码标准
,如比特率标记。然后是长度为16bit的循环冗余码,接 着是用于描述比特分配长度为4bit的比特分配域,长度 为6bit的比例因子域,以及子带样值域等。
3、Layer1的解码系统
32子带合成 声音信号 滤波器组
解复用
声音码流
子带样值及量化
与纠错 解码
边信息解码
4、Layer2和Layer3编、解码器
为了实现音频心理声学模型,首先要用快速傅里叶 变换FFT将音频样值转换到频域。Layer1的FFT为512点。 Layer2的FFT为1024点。将得到的频率组成临界频带, 计算由临界频带引起的每个子带的掩蔽值,并计算每个 子带的信号掩蔽比SMR,SMR的计算方法是将信号的子带 能量除以子带的最小掩蔽阈值,有一组32个SMR(每个 子带一个)构成模型的输出,最后将该子带的最大信号 /掩蔽阈值率输入给量化器。 根据心理声学模型的信息,决定分配给各个子带的 编码比特数,即比特分配。先计算出掩蔽噪声比MNR: MNR=SNR(信噪比)-SMR(信号掩蔽比) 一旦所有的自带都计算出了掩蔽信噪比MNR,就可找出 其中具有最低MNR的子带,并给这个子带分配多一点比 特。当一个子带获得了更多的编码比特,比特分配单位
(1) Layer2音频编、解码器
PCM输入信号 32子带分析滤波器组
32 量化编码 32
复
辅助 数据 编码
用 器
音频 码流
比例因子选择
比例因子计算
1024点FF图 Layer2音频解码器与Layer1的相同,这里不再重复。
(2) Layer3音频编、解码器
谢谢!
二、人的听觉生理—心理特性
听觉的掩蔽效应是声音编码的基础,掩蔽 效应既和频率与有关,也和时间域有关。 1、频谱掩蔽效应 若有一个声压强度达70db、频率1kHz的纯音 出现时,处于1kHz邻近某一频带内强度较小的 信号声音信号人耳是听不见的,即被1kHz纯音 掩蔽掉了。
2、时间掩蔽效应 除了在较强的声音信号出现时,弱信号会 被屏蔽掉外,在强的声音信号出现之前或之后 的短暂时间内已存在的弱因信号也会被强信号 屏蔽掉,分别称为前掩蔽和后掩蔽,这种情况 叫做时间掩蔽效应(Temporal Masking Effect)。 3、方向掩蔽效应 人耳除具有听觉掩蔽效应外,还不能分别 判断频率接近的高频声音信号的方向,在声音
3、压缩依据
声音信息能够进行压缩的基本依据是声音信息 的冗余度及人类的听觉特性。 从信息保持的角度讲,只有当信源本身具冗余 度,才能进行压缩。因为语音和音乐信号中存在着 时域信息冗余及频域信息冗余,所以可以进行压缩 ,这是对音频信号进行压缩的一个理论基础。 语音和音乐信号最终是传送给人听的,人的听觉 生理—心理特性在整个音频传输过程中起着重
PCM输入
32子带滤波 器组
MDCT
非线性量化 比特率控制
Huffman 编码
复
码流 输出
用 1024点FFT 心理声学模型 辅助数据 编码
Layer3音频编码器框图
声音码流
Huffman 编码 解复用 纠错 边信息 编码
比例因子 恢复
IM DCT
32子带综合 样 滤波器组 值
输 出
Layer3音频解码器框图
声音编码(Audio Coding)是一类高保真 的音频编码,它的带宽应为20Hz~20kHz ,但 在许多场合,主要是传送语音而不是音乐音频 带宽在50Hz~7kHz就够了。在声音编码中主要 传送语音的一类编码称之为语音编码(speech coding)。数字声音信号与图像信号一样,通 过取样、量化、编码后的数据量也非常大,传 输与存储均有很大困难。
一、概述
1、声音(Audio)
声音的传送是通信中一个极为重要的内 容。电视及图像通信中除了传送图像外, 传送声音也是极为重要的,如在会议电视 中,由于通信线路带宽的限制,图像是可 以跳帧的,每秒钟能传送10帧已经很不错 了,但语音的传送却不可以断续,而且要 有较高音质。
2、声音编码(Audio Coding)