第4章 信源编码原理
4.1.1数字音频压缩的必要性和可能性 数字音频压缩编码的目的,是在保 证重构声音质量一定的前提下,以尽 量少的比特数来表征音频信息,或者 是在给定的数码率下,使得解码恢复 出的重构声音的质量尽可能高。
4.1数字音频编码的基本原理
4.1.1数字音频压缩的必要性和可能性 4.1.2人耳的听觉感知特性
4.1.3音频感知编码原理
自适应变换编码
在变换编码中,利用正交变换,把时间域音 频信号变换到另一个域(如频率域),由于 去相关的结果,变换域系数的能量将集中在 一个较小的范围,所以对变换系数进行量化 编码,就可以达到压缩数码率的目的。而在 接收端,用逆变换便可获得重构的音频信号。 使变换域系数能够进行自适应比特分配的变 换编码,称为自适应变换编码(ATC)。
4.1.3音频感知编码原理
子带编码的优点: 可根据每个子带信号在感知上的重要性,即 利用人对声音信号的感知模型(心理声学模 型),对每个子带内的采样值分配不同的比 特数。 由于分割为子带后,减少了各子带内信号能 量分布不均匀的程度,减少了动态范围,从 而可以按照每个子带内信号能量来分配量化 比特数,对每个子带信号分别进行自适应控 制。 通过频带分割,各个子带的采样频率可以成 倍下降。
N 2
0.1( SPL 40)
4.1.2人耳的听觉感知特性
响度级
人耳对声音强弱的主观感觉还可以 用响度级来表示。响度级的单位为方 (phon)。规定1kHz纯音声压级的分贝 数定义为响度级的数值。
响度/sone
声压级/ dB 响度级/ phon
1 40
40
2 50
50
4 60
60
8 70
70
4.1.3音频感知编码原理 字组失真 字组编码的原则是,无论字组边界相 邻的采样在时间轴上是否连续,都应按 属于不同字组而进行不同精度的量化, 因此人们会容易感觉到字组边界附近量 化噪声的不连续性,这就是加窗变换造 成的边界效应。为了消除这种边界效应, 往往采用具有部分重叠的变换窗,而这 样又会带来时间域混叠,降低了编码性 能。
时间冗余也称为时域冗余,它是针 对视频序列图像而言的。视频序列每 秒有25 ~ 30帧图像,相邻帧之间的时 间间隔很小(例如,帧频为25Hz的电视 信号,其帧间时间间隔只有0.04s);同 时实际生活中的运动物体具有运动一 致性,使得视频序列图像之间有很强 的相关性。
4.2.1数字视频压缩的必要性和可能性
4.2.1数字视频压缩的必要性和可能性
空间冗余
空间冗余也称为空域冗余,是一种 与像素间相关性直接联系的数据冗余。 如果先去除冗余数据再进行编码, 则使表示每个像素的平均比特数下降, 这就是通常所说的图像的帧内编码, 即以减少空间冗余进行数据压缩。
4.2.1数字视频压缩的必要性和可能性
时间冗余
4.1.3音频感知编码原理
1976年子带编码技术首次被美国贝尔 实验室的R. E. Crochiere等人应用于话音
编码。 掩蔽型自适应通用子带综合编码和复 用(Masking pattern adapted Universal
Subband Integrated Coding And Multiplexing, MUSICAM)编码方案,已被MPEG采纳
4.1.2人耳的听觉感知特性
掩蔽类型
•
频率域掩蔽 所谓频率域掩蔽是指掩蔽音与被掩蔽 音同时作用时发生掩蔽效应,又称同时 掩蔽。这时,掩蔽音在掩蔽效应发生期 间一直起作用,是一种较强的掩蔽效应。
4.1.2人耳的听觉感知特性
掩蔽类型
•
频率域掩蔽
4.1.2人耳的听觉感知特性
掩蔽类型
•
时间域掩蔽 在一个强音信号之前或之后的弱音信 号,也会被掩蔽掉,这种掩蔽效应称为 时间域掩蔽,也称异时掩蔽。 时间域掩蔽又分为前掩蔽和后掩蔽。
P SPL 20 lg Pref 式中,P为声压有效值;Pref为参考声压, 2Pa,这个数值是人耳所能听到 10 5 一般取 的1kHz声音的最低声压,低于这一声压, 人耳就无法觉察出声波的存在了。
4.1.2人耳的听觉感知特性 响度 人耳对声音强弱的主观感觉称为响 度。响度与声波的振幅并不完全一致。 响度不仅取决于振幅的大小,还取决 于频率的高低。 响度用符号N表示,单位是宋(sone)。 国际上规定,频率为1kHz的纯音在声 压级为40dB时的响度为1宋(sone)。
4.1.2人耳的听觉感知特性 掩蔽效应 • 噪音对纯音的掩蔽
掩蔽音为宽带噪音,被掩蔽音为纯音,则 它产生的掩蔽门限在低频段一般高于噪音功 率谱密度17dB,且较平坦;当频率超过500Hz 时,大约每十倍频程增大10dB。若掩蔽音为 窄带噪音,被掩蔽音为纯音,其中位于被掩 蔽音附近的由纯音分量组成的窄带噪音即临 界频带的掩蔽作用最明显。
4.1.2人耳的听觉感知特性 音调 音调也称音高,表示人耳对声音调子 高低的主观感受。 音调单位是“美(Mel)”。频率为 1kHz、声压级为40 dB的纯音所产生的音 调就定义为1 Mel。 音调大体上与频率的对数成正比。
4.1.2人耳的听觉感知特性 音色 按声音的频率成分组成,可分为: 纯音:振幅和周期均为常数的声音 复音:不同频率和不同振幅的声波组合 基音:复音中的最低频率称为复音的基音,Βιβλιοθήκη 4.1.2人耳的听觉感知特性
人耳的听觉掩蔽效应
在掩蔽情况下,提高被掩蔽弱音的强 度,使人耳能够听见时的听阈称为掩蔽 听阈(或称掩蔽门限),被掩蔽弱音必须提 高的分贝值称为掩蔽量(或称阈移)。
4.1.2人耳的听觉感知特性
掩蔽效应
•
纯音间的掩蔽 对处于中等强度时的纯音最有效的掩 蔽是出现在它的频率附近。低频的纯音 可以有效地掩蔽高频的纯音,而反过来 则作用很小。
作为宽带、高质量的音频压缩编码标准。
第4章 信源编码原理
4.1数字音频编码的基本原理 4.2数字视频编码概述
4.3熵编码
4.4预测编码
4.5变换编码
4.2数字视频编码概述
4.2.1数字视频压缩的必要性和可能性 4.2.2数字视频编码技术的进展
4.2.3数据压缩分类
4.2.1数字视频压缩的必要性和可能性 数据压缩的理论基础是信息论。从 信息论的角度来看,压缩就是去掉数 据中的冗余,即保留不确定的信息, 去掉确定的信息(可推知的),也就 是用一种更接近信息本质的描述来代 替原有冗余的描述。
4.1数字音频编码的基本原理
4.1.1数字音频压缩的必要性和可能性 4.1.2人耳的听觉感知特性
4.1.3音频感知编码原理
4.1.3音频感知编码原理
如何精确地计算出掩蔽阈值(即获得
“心理声学模型”) 如何从音频信号中仅仅提取可闻信息而 加以处理,将人耳不能感知的声音成分 去掉,只保留人耳能感知的声音成分, 在量化时也不一味追求最小的量化噪声, 只要量化噪声不被人耳感知即可。
是决定声音音调的基本因素,它通常是常数 泛音:复音中的其他频率称为泛音(谐音)
音色是人耳对各种频率、各种强度的 声波的综合反应。主要由声音的频谱结 构决定的。
4.1.2人耳的听觉感知特性
人耳的听觉掩蔽效应
一个较弱的声音(被掩蔽音)的听觉 感受被另一个较强的声音(掩蔽音)影 响的现象称为人耳的听觉“掩蔽效应”。 被掩蔽音单独存在时的听阈分贝值, 或者说在安静环境中能被人耳听到的纯 音的最小值称为绝对听阈。
时间冗余
对于视频压缩而言,通常采用运动 估值和运动补偿预测技术来消除时间 冗余,也称为帧间编码。
4.2.1数字视频压缩的必要性和可能性
统计冗余
统计冗余也称编码表示冗余或符号 冗余。 采用可变长编码技术,对出现概率 大的符号用短码字表示,对出现概率 小的符号用长码字表示,则可去除符 号冗余,从而节约码字,这就是熵编 码的思想。
音频信号数字化后可以避免模拟信 号容易受噪声和干扰的影响,可以扩 大音频的动态范围,可以利用计算机 进行数据处理,可以不失真地远距离 传输,可以与图像、视频等其他媒体 信息进行多路复用,以实现多媒体化 与网络化,所以,音频信号的数字化 是一种必不可少的技术手段。
4.1.1数字音频压缩的必要性和可能性
4.1.3音频感知编码原理 变换长度(即窗长度)的选择
一方面,变换长度越长,编码压缩比越高。 但对于单一字组中幅度急剧变化的信号(如 鼓声),在上升部分若采用长的分组,会使 得时间域分辨率下降,导致严重的所谓“前 反射”。消除“前反射”的办法是用短的分 组,提高时间域的分辨率,使之限制在一个 较短的时间内。 自适应谱感知熵编码(Adaptive Spectral Perceptual Entropy Coding,ASPEC)采用动态 长度的重叠窗函数。
16 80
80
32 90
90
64 128 100 110
100 110
256 120
120
4.1.2人耳的听觉感知特性 等响度曲线
4.1.2人耳的听觉感知特性 听阈与痛阈
当声音减弱到人耳刚刚可以听见时,此 时的声音强度称为最小可听阈值,简称为 “听阈”。一般以1kHz纯音为准进行测量, 人耳刚能听到的声压级为0dB(通常大于 0.3dB即有感受)。 当声音增强到使人耳感到疼痛时,这个听 觉阈值称为“痛阈”。仍以1kHz纯音为准来 进行测量,使人耳感到疼痛时的声压级约达 到140dB左右。
数字电视原理
第4章 信源编码原理
4.1数字音频编码的基本原理 4.2数字视频编码概述
4.3熵编码
4.4预测编码
4.5变换编码
4.1数字音频编码的基本原理
4.1.1数字音频压缩的必要性和可能性 4.1.2人耳的听觉感知特性