音频编解码原理介绍一.为什么要进行音频编解码二.音频编解码原理三.几种基本音频编解码介绍一、为什么要进行音频编解码随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV)和数字电影中不仅应有高质量的图像,也应当具有CD质量的立体声。
因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。
但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。
所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。
二、音频编解码原理每张CD光盘重放双声道立体声信号可达74分钟。
VCD视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中。
一、伴音压缩编码原理伴音信号的结构较图像信号简单一些。
伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。
人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。
在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。
1、阈值和掩蔽效应(1) 阈值特性人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz以下)和超高频段(例如16KHZ以上)的听觉灵敏度较低,而在1K-5KHZ的中音频段时,听觉灵敏度明显提高。
通常,将这种现象称为人耳的阈值特性。
若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。
将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。
在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。
应当保留强大的信号,忽略舍弃弱小的信号。
经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。
在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。
可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。
(2)掩蔽效应掩蔽效应是人耳的另一个重要生理特征。
如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。
由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。
根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。
既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。
舍弃掉这些信号,可以进一步压缩伴音数据总量。
经仔细观察,掩蔽效应分为两大类,一类是同时掩蔽效应,另一类是短时掩蔽效应。
其中,同时掩蔽效应是指同时存在一个弱信号和一个强信号,两者频率接近,强信号将提高弱信号的听阈值,将弱信号的听阈值提高到一定程度时,可使人耳听不到弱信号。
例如,同时出现A、B两声,若A声的听觉阈值为50dB,由于存在另一个不同频率的B声,将使A 声的阈值提高到64~68dB,例如取68dB,那么数值(68~50)dB=18dB,该值称为掩蔽量。
将强大的B声称为掩蔽声,而较弱的A声称为被掩蔽声。
上述掩蔽现象说明,若仅有A声时,其声压级50dB以上的声音可以传送出去,而50dB以下的声音将听不到;若同时出现B声,B声具有同时掩蔽效应,使得A声在声压级68dB以下的声音也听不到了,即50~68dB之间的A声人耳也听不到了,这些声音不必传送,即使传送也听不到,只须传送声压级68dB以上的声音。
总之,为了提高一个声音的阈值,可以同时设置另一个声音,使用这种办法可以压缩掉一部分声音数据。
在周围十分安静的环境下,人耳可以听到声压级很低的各种频率声音,但对低频声和高频声的掩蔽阈值较高,即听觉不灵敏。
经研究还发现,掩蔽声越强,掩蔽作用越强;当掩蔽声与被掩蔽声的频率相差越小,掩蔽效果越明显,两者频率相等时,掩蔽效果最佳;低频声(设为B)可有效地掩蔽高频声(设为A),而高频声(设为B)几乎不能掩蔽低频声(设为A)。
因而输入信号时,在受掩蔽的频带内加入更大的噪声时,人耳也感觉不到与原始信号有所区别。
上述的同时掩蔽效应,又称为频域掩蔽效应,它主要反映在频域方面对掩蔽作用的影响。
在声音压缩编码中,更多地使用单频声音的掩蔽效应。
如果A声和B声不同时出现,也可发生掩蔽作用,称它为短时掩蔽效应。
短时掩蔽又可分为两种类型,作用仍可持续一段时间,即后向掩蔽和前向掩蔽。
后向掩蔽是指掩蔽声B 消失后,其掩蔽作用仍可持续一段时间,一般可达0.5~2秒。
掩蔽机理是人耳的存储效应所致。
而前向掩蔽是指被掩蔽声A出现一段时间后出现掩蔽声B,只要A、B声音隔不太大(一般在0.05~0.2秒以内),B也可对A起掩蔽作用。
掩蔽机理是A声尚未被人耳感知接受时,强大的B声已来临所致。
在实践中,后向掩蔽有较高的应用价值。
短时掩蔽效应具有很强的时域结构特性,故又称为时域掩蔽效应。
在声音压缩编码中,应兼顾好人耳的频域和时域两种掩蔽效应。
三、几种基本音频编解码介绍1、MPEG-1音频编码编码流程:下图是基于MUSICAM(掩蔽模式通用子带编码和多路复用)的MPEG-1音频压缩编码方框图。
输入信号是经过取样的二进制PCM数字音频信号,取样频率可以取44.1KHz、48KHz或32KHz,该音频数码信号的码值与原来采样信号的幅度、频率成正比。
数字音频信号首先进入数字滤波器组,它被分成等带宽的32个子频带,可由数字滤波器输出32个子带数据信号。
这种处理方法与图像编码信号进行DCT变换的作用相似,但不是像图像信号那样分为64种余弦频率信息,这里仅分成32个子带,即将音频数据流改为32种频率的组合。
声音的分解力低于图像,这种处理方法是可行的。
然后,对32个子带的伴音数据进行再量化,以便再压缩数据量。
对于各个子频带的量化步长不相同,量化步长是根据人耳的听觉阈值和掩蔽效应而确定的。
经过量化处理的已压缩数据,保留了伴音信息的主体部分,而舍弃了听觉效果影响较小的伴音信息。
进入编码系统的输入信号,分流部分信号送到并列的1024点快速傅利叶变换器(FFT)进行变换,它检测输入信号每一个瞬间取样点在主频谱分量频域的分布的强度,经变换的信号送到心理声学模型控制单元。
根据听觉心理声学测量统计结果,可以归纳出一个心理声学控制对照表格,并按照此表格制成控制单元,而单元电路可以集中地反映出人耳的阈值特性和掩蔽特性。
经过量化的32个子频带数据已经被压缩,还要加上比例因子、位分配信息等辅助信息,共同加到1位流格式化单元,编码成为两个层次的伴音编码信号。
它既含有32个子频带的伴音数码,又带有这些数码所对应的位分配数据和不同频带数据的强弱比例因子。
待将来数据解码时,可根据各子频带的数据恢复声音信号,以及压缩时码位分配和强弱比例情况,在进行反量化时,参照压缩时的程序进行还原。
可见,伴音的压缩编码和图像处理一样,也要经过变换、量化、码位压缩等处理过程,它运用了许多数学模型和心理听觉测量的统计数据,对32个子频带和各个层次信号的处理也各有不相同的取样速率。
实际的心理听觉模型和适时处理控制过程十分复杂。
这些算法细节都已按硬件方式被固化在解码芯片中,这些内容不能再改变。
3、伴音与图像的同步图像和声音信号的压缩方法有许多不同,图像数据量又远远大于声音数据量,两者传送的数据码率大不相同。
每传送14~15个视频数据包才传送1个音频数据包,而播放声音和图像的内容又必须作到良好同步,否则将无法保证视听统一的效果。
为了作到声图同步,MPEG-1采用了独立的系统时钟(简称为STC)作为编码的参照基准,并将图像和声音的数据分为许多播放单元。
例如,将图像分为若干帧,将声音分为若干段落。
在数据编码时,在每个播放单元前面加置一个展示时标(PTS),或者加置一个解码时标(DTS)。
当这些时标出现时,表示前一个播放单元已经结束,一个新的图像和声音播放单元立即开始。
在播放相互对应的同一图像单元和声音单元时,可实现互相同步。
为了使整个系统在时钟在编码和重放时,声图有共同的时钟基准,又引入系统参考时钟SCR的概念。
系统参考时钟是一个实时时钟,其数值代表声图的实际播放时间,用它作为参照基准,以保证声图信号的传输时间保持一致。
实时时钟SCR必须与生活中的真实时间一致,要求它的准确度很高,否则可能发生声音和图像都播快或播慢的现象。
为了使SCR时间基准稳定、准确,MPEG-1采用了系统时钟频率SCF,以它作为定时信息的参照基础。
SCF 系统时钟的频率是90KHz,频率误差为90KHz±4.5KHz。
声图信号以SCF为统一的基准,其它定时信号SCR、PTS、DTS也是以它为基础。
2、MPEG-2音频编码MPEG-1是处理双声道立体声信号,而MPEG-2是处理5声道(或7声道)环绕立体声信号,它的重放效果更加逼真。
图2.3.3是MPEG-2音频编码方框图。
它输入互相独立的5声道音频信号,有前置左、右主声道(L、R),前置中央声道(C),还有后置左、右环绕声道(LS、RS)。
各声源经过模-数转化后,首先进入子带滤波器,每一声道都要分割为32个子频带,各子带的带宽均为750Hz。
为了兼容MPEG-1、普通双声道立体声和环绕模拟立体声等编码方式,原来按MPEG-1编码的立体声道能够扩展为多声道,应当包括所有5声道的信息,为此设置了矩阵变换电路。
该电路可生成兼容的传统立体声信号LO、RO,还有经过“加重”的左、中、右、左环绕、右环绕声音信号(共5路)。
对5路环绕立体声信号进行“加重”处理的原因:当计算兼容的立体声信号(LO、RO)时,为了防止过载,已在编码前对所有信号进行了衰减,经加重处理可以去失真;另外,矩阵转变中也包含了衰减因子和类似相移的处理。
编码器原始信号是5路,输入通道是5个,经过矩阵转化处理后产生了7种声音信号。
应当设置通道选择电路,它能够根据需要,对7路信号进行合理的选择处理。
该处理过程决定于解矩阵的过程,以及传输通道的分配信息;合理的通道选择,有利于减弱人为噪声加工而引起的噪声干扰。
此外,还设置了多声道预测计算电路,用于减少各通道间冗余度。
在进行多声道预测时,在传输通道内的兼容信号LO、RO,可由MPEG-1数据计算出来。
根据人耳生理声学基础,后级设置了动态串话电路,可在给定比特的情况下提高声音质量,或在要求声音质量的前提下降低比特率。
但设置该电路增加了MPEG-2解码器的复杂程度。