音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。
它必须具有相应的逆变换,称为解压缩或解码。
音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
、音频压缩算法的主要分类及典型代表一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。
各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。
各种压缩技术的应用场合也因之而各不相同。
(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。
此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。
此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。
时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、G.722、Apt-X等。
(2)子带压缩技术是以子带编码理论为基础的一种编码方法。
子带编码理论最早是由Crochiere等于1976年提出的。
其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。
通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。
这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。
一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。
由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。
然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。
因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。
在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。
子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。
典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC 中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。
(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。
通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。
根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。
变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。
然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。
有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。
为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。
一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2 Kb ps。
我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。
将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。
这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。
降低指标是不可取的,因此专家们研发了各种压缩方案。
由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。
有一点是可以肯定的,他们都压缩过。
音频压缩标准音频信号是多媒体信息的重要组成部分.音频信号可分为电话质量的语言、调幅广播质量的音频信号和高保真立体声信号(如调频广播信号、激光唱片音盘信号等)数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及cd音质的宽带音频压缩3种。
在语音编码技术领域,各个厂家都在大力开发与推广自己的编码技术,使得在语音编码领域编码技术产品种类繁多,兼容性差,各厂家的技术也难于尽快得到推广。
所以,需要综合现有的编码技术,制定出全球统一的语言编码标准。
自20世纪70年代起,ccett下第十五究组和国际标准化组织(iso)已先后推出了一系列的语音编码技术标准。
其中,ccitt推出了g系列标准,而iso则推出了h系列标准。
1电话(200hz-3.4khz)语音压缩标准主要有itu的g.722(64kb/s)、g721(32kb/s)、g.728(16kb/s)和g.729(8kb/s)等建议,用于数字电话通信。
2调幅广播(50hz-7khz)语音压缩标准主要采用itu的g.722(64kb/s)建议,用于优质语音、音乐、音频会议和视频会议等。
3调频广播(20hz-15khz)及cd音质(20hz-20khz)的宽带音频压缩标准主要采用mpeg-1或mpeg-2双杜比ac-3等建议,用于cd、md、mpc、vcd、dvd、hdtv和电影配音等。
PCM编码的最大的优点就是音质好,最大的缺点就是体积大。
常见的音频压缩编码格式~~CD格式当今世界上音质最好的音频格式是什么?当然是CD了。
在大多数播放软件的“打开文件类型”中,都可以看到.cda格式,这就是CD音轨了。
标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此他的声音是非常接近原声的。
CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。
一个CD 音频文件是一个.cda文件,这只是一个索引信息,并不是真正的包含的声音信息,所以不论CD音乐的长短,在电脑上看到的.cda文件都是44字节长。
WAV格式WAV是微软公司开发的一种声音文件格式,他符合PIFF Resource Interchange File Format文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所支持。
.WAV格式支持MSADPCM,CCITT ALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数。
WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都认识WAV格式。
还有就是由苹果公司开发的AIFF(Audio Interchange File Format)格式和为UNIX系统开发的AU格式,他们都和WAV非常相像,在大多数的音频编辑软件中也都支持他们这几种常见的音乐格式。
MP3MP3格式诞生于80年代的德国,所谓的MP3指的是MPEG标准中的音频部分,也就是MPEG音频层。
根据压缩质量和编码处理的不同分为三层,分别对应.mp1 .mp2 .mp3这三种声音文件。
相同长度的音乐文件,用mp3格式来存储,一般只有wav格式的十分之一,而音质要次于CD格式或者WAV格式的声音文件。
但是MP3音乐的版权问题一直是找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以320Kbps的标准达到更高的音质。
用装有Fraunhofer IIS Mpeg Lyaer3的MP3编码器(现在效果最好的编码器)Nysuc Natcg Jukebox6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82M的MP3文件。
采用缺省的CBR(固定采样频率)技术可以以固定的inlv采样一首歌曲,而VBR (可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上不能播放。
MIDIMIDI(Musical Instrument Digital Interface)文件格式格式由MIDI继承而来,他允许数字合成器和其他设备交换数据。
MID文件并不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。
这样一个MID 文件每存一分钟的音乐只用大约5到10KBMID文件主要用于原乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。
.mid文件重放的效果完全以来声卡的档次。
.mid格式的最大用处是在电脑作曲领域。
.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外界音序器演奏的乐曲输入电脑里,制成.mid文件。
WMAWMA(Windows Media Audio)音质要强于MP3格式,更远胜于RA格式,他和**本YAMAHA公司开发的VQF格式一样,是以减少数据量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右。
WMA的另一个优点是内容提供商可以通过DRM(Digital Rights Management)方案如WindowsMedias Rights Manager7假如防拷贝保护。
这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等。
这对被盗版搅得焦头烂额的音乐公司来说可是一个福音,另外WMA还支持音频流(Stream)技术,设和网络上的在线播放。
WMA这种格式在录制是可以对音质进行调节。