第4卷第2期2004年6月 长沙航空职业技术学院学报CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNALVol.4No.2J un.2004收稿日期:2004-03-20作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。
数字音频技术(MP3)的压缩编码原理与制作方法张晓婷(珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作MP3的方法。
关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06Compression Coding Principle and F acture ofDigital Audio Frequency T echnique (MP 3)ZHAN G Xiao 2ting(Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。
与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。
其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。
二、MP3简介(一)数字音频MP3的格式MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。
(二)数字音频MP3压缩的优点使用数字音频MP3压缩方式的处理,能增加更多的存储空间。
由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。
更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。
MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。
三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式・15・ (stereo mode )、联合立体声(joint 2stereo )等。
常见的MP3大都是采用联合立体声模式实验表明人类听觉存在一个极限,即声音的频率范围是20Hz 到20KHz ,但人耳对整个音频频段音量的反应不是平直的。
2KHz 到5KHz 是人耳最灵敏的频段,依其特性将整个音频频段分成多个临界频带。
因为人类听觉系统是依据频率来分辨声音能量的,任何频率的细小声音因掩蔽效应会被其在临界频带内附近的频率声音所覆盖,故对其不作量化处理,从而将一大部分人类听觉系统所无法察觉的频率去掉,以达到压缩的目的。
MP3压缩编码是一个国际性全开放的编码方案,具体压缩编码方法有多种。
图1是MP3单声道编码制作过程的流程图:图1 MP3单声道编码制作过程流程图 (一)多相滤波器组PCM 信号首先经过多相滤波器组。
多相滤波器组的作用是将声音信号分成32个频宽大小相同的子频带,但这32个子频带对音频压缩的效果并不好,因此通过加入混合多相MDCT 的处理来改善信号的失真。
(二)FF T (Fast Fourier Transform )快速傅立叶转换PCM 信号的另一路经过FF T ,用快速傅立叶转换将信号从时间轴转换到频率轴,即时频映射。
在MP3中,FF T 使用1024点的运算方式(在MPEG Audio layer 1中FF T 是512点),提高了频率的分辨率,能得到原信号更准确的瞬间频谱特性。
转换到频率轴后,信号进入心理声学模型中,为其提供频率电平信息作为参考。
(三)混合多相MDCT (Modified Discrete Cosine Transform 修饰离散余弦变换)MDCT 有18个通道,将分成的32个子带信号进一步细分,产生32318=576的输出。
其输出信号同时进入心理声学模型和量化器中。
在MP3中,混合多相MDCT 采用临界频带方式,在人耳敏感的中低频带,使用较窄的临界频带,高频带则使用较宽的临界频带。
这意味着对中低频有较高频率分辨率,在高频端时则相对有较低一点的分辨率。
这样的分配,更符合人耳的灵敏度特性,可以改善对低频端压缩编码时的失真。
MDCT 的特点是即使不经量化也不会产生失真;将子带的信号进一步细分到频谱上,便于提供较好的分析和效果;在编码时,能消除多相滤波器组产生的叠频效应,增加解压后的还原效果。
(四)心理声学模型心理声学模型主要作用是用于后面的编码。
为了最大程度压缩音频信号,根据人类心理声学模型,结合FF T 提供的频率电平信息,将人类听觉系统较不敏感的或听不到的声音去掉,将较敏感的如中频的2Khz 到5Khz 的信号保留,在其音量或音色不大时,人耳都能清楚地听到,即掩蔽效应(掩蔽效应是指只对比较突出的容易引起注意的声音编码)。
同时,每个临界频带的样值与FF T 输出的同频电平同步计算,得到每个临界频带的掩蔽阈值,最后计算每・25・ 长沙航空职业技术学院学报 第4卷个子带的最大信号/掩蔽阈值率即信号掩蔽比,输入给量化器。
(五)量化(Quantization)MDCT输出的信号,经过失真控制环和非均量化率控制环,即量化器的处理,配合心理声学模型输出的信号掩蔽比、附加信息编码和外部控制,对信号进行量化。
(六)编码(Encoder)量化好的数据变成一连串的系数,由霍夫曼编码(Huffman code)做最后压缩处理。
霍夫曼编码是将比较常见的字符用特定的符号表示,压缩后得到一个记录每个符号代表的字符串的编码表以及一连串由符号组成的信息内容,使用霍夫曼编码可以节约20%的空间。
我们会发现,用WinZip、WinRAR 等压缩的MP3文件,其压缩程度有限,原因就是这些软件也是用了类似霍夫曼编码的技术。
(七)位流格式化(Bit2stream Formatting)及CRC(Cyclic Redundancy Code)循环冗余码校验经霍夫曼编码的数据先加入位流同步信息,为的是在解码时,通过搜索同步字便可获得同步,再经CRC校验,最后生成编码好的位流,即MP3。
以上是MP3的整个压缩编码制作过程的介绍,可以看出,MP3在中低频段的失真较小,在高频段的失真较大,虽与CD音质相比还是有一定的差距,这是MP3的先天缺陷,但对于绝大多数网民来说,已大大方便了音乐的欣赏。
四、MP3的制作方法与技巧制作MP3的步骤是:首先对音频源进行采集并保存为WAV文件,然后使用MP3压缩软件将WAV文件压缩成MP3文件。
所要用到的硬件有:具有自动降速的光驱、声卡;外部设备有:录音机、VCD机等。
(一)常见的音频源种类及采集方法1.录音带:标准采样频率为22KHz,8/16bit, stereo/mono。
采集WAV的方法是用录音法,用一根音频线将声卡输入口(Line In)和录音机(音响)输出口(Line Out)连接起来,使用声卡的回放功能,再利用Windows9x的录音机功能即可。
可用较好的声卡、降噪软件(Cool Edit等)等改善录音中的信噪比等。
虽然录音带收集WAV方法较简单,但是由于其做成的WAV在处理上的复杂性和技术性,加之音质部分的先天不足,建议不采用。
2.Audio CD:CD标准采样频率为44.1KHz, 16Bit,stereo(112K Bit/s或128K Bit/s)。
一般采集成WAV的方法是音轨数据直接拷贝法,用专门的CD Copy软件直接拷贝音轨即抓轨。
它的优点是采集到的WAV文件音质绝对无损,是制作成MP3的最佳选择。
它的缺点是由于任何一种CD Copy软件都不能很好的解决光驱速度问题,在抓轨时常常达不到光驱的标识速度,导致报错,有时甚者还会产生爆音。
解决方法是尽量使用Windows下的CD Copy软件,然后将光驱降速使用。
在Windows9x 下CD Copy的软件很多,如CdCopy、WinDAC、Au2 dio Grabber、AudioCatalyst等。
笔者首选能完全无失真抓取音轨的Exact AudioCopyV0.9Bate4汉化版软件,免费下载网址/ExactAu2 dioCopy.htm,并用此软件介绍如何进行CD抓轨。
3.Video CD:VCD的音频部分采样频率为44100Hz,16Bit,Stereo(192K Bit/s)。
采集成WAV 的方法也是录音法,一般采用超级解霸中的音频解霸进行录音;或是用VCD机播放,音频线的连接与录音带的采集相同。
常见的问题是声音发飘且小,听上去有水中听歌的感觉。
解决方法是降低制成MP3时选定的采样率(如128Kbit/s→112Kbit/s)以及通过软件控制音量(如AudioCatalyst的Normal2 ize)。
它的优点是自由性,只要你喜欢,可以将VCD 上任何一段声音制成MP3。
另外,在用VCD制作MP3的时候,推荐使用M TV。
(二)MP3压缩软件的选择将WAV文件压缩一般采用软件压缩的方式,除了音源的音质外,压缩软件的好坏也直接影响MP3的质量。