当前位置:文档之家› 音频基本知识

音频基本知识

音频基本知识第一部分 模拟声音-数字声音原理第二部分 音频压缩编码第三部分 和弦铃声格式第四部分 单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分 模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波,叫声波。

声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。

声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。

图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。

连续时间的离散化通过采样来实现。

声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit)应该是多少,也就是量化位数。

¾采样频率奈奎斯特理论(采样定理)指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。

采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。

我们常见的CD,采样率为44.1kHz。

电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。

常见的音频录制时的采样率和量化位数:镭射碟 声音录制格式 从数字音频接口输入输出DVD杜比数字 杜比数字位信号线性PCM 线性PCM(48kHz采样/16bit或48KHz采样/24bit等)CD 线性PCM 线性PCM(44.1kHz采样/16bit)VCD MPEG 线性PCM(44.1kHz采样/16bit)表1 常见音频录制及传输格式¾量化精度光有频率信息是不够的,我们还必须纪录声音的幅度。

量化位数越高,能表示的幅度的等级数越多。

例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。

我们常见的CD位16bit的采样精度,即音量等级个数有2的16次方。

样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。

¾压缩编码经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。

但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。

二、问题1、音频压缩技术有多重要?我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比:PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。

再除以8将bit 换算成字节byte,就可以得到这个CD的数据速率,即176.4KB/s。

这表示存储一秒钟PCM 编码的音频信号,需要176.4KB的空间。

MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。

如下表所示:音频格式 比特率 存1秒音频数据所占空间CD(线性PCM) 1411.2 Kbps 176.4KBMP3 128Kbps 16KBAAC 96Kbps 12KBmp3PRO 64Kbps 8KBWMA 64Kbps 8KB表2 相同音质下各种音乐大小对比2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。

显然,在相同的采样率下,记录低频的信息远比高频的详细。

CD的44.1KHz采样也无法保证高频信号被较好记录。

要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。

较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。

3、流特征随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。

也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。

第二部分 音频压缩编码一.有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式未压缩音频是一种没经过任何压缩的简单音频。

例如PCM或WAV音轨。

所谓无损压缩格式,顾名思义,就是毫无损失地将声音信号进行压缩的音频格式。

常见的像MP3、WMA等格式都是有损压缩格式,相比于作为源的WAV文件,它们都有相当大程度的信号丢失,这也是它们能达到10%的压缩率的根本原因。

而无损压缩格式,就好比用Zip 或RAR这样的压缩软件去压缩音频信号,得到的压缩格式还原成WAV文件,和作为源的WAV 文件是一模一样的!目前比较出名的无损压缩格式有APE、FLAC、LPAC、WavPack。

无损压缩的不足就是占用空间大,压缩比不高。

有损压缩就是在压缩过程中会舍弃一些细节,也就是压缩是不可逆的。

例如MP3,如果将wav—>MP3,再将此MP3—>wav,则后来的wav音质明显不如开始的wav。

有损压缩包括AC3, DTS, AAC, MPEG-1/2/3的音频部分。

二、语音(Voice)编码和音频(Audio)编码语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。

两者的差别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。

音频编码最常见的是MPEG的音频编码。

语音的编码技术通常分为三类:波形编码、参量编码和混合编码。

其中,波形编码和参量编码是两种基本类型。

方案类别代号码率bps 算法应用G711 64k PCM 公众网波形编码G721 32k ADPCM 公众网G728 16k LD-DELP 公众网混合编码GSM 13k RPE-LTP 蜂窝网8k CELP 蜂窝网CELP 保密网4.8k参数编码LPC10 2.4k LPC 军用表3 代表性的语言编码技术标准表波形编码的基本原理是在时间轴上对模拟语音按一定的频率抽样,然后量化,并用代码表示。

解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。

优点是语音质量好,缺点是所用的编码速率高。

脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)等,都属于波形编码技术。

参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。

这种编码技术可实现低速率语音编码,比特率可压缩到2Kbit/s-4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都不一定能听出讲话人是谁。

线性预测编码(LPC)及其它各种改进型都属于参量编码。

混合编码将波形编码和参量编码组合起来,兼有波形编码的高质量和参量编码的低速率,在4-16Kbps速率上能够得到高质量的合成语音。

多脉冲激励线性预测编码(MPLPC),规则脉冲激励长期线性预测编码(RPE-LTP),码本激励线性预测编码(CELP)等都是属于混合编码技术。

很显然,混合编码是适合于数字移动通信的语音编码技术。

三、无线通信中常见语音编码PHS为32kbps的ADPCM编码,GSM为13kbps的规则脉冲激励长期预测(RPE-LTP)编码,WCDMA 使用的是自适应多速率编码(AMR),cdma2000使用的是可变速率编码(IS-773,IS-127)。

1、AMR编码(介绍它的原因是因为手机中有使用AMR铃声)。

在3G多媒体通信的发展过程中,音视频编码有了很大的发展。

1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。

AMR声码器采用代数码本激励线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式,编码速率可以为4.75~12.20Kbps。

AMR标准针对不同的应用,分别提出了AMR-NB,AMR-WB和AMR-WB+三种不同的协议。

AMR-NB应用于窄带,而AMR-WB和AMR-WB+则应用于宽带通信中。

对于手机铃声,AMR-NB对应的铃声文件扩展名是.amr,AMR-WB对应铃声文件扩展名是.awb。

它们不是音乐,而是录音得到的原声。

2、ADPCM编码自适应差分脉冲编码调制(ADPCM)方案是将脉冲编码、增量调制与自适应技术相结合形成的一种改进型编码,其编码质量较PCM为好,32kb/s的ADPCM相当于64kb/s的PCM,且抗误码能力较强。

ADPCM也常用于录音,常用的ADPCM有8KHz采样/4bit/单声道,和16KHz采样/4bit/立体声。

雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术,其中PCM和ADPCM就是模拟音效,包括人声。

四、各种主流音频编码(或格式)的介绍1、PCM编码PCM(Pulse Code Modulation),即脉冲编码调制,指模拟音频信号只经过采样、模数转换直接形成的二进制序列,未经过任何编码和压缩处理。

PCM编码的最大的优点就是音质好,最大的缺点就是体积大。

在计算机应用中,能够达到最高保真水平的就是PCM编码,在 CD、DVD以及我们常见的WAV文件中均有应用。

2、WAVE格式(铃声)这是一种古老的音频文件格式,由微软开发。

WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。

WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,只要安装好了相应的Decode,就可以欣赏这些WAV了。

相关主题