4 音频信息处理
以下图所示的原始模拟波形为例进行采样和量化。假设采样 频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被 划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~ 9 之间的一个数来表示,如下图所示。图中每个正方形表示一次 采样。
D/A转换器从上图得到的数值中重构原来信号时,得到下 图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线 与原波形(红色线)相比,其波形的细节部分丢失了很多。这意 味着重构后的信号波形有较大的失真。
4. RealAudio文件——.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新 型流式音频(Streaming Audio)文件格式;它包含在 RealNetworks所制定的音频、视频压缩规范RealMedia 中,主要用于在低速率的广域网上实时传输音频信 息;网络连接速率不同,客户端所获得的声音质量 也不尽相同:对于28.8kb/s的连接,可以达到广播级 的声音质量;如果拥有ISDN或更快的线路连接,则 可获得CD音质的声音。
4.1.4 声音质量的评价
目前有三种方法可以衡量声音的质量。一是用声音信号的带宽 来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数 字电话。此外,声音质量的度量还有两种基本的方法:一种是 客观质量度量,另一种是主观质量度量。评价语音质量时,有 时同时采取两种方法评估,有时以主观质量度量为主。
放技术、加工处理技术以及数字化音频信号的编码、压缩、
传输、存取、纠错等。
4.1.1 音频信号的特点
1.音频信号的分类
音频信号可分为两类:语音信号和非语音信号。 语音是语言的物质载体,是社会交际工具的符号, 它包含了丰 富的语言内涵,是人类进行信息交流所特有的形式。 非语音信号主要包括音乐和自然界存在的其他声音形式。非语
5.AIFF文件——.AIF/.AIFF
AIFF是音频交换文件格式(Audio Interchange
File Format)的英文缩写,是苹果计算机公司
开发的一种声音文件格式;被Macintosh平台
及其应用程序所支持,其他专业音频软件
包也同样支持这种格式。
存储容量 一秒钟计算存储容量 =(量化位数×采样频率×声道数×持续时间) /8 (Byte) ▲CD光盘采用了双声道16位采样,采样频率为 44.1KHz,可达专业级水平。若某首流行歌曲的长度 为3.5分钟,则该歌曲占用的存储容量为: 16×44.1×1000×2×(3.5×60)÷8 =37044000(B) 37044000÷1024÷1024= 35.33(MB)
周期 幅度限
基线
3. 声音的A/D与D/A转换
A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号 变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易 见的,声音存储质量得到了加强,数字化的声音信息使计算 机能够进行识别、处理和压缩 。
A/D转换的一个关键步骤是声音的采样和量化,得到数字音频
音信号的特点是不具有复杂的语义和语法信息,信息量低、识
别简单。
规则音频是一种连续变化的模拟信号,可用一条连续的曲线 来表示,称为声波。因声波是在时间和幅度上都连续变化的量, 我们称之为模拟量。 用声音录制软件记录的英文单词“Hello”的语音实际波形
2.模拟音频信号的两个重要参数
模拟音频信号有两个重要参数:频率和幅度。声音的频率 体现音调的高低,声波幅度的大小体现声音的强弱。 一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰 所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹 (kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。 幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音 频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。
失真在采样过程中是不可避免的,如何减少失真呢?可以直 观地看出,我们可以把上图中的波形划分成更为细小的区间,即 采用更高的采样频率。同时,增加量化精度,以得到更高的量化 等级,即可减少失真的程度。在下图(左)中,采样率和量化等 级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右) 中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个 量化等级。从图中可以看出,当用D/A转换器重构原来信号时 (图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
3.MPEG音频文件——.MP1/.MP2/.MP3
这里的音频文件格式指的是MPEG标准中的音频部分,即 MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是 一种有损压缩,根据压缩质量和编码复杂程度的不同可分 为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3 这三种声音文件; MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分 别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~ 12∶1,也就是说一分钟CD音质的音乐,未经压缩需要 10MB存储空间,而经过MP3压缩编码后只有1MB左右,同 时其音质基本保持不失真。
信号,它在时间上是不连续的离散信号。 借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换。
4. 声音的三要素
1)音调:代表了声音的高低。音调与频率有关,频率越高, 音调越高,反之亦然。 我们也许有这样的经验,当提高磁带录音机的转速时,其 旋转加快,声音信号的频率提高,其喇叭放出来声音的音调 提高了。同样,在使用音频处理软件对声音的频率进行调整 时,也可明显感到音调随之而产生的变化。各种不同的声源 具有自己特定的音调,如果改变了某种声源的音调,则声音 会发生质的转变,使人们无法辨别声源本来的面目。
集的声音数据,被Windows平台和DOS平台所支持。
与WAV格式类似,VOC文件由文件头块和音频数据块组成。 文件头包含一个标识、版本号和一个指向数据块起始地址 的指针,这个指针帮助数据块定位以便顺利找到第一个数 据块。数据块分成各种类型的子块,如声音数据、静音、 标记、ASCII码文件、重复、重复的结束及终止标记等。
1.以声音的带宽衡量声音的质量
2、声音客观质量ቤተ መጻሕፍቲ ባይዱ度量
声音客观质量的度量主要用信噪比(signal to niose ratio,SNR)来度量。它指音源产生最大不失真声音信 号强度与同时发出噪音强度之间的比率,通常以S/N表 示。一般用分贝(dB)为单位,信噪比越高表示音频 质量越好。信噪比(SNR)用下式计算:SNR= 10 log [(Vsignal)2 / (Vnoise)2]=20 log (Vsignal / Vnoise)
2)音色:即声音的特色(或特质)。声音分纯音和复音两 种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则 是具有不同频率和不同振幅的混合声音。大自然中的声音绝大 部分是复音。在复音中,最低频率的声音是“基音”,它是声 音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和 谐音是构成声音音色的重要因素 。各种声源都具有自己独特的 音色,例如各种乐器的声音、每个人的声音、各种生物的声音 等,人们就是依据音色来辨别声源种类的。 3)音强:声音的强度,也被称为声音的响度,常说的“音量” 也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。 唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的, 通过播放设备的音量控制,可改变聆听时的响度。
Wave格式支持多种压缩算法,支持多种音频位数、 但其文件尺寸较大,多用于存储简短的声音片断。
采样频率和声道,是PC机上最为流行的声音文件格式,
2.VOC文件
VOC文件是Creative公司所使用的标准音频文件格式, 多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采
采样频率与声音频率之间有一定的关系,根据奈奎斯特 (Nyquist)理论,只有采样频率高于声音信号最高频率的两 倍时,才能把数字信号表示的声音还原成为原来的声音。
fs 2f
2. 量化
采样只解决了音频波形信号在时间坐标(即横轴)上把一个波 形切成若干个等分的数字化问题,但是还需要用某种数字化的 方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响 音量的高低。我们把对声波波形幅度的数字化表示称之为“量 化”。 量化的过程是先将采样后的信号按整个声波的幅度划分成 有限个区段的集合,把落入某个区段内的样值归为一类,并赋 于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二 进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是 说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量 化等级,用以记录其幅度大小。
4.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专 业化声音录制、编辑器都是数字方式。对模拟音频数字化过程 涉及到音频的采样、量化和编码。 采样和量化的过程可由A/D转换器实现。A/D转换器以固定的 频率去采样,即每个周期测量和量化信号一次。经采样和量化 后声音信号经编码后就成为数字音频信号,可以将其以文件形 式保存在计算机的存储介质中,这样的文件一般称为数字声波 文件。
3. 编码
模拟信号量经过采样和量化以后,形成一系列的离散信 号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行 编码,形成计算机内部运行的数据。所谓编码,就是按照一定 的格式把经过采样和量化得到的离散数据记录下来,并在有用 的数据中加入一些用于纠错、同步和控制的数据。在数据回放 时,可以根据所记录的纠错数据判别读出的声音数据是否有错, 如在一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM——脉冲调制。 脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调 制方式,即把连续输入的模拟信号变换为在时域和振幅上都离 散的量,然后将其转化为代码形式传输或存储。
4.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要 有:WAV文件、VOC文件和MP3文件等。 1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形 的采样,并以不同的量化位数把这些采样点的 值轮换成二进制数,然后存入磁盘,这就产生 了波形文件。WAV文件用于保存Windows平台的 音频信息资源,被Windows平台及其应用程序所 广泛支持。