第2章音频信息的获取和处理本章要点1.数字化音频的获取与处理基本概念,模拟音频与数字音频的区别。
数字音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点。
2.音频卡的工作原理、功能和分类。
3.音频编码的原理、标准以及编码解码的基本方法。
4.音乐合成和MIDI的接口规范,以及MIDI在多媒体技术中的应用成原理及其分类。
第2章音频信息的获取和处理2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音频合成和MIDI规范2.1 数字音频基础1、数字化音频的获取与处理基本概念2、模拟音频与数字音频的区别3、数字音频采样和量化的基本原理4、数字音频的文件格式5、音频信号的特点。
常见到的音频信号•电话音频,调幅,调频无线电广播,高保真立体声音频,通常用带宽来衡量其音质数字激光唱盘(CD)FMAM电话10 20 50 200 3400 7K 15K 20K音频信号的属性音频信号有三种属性——音调、音色、音幅(音强)–响度:人耳对声音强度与频率的主观感觉,与声强(音量)不同,声强是一个客观物理量,表示声波在单位时间内通过单位面积的声能量。
–音调(在音乐上音调叫音高)人耳对声音调子高低的主观感觉取决于声音频率,频率越高,音调也越高,音调与频率成对数关系,频率增加一倍,增加一个倍频程,音乐上叫提高了八度–音色由声音的波形或它的频谱结构决定,它是个复杂感觉,无法定量表示信号的获取•获取法:利用声音获取硬件得到声源发生的声音•合成法:通过一种专门定义的语音去驱动一台预制的语音或音乐合成器。
•多媒体计算机中三类声音:①语音②音乐③效果声(sound effects )如刮风、下雨等话筒 放大 滤波 采样 保持 A/D 接口 微机采样脉冲音频信号的处理A/D转换后进行数据压缩存储或传输硬件(DSP)软件音频信号的回放微机接口D/A 滤波压放功放音箱作用:D A过程中会引入量化噪声2.1 数字音频基础1、数字化音频的获取与处理基本概念2、模拟音频与数字音频的区别3、数字音频采样和量化的基本原理4、数字音频的文件格式5、音频信号的特点。
模拟音频•声音——机械振动在弹性介质中传播的机械波。
振动越强,声音越大。
•模拟音频——将机械波转换成电信号记录在介质中。
播放时再将电信号还原。
以模拟电压的形式表示声音的强弱。
幅度越大,声音越强。
数字音频•数字音频——声音信号以一系列数字的形式表示。
在数字音频中,数字声音是一个数据序列。
它是由模拟声音经采样、量化和编码后得到的,各种数字以不同的命令体现。
音频数字化把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。
它涉及到音频的抽样、量化和编码。
在数字音频中,用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。
即把某一幅度范围内的电压用一个数字表示,这称之为量化。
当把模拟声音变成数字声音时,每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为抽样。
该时间间隔称为抽样周期(其倒数称为采样频率)。
音频数字化2.1 数字音频基础1、数字化音频的获取与处理基本概念2、模拟音频与数字音频的区别3、数字音频采样和量化的基本原理4、数字音频的文件格式5、音频信号的特点。
采样采样——将连续的声波信号x(t)按一定的时间间隔(T)取值,得到离散的信号序列x(nT)T——采样周期1/T——采样频率x(nT)——离散信号序列采样定理采样定理——当连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:当|f|≧fc时,T≤1/2fc 或fc≤1/2T则可以由离散信号x(nT)完全确定连续信号x(t)。
当采样频率等于f=1/2T时,称f N为奈魁斯特频率。
Nfc——信号的高端截止频率。
采样频率常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
采样与混叠若采样频率小于f N ,离散信号x nT)不能唯一地确定x (t )。
这时离散信号频谱是连续信号频谱折叠而成,即X (f )是一个周期函数,周期位2fc ,X T (f )仍是一个周期函数,只是由X (f )分段叠加而成。
其直观结果是频谱发生混叠,声音听起来发闷。
∑∑+∞-∞=+∞-∞=+=+=m c m T m f f X T m f X f X )2()()(采样与混叠思考题:设音频信号的高频截至频率为7KHz,抽样频率为6KHz,问:0.5KHz信号中混有哪些频率的信号?01234567KHz采样与混叠思考题:设音频信号的高频截至频率为7KHz,抽样频率为6KHz,问:0.5KHz信号中混有哪些频率的信号?01234567KHz抽样与混叠思考题:设音频信号的高频截至频率为7KHz,抽样频率为6KHz,问:0.5KHz信号中混有哪些频率的信号?01234567KHz量化为了把抽样序列x(nT)存入计算机,必须将采样值量化一个有限个幅度值的集合x(nT),即将取值连续地采样变成取值离散的采样称为量化:–用二进制数字表示量化后的样值。
–用B位二进制可以表示2B个不同的量化电平。
–存储数字音频信号的比特率为:I=B.fs(b/s)其中:fs是抽样率(抽样/秒)B是每个样值的比特数(比特/抽样)量化过程量化抽样的过程:先将整个幅度划分成为有限个小幅度 (量化阶距) 的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。
如果量化值是均匀分布的,我们称之为均匀量化。
设△为量化阶距,量化器的最大范围是X max ,则:∆=22X B max 对于小于∆+)21(i ,而大于∆-)21(i 的样值, 均规定为相同的量化值 ∆i 。
抽样值)(ˆnT x与未量化样值)(nT x 的关系是: )()()(ˆn e nT x nT x+= )(n e 是量化误差(量化噪声),-≤≤∆∆22e n ()量化噪声的特点量化噪声的特点:语音信号是一个复杂信号,若量化阶距足够小,那么量化噪声与输入信号不相关,即0)]()([=+m n e n x E m 为任意值量化噪声是平稳白噪声过程,其均值为0,且量化噪声之间不相关,即2)]()([e m n e n e E σ=+ 0=m eσ是量误差)(n e 的均方差 =0 其它对于阶距为△的均匀量化器,量化噪声的幅度分布是均匀的,量化误差与阶距的关系是:p e e ()=1∆-≤≤∆∆22e n () =0 其它量化性能评价定义信号与量化噪声功率比为信噪比:)]([)]([2222n E n x E SNR e e x ==σσ 假设量化器量化范围是m ax 2X (m ax X 为峰值)。
量化器位数是B ,则均为量化器的阶距△为:B X 22m ax =∆ 按上述噪声具有均匀幅度分布的假设,则:e B xe B xX SNR X σσσσ22222222123232==⋅==⋅∆max max ()()量化性能评价信噪比用分贝表示:]log[20677.4]log[10)(m ax 22σσσxe xX B dB SNR -+==假设输入信号均方差x σ的四倍刚好是m ax X ,即 x X σ4m ax =,则上式变为: 2776)(⋅-=B dB SNR 我们常用此公式近似计算量化器的信噪比,如: B=6 SNR(dB)=28.85B=8 SNR(dB)=40.89量化器每增加一位编码,信噪比增大6dB 。
2.1.3 数字音频的文件格式2.1 数字音频基础1、数字化音频的获取与处理基本概念2、模拟音频与数字音频的区别3、数字音频采样和量化的基本原理4、数字音频的文件格式5、音频信号的特点。
存储声音的文件格式主要有:WA V 文件、VOC 文件、MIDI 文件等1、WAV文件WAV格式的文件又称为波形文件,是用不同的采样率对声音的模拟波形进行采样得到的一系列离散的采样点.以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数得到的。
WAV是数字音频技术中最常用的格式.它还原的音质较好,但所需存储空间较大。
对采样频率的规定•单声道:11.025K,8bit;•双声道:44.1K,左右多为22.05K,每声道8bit,每个语音采样值为16bit,高8位放左声道数据,低8位放右声道数据。
文件的存储容量Wav文件的字节数/秒=采样频率×量化位数×声道数/8问:采样频率为44.1kHz,量化位数16bit,立体声,录制10秒的数据量是多少?S = 44.1×1000×10×16×2/8= 1764000(byte)=1764kB2、VOC文件VOC文件是新加坡创新公司Creative 在1989年秋COMDEX上展示的声霸卡Sound Blaster Card软件开发工具包SBK。
每个VOC文件由文件头块(header block)和音频数据块(data block)两部分组成。
文件头块主要对文件类型、版本号及标志进行说明,指出数据块的起始地址长度及采样率偏移地址内容00-13H文件类型14-15H从VOC文件开始到数据块的编移量16-17H VOC文件版本号18-19H VOC文件标志1AH VOC文件的数据块标志1B-1DH数据块长度音频数据块由性质不同的子块组合而成:语音数据子块、静音标志子块、ASCII码字符子块、循环重交子块、终止子块、用于立体声音响的扩展子块音频数据块定义数据子程序长度功能01B(字节)终止块17B+?语音数据25B+?语音数据37B静音46B标志56B+?ASCII字符66B+循环重交74B循环结束87B+?扩展块SBK提供了VOC文件的详细的格式和一些驱动程序接口,可以完成以下工作:1)在同一声音文件中使用不同采样率,以控制声音质量和磁盘存储空间;2)在同一声音文件中使用不同的压缩技术,如Silence Packing技术;3)在同一语音文件中存放单声道和立体声语音数据;4)对语音文件的一部份循环;5)嵌入一个用户宣言的倒程来控制语音输出。
3、MIDI文件MIDI(musical instrument digital interface,乐器数字接口),它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,并于1988午正式提交给MIDI制造商协会,成为数字音乐的一个国际标准。
MIDI标准规定了电子乐器与计算机连接的电缆硬件以及电子乐器之间、乐器与计算机之间传送数据的通信协议等规范。
MIDI 标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。
MIDI文件记录的是一系列指令而不是数字化后的波形数据,所以它占用存储空间比wav文件要小很多。