当前位置:
文档之家› 第4章--多媒体音频处理技术
第4章--多媒体音频处理技术
4.1.2 数字音频的采样、量化和编码
3. 编码
编码是根据一定的协议或格式把模拟信息转换成二进制比特流的 过程。多媒体信息数字化的过程中,最简单的编码方式就是直接用量 化后的二进制数作为输出的数字信号,这种编码方式也就是PCM(脉 冲代码调制)编码。 多媒体信息的一个特点是存在各种冗余信息,具有很大的压缩潜 力。因为在多媒体数据中,存在着空间冗余、时间冗余、结构冗余、 知识冗余、视觉冗余、统计冗余等,它们为数据压缩技术的应用提供 了可能的条件。 因此,在多媒体系统中可以采用数据压缩技术对数字信号进行压 缩,在保证人的主观感受不变的前提下,使得存储的数据量大大下降。 采用不同的压缩技术,也即采用了不同的编码技术。
2.数字音频
模拟音频信号主要有下述几点缺点:
一、抗干扰能力差
二、噪声会累积 三、无法使用计算机进行存储,不能在网络中传输
4.1.1 数字音频基础
由于模拟音频信号存在上述难以克服的缺点,为了使 人们能够获得更好的声音质量,更加便捷的处理方式,随 着数字电子技术的发展,数字音频技术逐渐出现在音频应 用的各个领域,并成为多媒体技术及应用的核心。 音频是连续变化的模拟信号,而数字音频是一个数据 序列,在时间上是断续的。把模拟音频信号通过采样和量 化转换成用由许多“0”、“1”表示的数字信号,这个过 程就是音频的数字化。在这一处理技术中,涉及到音频的 采样、量化和编码。
4.1.2 数字音频的采样、量化和编码
4. 数字音频文件的存储量
以字节为单位,模拟波形声音被数字化后未被压缩的 音频文件的存储量为: 存储量=采样频率×量化位数/8×声道数×时间 其中,声道是指处理的声音是单声道还是立体声。单 声道在声音处理过程中只有一个数据流,而立体声则需要 左右声道两个数据流。 数字音频质量的三要素:采样频率、采样的量化位数 (8位或者16位)、采样的声道数(单声道或者立体声)
4.2 音频编码技术
4.2.1 编码基础
4.2.2 编码标准
4.2.1 编码基础
音频信号数字化之后数据量巨大,为存储和传输带来 了一定压力。因此,为了降低传输或存储的费用,就必须 对数字音频信号进行编码压缩。 音频信息在编码技术中通常分成两类来处理,分别是 语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及 混合编码; 音乐的编码技术主要有自适应变换编码(频域编码)、 心理声学模型和熵编码等技术。
4.1.1 数字音频基础
次声:<= 20Hz 超声:>= 20kHz 可听声(音频):20Hz--20kHz 电话语音:20Hz--3.4kHz 调幅广播:50Hz--7kHz 调频广播:20Hz--15kHz
宽带音频:20Hz--20kHz
声音三要素:音调(音高)、音强(响度)和音色
4.1.1 数字音频基础
4.1.3 数字音频文件格式
2. AIF或AIFF文件
AIF是音频交换文件格式(Audio Interchange File Format)的英 文缩写,是Apple公司开发的一种声音文件格式,被Macintosh平台及 其应用程序所支持。 Netscape Navigator浏览器中的LiveAudio也支持AIFF格式。 SGI平台及其他专业音频软件包也同样支持这种格式。 Windows的Convert工具可以把AIF格式的文件转换成Microsoft的 WAV格式的文件。
4.1.3 数字音频文件格式
5. PCM(脉冲代码调制)文件
PCM文件是模拟的音频信号经模数转换直接形成二进制序列的文件, 该文件没有附加的文件头和文件结束标志。 在声霸卡提供的软件中,可以利用VOC-HDR程序,为PCM格式的音 频文件加上文件头,而形成VOC格式。 Windows的Convert也具有将PCM音频文件转换成Microsoft的WAV格 式的功能。
4.1.3 数字音频文件格式
3. WMA文件
WMA就是Windows Media Audio编码后的文件格式,由微软开发。 ASF、WMA都是微软公司为了和Real Networks公司竞争而开发的网 上流式数字音频压缩技术,可以一边下载一边播放,因此WMA可以很轻 松的实现在线广播。 这种压缩技术同时兼顾了保真度和网络传输的需求, 微软声称, 在只有64kbps的码率情况下,WMA可以达到接近CD的音质。WMA支持防 复制功能,通过Windows Media Rights Manager加入保护,可以限制 播放时间和播放次数甚至于播放的机器等等。
4.1.3 数字音频文件格式
4. RA文件
RA文件是Real Networks公司开发的一种流媒体音频文件,在网络 上非常流行,在低速率的广域网上实时传输音频信息。 网络连接速率不同,客户端所获得的声音质量也不尽相同。对于 传输速率为14.4kbit/s的网络连接,可获得调幅(AM)质量的音质;对 于传输速率为28.8kbit/s的网络连接,可以达到广播级的声音质量; 如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。 和WMA一样,RA不但都支持边下载边播放,也同样支持使用特殊协 议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的 欣赏方式。
4.1.3 数字音频文件格式
8. CD-DA文件
CD-DA文件是CD光盘采用的文件格式,在大多数播放软件的“打开 文件类型”中,都可以看到该格式。 一个CD音频文件是一个.cda文件,这只是一个索引信息,并不真 正的包含声音信息,不论CD音乐的长短,在电脑上看到的“*.cda文件” 都是44字节长。 注意:不能直接复制.cda文件到硬盘上播放,需要使用抓音轨软 件把CD格式的文件转换成WAV。
4.3 音频素材的获取
4.3.1 从素材库直接获取或从网站下载
4.3.2
自行录制声音
4.3.3
从CD、VCD/DVD中截取声音
4.3.1
从素材库直接获取或从网站下载
用户可直接使 用以上光盘或者网 站上的音频素材, 也可以先找到与要 求相接近的声音, 再通过音频编辑软 件适当加以处理后 使用。
4.1.3 数字音频文件格式
WAV文件 PCM文件 MP1/MP2/MP3文件
AIF/AIFF文件
MHale Waihona Puke DI文件WMA文件 CD-DA文件 RA文件 MP4
4.1.3 数字音频文件格式
1. WAV文件
WAV文件也叫作波形文件,是Microsoft公司开发的一种声音文件 格式,存储文件扩展名为“.wav”。 WAV格式文件的数据是直接来源于对声音模拟波形的采样。用不同 的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点, 以不同的量化位数(8~64bit)把这些采样点的值转换成二进制数, 然后存入磁盘,这就产生了声音的WAV文件,WAV文件所需要的存储容 量很大,如果对声音质量要求不高的话,可以通过降低采样频率、采 用较低的量化位数或利用单声道来录制WAV文件,此时的WAV文件大小 可以大大减小。 WAV文件数据没有经过压缩,数据量大,但音质最好。大多数压缩 格式的声音都是在它的基础上经过数据的重新编码来实现的,这些压 缩格式的声音信号在压缩前和回放时都要使用WAV格式。
4.1.2 数字音频的采样、量化和编码
1. 采样
模拟音频信号实际上是连续信号,或称连续时间函数x(t)。在对 模拟音频信号进行数字化时,必须先对连续信号采样,即按一定的时 间间隔(T)取值,得到x(nT),n为整数。T称为采样周期,1/T称为采样 频率,x(nT)是离散信号。 虽然数字音频信号可以克服模拟音频的缺点,但是在播放声音的 时候,数字音频必须重新还原为模拟音频,为了保证还原的音频信号 不失真,数字化时采样频率必须满足采样定理的要求。 采样定理:在进行模拟/数字信号的转换过程中,为保证还原后的 信号不出现失真,采样频率至少是信号最高频率的2倍。 常用的音频采样率有:8kHz、11.025kHz(普通声音)、22.05kHz (盒式磁带质量)、16kHz、37.8kHz、44.1kHz(CD质量)、48kHz。
4.1.3 数字音频文件格式
6. MPl、MP2、MP3文件
MPl、MP2和MP3文件是指“MPEG运动图像专家组”所制定的音频文 件格式,根据压缩质量和编码复杂程度的不同分为3层,分别对应MPl、 MP2和MP3三种声音文件。 MPEG音频文件的压缩是一种有损压缩,MPEG音频编码具有很高的 压缩率,MPl、MP2的压缩率为4:1~8:1,而MP3的压缩率则高达12:1, 也就是说1分钟CD音质的音乐,未经压缩需要10MB存储容量,而经过 MP3压缩编码后不到1MB。 MP3的特点是体积小、有较好的声音质量,所以MP3是目前最为流 行的一种音乐文件。
4.1.3 数字音频文件格式
7. MIDI文件
MIDI是数字音乐电子合成乐器的统一国际标准,它规定计算机音 乐程序、电子合成器和其他电子设备之间交换信息与控制信号的方法。 MIDI文件中包含音符、定时和多达16个通道的乐器定义,每个音 符包括键、通道号、持续时间、音量和力度等信息,可以模拟大提琴、 小提琴和钢琴等常见乐器。当播放MIDI音乐的时候,其实就是将各种 预先设计好的声音元素按乐谱合成为一首音乐。 MIDI的数据容量很小,适合作为音乐背景音响效果,用来播放长 时间的、高质量的音乐。MIDI文件的扩展名是MID和RMI。
第4章 多媒体音频处理技术
4.1 4.2 4.3
音频技术简介 音频编码技术 音频素材的获取 4.4 音频素材的编辑
4.1 音频技术简介
4.1.1 数字音频基础
4.1.2
数字音频的采样、量化和编码
4.1.3
数字音频文件格式
4.1.1 数字音频基础
1. 声音
声音是一种由机械振动产生的波,叫声波(多普勒效 应,当声源离观测者而去时,声波的波长增加,音调变得 低沉,当声源接近观测者时,声波的波长减小,音调就变 高)。声音的强弱体现在声波振动的幅度大小上,音调的 高低体现在声波振动的频率上,人们可以使用麦克风(话 筒)把声波转换成电信号,即音频信号。 音频信号是一种频率范围为20Hz~20KHz的波形信号 ,它有两个基本的参数:频率和幅度。电压的幅度表示声 音的强弱,频率表示声音的音调,它是一种在时间和幅度 上都是连续的模拟信号。