当前位置:
文档之家› 第三章 音频处理技术PPT课件
第三章 音频处理技术PPT课件
第三章 音频处理技术
3.1 声音的数字化 3.2 几种常见的声音文件格式 3.3 使用GoldWave编辑声音
3.1.1 声音的基础知识 3.1.2 声音的采样与量化 3.1.3 音质与数据量 3.1.4 声音压缩算法简介
声音的三个重要指标:振幅 周期 频率 振幅:波的高低幅度,表示声音的强弱。 周期:两个相邻的波之间的时间长度。 频率:每秒钟振动的次数,以Hz为单位。
A
振 幅
0
周期
T
频率=
1 周期
从听觉角度看,声音具有音调、音色和响度三个要素。
音调:在物理学中,把声音的高低叫作音调。
音的频率有关,声源振动的频率越高,声音的音调就越高;声源振动的 频率越低,声音的音调就越低。通常把音调高的声音叫高音,音调低的声音叫低音。
音色:表示人耳对声音音质的感觉,又称音品,与频率有关。
量化位数 声道数 /bit
8
单声道
每分钟的数据量 /MB
0.66
16
双声道
5.29
16
双声道
10.58
常用的采样指标及等效音质
等效音质
语音
播放
FM广播 播放
CD唱盘 播放
停止
声音压缩方法分类 语音压缩编码原理 常用的声音压缩标准算法 语音压缩编码技术的发展方向
声音压缩方法分类: 波波形形编编码码 参数编码 混合编码
要求不高的场合,人的语音采用11.025kHz的采样频率、8bit、单声 道已经足够;如果是乐曲,22.05kHz的采样频率、8bit、立体声形 式已能满足一般播放场合的需要。
采用数据压缩的方法,在降低数据量的同时保证较高的音质,这也 是人们经常使用的方式。
采样频率 /kHz
11.025
22.05
44.1
通常按照人们听觉的频率范围可将声音分为次声波、超声波和音频三类:
次声波:频率低于20Hz的信号,也称为亚音频;
超声波:频率高于20kHz的信号,也称为超音频;
音频:频率范围是20Hz~20kHz的声音信号,即在次声波和超声波之间的
音
频,
是人耳能听到的声音信号,即属于多媒体音频信息范畴。
音频
次声波
人的语音频率
量化的过程如下:将采样后的信号按整个声波的幅值划分为若干个区段,把 落入某区段的样值归为一类,并赋予相同的量化值。
除了量化精度以外,数字化声音的技术指标还有采样频率和声道数。
量化精度指每个声音样本需要用多少位二进制数来表示,它反映出度量声音 波形幅度的精确程度,由于计算机按字节运算,一般的量化精度为8位或16 位,量化精度越高,数字化后的声音信号就越可能接近原始信号,但所需要 的存储空间也越大。
T1T1T2 TT32 T4 T35 T6 TT47 T8T5T9 T1T06T11
采 量样 化
原采样频率点 低采样频率点 原量化精度点 低量化精度点
T
采样频率高于信号频率时: 采样频率低于信号频率时: 采样频率等于信号频率的2倍时:
输入波形 时钟周期 采样波形
输入波形 时钟周期 采样波形
输入波形 时钟周期 采样波形
超声波
超低频
低频
20Hz
60Hz 80Hz
低频谐波 临场感
250Hz
4kHz 5kHz 6kHz
声音的频率范围
清晰度
停止
12kHz 16kHz 20kHz
要使声音文件能像文字和图形信息一样进行存储、检索、编辑等处理,需要 将声音数字化。声音数字化就是将模拟的连续声音波形在时间上和幅值上进行 离散化处理,共分为两个步骤:采样和量化。
采样就是将声音信号在时间上进行离散化处理,即每隔相等的一段时间在声 音信号波形曲线上采集一个信号样本(声音的幅度)。
量化就是把采样得到的声音信号幅度转换成相应的数字值。采样后的数值不 一定能在计算机内部进行方便的表示,所以将每一个样本值归入预先编排的 最近的量化级上,该过程称为量化。
如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。
当采样频率变 低时: 音质变差
当量化精度变 高时: 声音信号更接 近原始信号
V 11011011 1110 11100010 10110110 1011 100110 1001 10010001
00110110 0110 010011 0100 00001110 00000110 0001 0000
采样频率:指单位时间内采样的次数。采样频率越高,在一定的时间间隔 内采集的样本数越多,音质就越好。当然,采集的样本数量越多,数字化声 音的数据量也越大。如果为了减少数据量而过分降低采样频率,音频信号增 加了失真,音质就会变得很差。采样频率的选择应该遵循奈奎斯特采样理论: f采≥2fmax 。采样频率的三个标准频率分别为44.1kHz,22.05kHz和 11.025kHz。
编码前根据采样定理对模拟语音信号进行采样,然后进行幅度量化与二
声道数:声音通道的个数,指一次采样的声音波形个数。除单声道和立体 声外,目前经常使用的声道数还有4声道、4.1声道和5.1声道。
数字化声音的数据量= 采样频率×量化精度×8声道数×声音持续时间
以CD格式为例:
假设它的采样频率为44.1kHz,量化位数为16bit,CD格式的音乐 通常都是立体声(两个声道),那么CD格式的声音20秒钟的数据量 为
(44.1kHz*16bit*2*20s)/8=3.52MBps
若改变它的采样频率为22.05kHz,则 (22.05kHz*16bit*2*20s)/8=1.76MBps
若再改变它的量化位数为4bit,则
(22.05kHz*4bit*2*20s)/8=0.44MBps
停止
为了节省存储空间,在存储和传输时通常采用两种方式进行声音处理: 在保证基本音质的前提下,采用稍低一些的采样频率。一般而言,在
[注] 一定频率的纯音不存在音色问题,音色是复音主观属性的反映。声音的音色主要 由其谐音的多寡、各谐音的特性所决定。各种乐器奏同样的曲子,即使响度和音调相 同,听起来还是不一样,就是由于它们的音色不同。
响度:即声音的响亮程度,也就是我们通常说的声音的强弱或大、小,重、轻。
播放
[注] 响度与振幅有关,取决于声波信号的强弱程度。由于人的听觉响应与声音信号强 度不是成线性关系,因此一般用声音信号幅度取对数后再乘20所得值来描述响度,以 分贝(dB)为单位,此时称为音量。