当前位置：文档之家› 第2章音频信息处理PPT课件

第2章音频信息处理PPT课件

2）音频信号的波形表示
3）音频信号的频谱表示
声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。
男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。
2.1.2 音频信号的数字化
1. 音频信号数字化
声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。
音乐：是一种规范的符号化的声音。
音效：自然界中各种声音效果，如掌声、雷鸣声，爆破声等。
不规则音频信号：不包含任何信息的声音，比如噪声。
（2）音频信号的表示
1）音频信号的数学表示
f(t) Ansinn(0tn)
ω0：声音的基音，决定了音调的高低
n0
nω0：声音的泛音，决定了声音的音色
An : 声波的振幅，表示声音的强弱
（4）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范围。
下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的疼痛阈。
2．声音的基本特征
（1）声波信号的物理特征
周期（T）：声波的两个波峰或波谷之间的相对时间。频率（f）：周期的倒数（f=1/T），即每秒波峰或波谷出现的次数。幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。
（2）量化
声音信号在幅度上ห้องสมุดไป่ตู้离散化
也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。采样精度：即量化的位数，位数越多量化等级数也越多，所能表
示的声波幅度的动态范围也越大，当然需要的存储空间也越大。
（3）编码
就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。
采样频率 8kHz 8kHz 8kHz 8kHz
采样精度 8位 8位 8位 8位
数据传输率 64kb/s 32kb/s 24kb/s 16kb/s
（3）宽带音频压缩标准
MPEG音频：第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次： 1）Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。 2）Layer 2：编码器较复杂，输出数据率为256 kb/s～192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。 3）Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN（综合业务数字网，一种数字电话网的国际标准）上的声音传输。
第2章音频信息处理
2.1 音频处理基础
本节要点
声音的基本特征音频的数字化数字音频文件格式数字音频处理技术
1. 声波
（1）声波：由各种机械振动或气流扰动引起周围的弹性媒质发生波动。（2）声源：产生声波的物体，如人的声带和乐器等。（3）声音：人的听觉系统所能感知到的声波。
音频的频率范围：20 Hz ～ 20000 Hz 语音的频率范围：300 Hz ～ 3000 Hz 次声波的频率范围： < 20 Hz 超声波的频率范围： > 20 kHz
典型的音频编码方法：脉冲编码调制法（PCM）。
（4）数字音频的数据量
数据量 = 采样频率* 采样精度* 采样时间* 声道数 / 8 单声道：一次只产生一组声波数据立体声：一次产生两组声波数据
（字节数）
例2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * （ 44100 * 16 * 2 ） / 8 = 10.09 MB
CD-DA DVD
200～3400 Hz 100～5500Hz 20～11000Hz 5～20000Hz 0～96000Hz
采样频率（kHz）
8 11.025 22.050
44.1 192
采样精度（bits）
8 8 16 16 24
声道数
单道声单道声立体声立体声 6声道
数据率（非压缩）（kB/s） 8 11.0 88.2 176.4 1200
（1）采样
声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。采样频率：每秒采样的次数。奈奎斯特理论（Nyquist theory）：采样频率不低于声音信号最高频率
的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。 f s >= 2 f max
电话话音信号的最高频率约为3.4kHz，所以采样频率取为8kHz。
一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的
MP3播放器也只能播放12首这样的歌曲。
2. 数字音频压缩标准
（1）电话质量的语音压缩标准
（2）调幅广播语音压缩标准 G.722
标准 G.711 G.721 G.723 G.728
编码方法 PCM ADPCM ADPCM
LD-CELP
分贝数听觉效果
低于20 能分辨
20～40 轻声
40～60 正常交谈声
60～70 吵闹
常见声音的分贝量级
70～90 很吵
>90 听力受损
（2）声音信号的心理学特征
人们感知到的声音特征称为心理学特征音调：由发声物体的振动频率决定，振动越快（即频率越大），音调越
高，振动越慢，音调越低。
音色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，
2）信噪比（SNR）：即有用信号与噪音信号的强度之比，单位是分贝。 3) 声音质量的主观度量：主观度量就是大多数人对声音质量的感觉。
3．音频信号的表示
（1）音频信号：通过麦克风等设备转换成的电信号。
规则音频信号：带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。
语音：语言的载体，有丰富的语言内涵，是人类交流的信息载体。
一般高次谐波越丰富，音色越明亮并具有穿透力。
响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅
越大声音越响，其次人耳距离声源越远，声音越小。
（3）声音质量的评价
声音质量与带宽有关，频率范围越宽，声音质量越高。
1）声音质量分级：按照声音信号的频率范围将声音质量分为5级。
质量
频率范围
电话 AM FM
3. 数字音频文件的格式
1．WAV文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。 2．MIDI文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的

e商务文档

第2章音频信息处理PPT课件

相关文档推荐：

e商务文档

第2章 音频信息处理PPT课件

相关文档推荐：

第2章音频信息处理PPT课件