第2章 数字音频处理
缩, 必须经过解压缩,数据量小
音频的分类
频带关系
男 声 源 种 类 女 电
性 性 话
语 语 语
音 音 音
100Hz ~ 9,000Hz 150Hz ~ 10,000Hz 200Hz ~ 3,400Hz 50Hz ~ 7,000Hz 20Hz ~ 15,000Hz 10Hz ~ 40,000Hz 频 带 宽 度
模拟
数字
声音采样
模拟量) 把声音(模拟量 按照固定时间间隔,转换成有限个数字表示的离散序列 模拟量 按照固定时间间隔,
声音采样
11011100 11001101
每隔一定时间间隔不停地间断性地在模拟音频的波形上 采取一个幅度值,这一过程我们称之为采样; 采取一个幅度值,这一过程我们称之为采样; 为了把采样得到的离散序列信号存入计算机, 为了把采样得到的离散序列信号存入计算机,必须将其 转换为二进制数字表示, 转换为二进制数字表示,我们称这一过程为量化编码 。
频率(对数) 频率(对数) 48.3
与声音相关的基本概念
谐波与音色: 称为基波ω 谐波与音色:n×ωo称为基波 o的n次谐波分量 次谐波分量 就是基波ω (n就是高次谐波的方次,n× ωo就是基波 o的n次 就是高次谐波的方次, 就是高次谐波的方次 次 谐波),也称为泛音。声音的泛音适中, 谐波 ,也称为泛音。声音的泛音适中,谐波较丰 富,听起来音色就优美动听 幅度与音强: 幅度与音强:信号的幅度是从信号的基线到当前波 峰的距离。幅度决定了信号音量的强弱程度。 峰的距离。幅度决定了信号音量的强弱程度。幅度越 声音越强。一般用动态范围定义相对强度: 大,声音越强。一般用动态范围定义相对强度:
3.1.1 声音的基本特征
幅
振
基线 周期
声音是振动波,具有振幅、周期和频率。 声音是振动波,具有振幅、周期和频率。 声波的频率(Frequency) ) 描述每秒钟振动的次数, 描述每秒钟振动的次数, 反映出声音的音调: 反映出声音的音调 声音尖细表示频率高 声音低粗表示频率低。 声音低粗表示频率低。
MIDI合成。利用连接电脑的MIDI(乐器数字化接口 ,弹 合成。利用连接电脑的 乐器数字化接口), 合成 乐器数字化接口 奏出曲子,或合成音效录入计算机,再用声音软件编辑。 奏出曲子,或合成音效录入计算机,再用声音软件编辑。 来源于声音素材库。将录音带或 唱盘等声音素材库中的 来源于声音素材库。将录音带或CD唱盘等声音素材库中的 曲子,用放音设备通过转接线转录到计算机, 曲子,用放音设备通过转接线转录到计算机,再用声音软件 加以编辑,存成多媒体著作软件可以读取的文件格式。 加以编辑,存成多媒体著作软件可以读取的文件格式。
音频的分类
按格式分类
● MIDI (Musical Instrument Digital Interface)乐器接口文件 乐器接口文件
.mid
用于合成、游戏,记录音符时值、频率、音色特征, 用于合成、游戏,记录音符时值、频率、音色特征,数据量小
● WAVE (Waveform Audio)波形音频文件 波形音频文件
采样时间间隔称为采样周期t,其倒数为采样频 采样时间间隔称为采样周期 其倒数为采样频 一般来讲, 率fs=1/t。一般来讲,采样频率越高,则在单位时 一般来讲 采样频率越高, 间内计算机得到的声音样本数据就越多, 间内计算机得到的声音样本数据就越多,对声音 波形的表示也越精确,声音失真越小, 波形的表示也越精确,声音失真越小,但用于存 储音频的数据量越大。 储音频的数据量越大。 根据奈奎斯特定理, 根据奈奎斯特定理,只有采样频率高于声音信 号最高频率的两倍时,才能把数字信号表示的声 号最高频率的两倍时 两倍 音还原为原来的声音。 音还原为原来的声音。
第2章 数字音频处理 章
本章重点: 本章重点: 模拟音频与数字音频的概念 数字音频的获取 音频信号压缩编码 音乐合成和语音识别
2.1概述 2.1概述
声音是携带信息的重要媒体。研究表明, 声音是携带信息的重要媒体。研究表明,人类从 外部世界获取的信息中,10%是通过听觉获得的 是通过听觉获得的, 外部世界获取的信息中,10%是通过听觉获得的, 因此声音是多媒体技术研究中的一个重要内容。 因此声音是多媒体技术研究中的一个重要内容。 声音是由物体振动产生的, 声音是由物体振动产生的,这种振动引起周围空 气压强的振荡,从而使耳朵产生听觉的印象。 气压强的振荡,从而使耳朵产生听觉的印象。 声音的种类繁多,人的语音是最重要的声音。 声音的种类繁多,人的语音是最重要的声音。此 还有动物、乐器等发出的声音,风声、雨声、 外,还有动物、乐器等发出的声音,风声、雨声、 雷声等自然声音,以及机器合成产生的声音等。 雷声等自然声音,以及机器合成产生的声音等。
动态范围= 信号的最大强度/信号的最小强度 动态范围=20×log(信号的最大强度 信号的最小强度 (dB) 信号的最大强度 信号的最小强度)
与声音相关的基本概念
音宽与频带:频带宽度,也称为带宽, 音宽与频带:频带宽度,也称为带宽,它是描 述组成复合信号的频率范围。 述组成复合信号的频率范围。 客观上,通常用频带宽度、动态范围、 客观上,通常用频带宽度、动态范围、信噪比 等指标衡量音频信号的质量。 等指标衡量音频信号的质量。音频信号的频带越 所包含的音频信号分量越丰富,音质越好。 宽,所包含的音频信号分量越丰富,音质越好。 动态范围越大,信号强度的相对变化范围越大, 动态范围越大,信号强度的相对变化范围越大, 音响效果越好。 音响效果越好。
.wav
多媒体系统、音乐光盘制作,记录物理波形, 多媒体系统、音乐光盘制作,记录物理波形,数据量大
● CDA (CD Audio)激光音频文件 激光音频文件
.cda
准确记录声波,数据量大,经过采样,生成 准确记录声波,数据量大,经过采样,生成wav和mp3音频文件 和 音频文件
● mp3
(MPEG音频压缩标准 压缩音频文件 音频压缩标准)压缩 音频压缩标准 压缩音频文件
声音的三要素
声音波形的基频所产生的听的最清楚的音称为基音, 声音波形的基频所产生的听的最清楚的音称为基音, 各次谐波的微小振动产生的声音称为泛音 。
所谓纯音或单音,是指单一频率、或振幅和频率不变的 所谓纯音或单音,是指单一频率、 声音信号,单音一般只能由专用电子设备产生; 声音信号,单音一般只能由专用电子设备产生; 在日常生活中, 在日常生活中,我们听到的自然界的声音一般都属于 复音,其声音信号由不同的振幅与频率合成而得到。 复音,其声音信号由不同的振幅与频率合成而得到。 音质与频率范围成正比, 音质与频率范围成正比,频率范围越宽音质越好
与声音相关的基本概念
基频与音调: 基频与音调:一个声源每秒钟可产生成百上 千个波, 千个波,通常把每秒钟波峰所产生的数目称之为 信号的频率,单位用赫兹(Hz)或千赫兹 或千赫兹(kHz)表 信号的频率,单位用赫兹 或千赫兹 表 示。 人对声音频率的感觉表现为音调的高低, 人对声音频率的感觉表现为音调的高低,在 音乐中称为音高。音调正是由频率ω所决定的 所决定的。 音乐中称为音高。音调正是由频率 所决定的。
穿透障碍
次声波长最小也大于17米 可以走曲线, 次声波长最小也大于 米,可以走曲线,绕过高山 ; 超声波长最大也不过17毫米 波长很短,可以走直线; 超声波长最大也不过 毫米 ;波长很短,可以走直线;
声音的基本特征
次声可以引起人体内脏器官的共振,造成眩晕, 次声可以引起人体内脏器官的共振,造成眩晕, 甚至内脏出血, 甚至内脏出血,使人丧命 ; 超声可以为病人透视、按摩、治疗疾病,使人健康 ;还 超声可以为病人透视、按摩、治疗疾病, 可以清洗、除尘,乳化、粉碎,割焊、钻孔、消毒、 可以清洗、除尘,乳化、粉碎,割焊、钻孔、消毒、杀 菌,促进化学反应,影响生物生存 。 促进化学反应,
声音的基本特征
次声波
<20Hz
可听声
20~20000Hz
超声波
>20000Hz
次声主要来自大自然,如地震、火山、台风、海啸、 次声主要来自大自然,如地震、火山、台风、海啸、 大气湍流等自然现象 ; 超声既可以来自大自然的风声、水浪, 超声既可以来自大自然的风声、水浪,又可以来自 一些动物的发声器官,还可以来自各种人造超声源; 一些动物的发声器官,还可以来自各种人造超声源;
2.1概述 2.1概述
空气压强 空气压强 空气压强 + 0 - 一个周期 图2.1 空气压强振荡的波形示意图 幅 值 t
人耳能识别的声音频率范围大约在20~20kHz, 人耳能识别的声音频率范围大约在20~20kHz, 20 通常称为音频(audio)信号。 通常称为音频(audio)信号。
音频信号所携带的信息大体上可分为语音、 音频信号所携带的信息大体上可分为语音、音 乐和音效三类。 乐和音效三类。 语音, 语音,指具有语言内涵和人类约定俗成的特殊 媒体 。 音乐, 音乐,指规范的符号化了的声音 。 音效,指人类熟悉的其他声音。 音效,指人类熟悉的其他声音。 在多媒体系统中, 在多媒体系统中,处理的信号主要是音频信 号。
调 幅 广 播 ( AM) 调频广播(FM) 高 级 音 响
数字音频的获取
模拟音 频信号
采样
量化
编码
按不同应用目 标进行压缩
图 2.4 音频信息处理框图
音频信息处理结构框图
1、采样
图2.5 模拟信号的采样
所谓采样就是在某些特定的时刻对模拟信号 进行取值,如上图所示。 进行取值,如上图所示。采样的过程是每隔一个 时间间隔在模拟声音的波形上取一个幅值,把时 时间间隔在模拟声音的波形上取一个幅值, 间上的连续信号变成时间上的离散信号。 间上的连续信号变成时间上的离散信号。
声音的三要素
又称音品, 又称音品,主要由声音 波形的谐波频谱和包络 决定 音色-(特质) 音色-(特质) -(特质
音调-(高低) 音强-(强弱) -(强弱 音调-(高低) 音强-(强弱) -(高低