数字音频基础
采样 量化
编码
压缩
音频 文件
100101100011101
模拟信号的数字化过程
一、声音的数字化过程
1. 采样(Sampling) • 对振幅随时间连续变化的模拟信号波形按一定的时间间隔 取出样值,形成在时间上不连续的脉冲序列,称之为采样。 2. 量化(Quantization) • 将采样值相对于振幅进行离散的数值化的操作称为量化。 即将模拟信号的幅度,在动态范围内划分为相等间隔的若 干层次,把采样输出的信号电平按照四舍五入的原则归入 最靠近的量值。 3. 编码(Coding) • 把采样、量化所得的量值变换为二进制数码的过程称为编 码。 4. 压缩(Compress)目的是减少数据量与提高传输效率。 依据:声音信息中存在着多种冗余;听觉器官的不敏感性; 采样的标本中存在着相关性。
例2
例3
一般播音员的播音频率是4kHz,采用8bit的采用精度单声道 进行采样的时候,计算该播音员播音10分钟的数据量为:
8kHz*10*60 ≈ 4.5MB
例4
以CD音质(44.1kHz的采样频率,16位立体声形式)记录一 首5分钟的乐曲所需的存储容量为: 44 100(Hz)×(16/8)(B)×2×5×60 ≈ 51600kB
705.6
立体声
1411.2
立体声
1536
第2节 常用音频格式介绍
• WAV文件(.wav)
– WAV——Wave,波形文件 – 由Microsoft和IBM联合开发的音频文件格式 – 特点:层次丰富、还原性好、表现力强;数据量大;应用 广泛
• CD-DA文件(.cda)
– 标准激光盘文件 – 特点:数据量大,音质好
• AIFF文件(.aif/.aiff)
– AIFF——Audio Interchange File Format,Apple公司开 发的一种声音文件的格式 – 用于不同平台之间音频信息的交换
Hale Waihona Puke • MP3文件(.mp3)
– MPEG压缩编码 – 特点:压缩比1:10;音质较wav稍差,但数据量小而质量 高
• 奈奎斯特理论:采样频率应该大于或等于声音信号 最高频率的两倍就能把以数字表达的声音还原成原 来的声音,满足这个条件的数字化即称为无损数字 化。 fs≥2×fmax • 例如,如果某声音信号最高频率约为3.4kHz,则采 样频率取为8kHz是合适的。 • 常用的采样频率: • 8kHZ(电话质量);11.025kHZ(AM); • 22.05kHZ(FM);44.1kHZ(CD质量).
采样与量化过程示例
以图所示的原始模拟波形为例进行采样和量化。 假设采样频率为1000次/秒,即每1/1000秒A/D转 换器采样一次,其幅度被划分成09共10个量化等 级,并将其采样的幅度值取最接近0 9之间的一 个数来表示,如图所示。图中每个长方形表示一 次采样。
当D/A转换器从图4-2得到的数值中重构原来信号 时,得到图4-3中蓝色(直线段)线段所示的波形。 从图中可以看出,蓝色线与原波形(红色线)相比, 其波形的细节部分丢失了很多。这意味着重构后 的信号波形有较大的失真。
2) 量化位数 • 量化位数也称“量化精度”,是描述每个采样点 样值的二进制位数。例如,8位量化位数表示每 个采样值可以用28即256个不同的量化值之一来 表示,而16位量化位数表示每个采样值可以用 216即65536个不同的量化值之一来表示。常用的 量化位数为8位、12位、16位。 • 量化噪声是指某个采样时间点的模拟值和最近的 量化值之间的差。误差最大可以达到离散间距的 一半。 • 量化位数越大,量化噪声越小。
D = 6N
3) 声道数 • 声音通道的个数称为声道数,是指一次采样所记 录产生的声音波形个数。记录声音时,如果每次 生成一个声波数据,称为单声道;每次生成两个 声波数据,称为双声道(立体声)。随着声道数 的增加,所占用的存储容量也成倍增加。
采样频率 每秒钟抽取声波幅度 样本的次数 采样频率越高 声音质量越好 数据量也越大 11.025kHz 22.05 kHz 44.1 kHz 量化位数 每个采样点用多少二进制位 表示数据范围 量化位数越多 音质越好 数据量也越大 8位=256 个值 16位=65536个值 声道数 使用声音通道的个数 立体声比单声道的表 现力丰富,但数据量 翻倍 单声道 立体声
L in e 输 入 CD输 入 扬声器输出
声卡的内部结构
• 声卡主要组成和功能:
1. 音频处理芯片(DSP):基本上定了整个声卡的 性能和档次,是声卡上的核心部件。在音频数据的 处理中,其算法和处理过程都由主芯片来完成。
音频处理芯片
2. 编、译码芯片(Codec) :具有D/A(数字 信号转换成模拟信号)和A/D(模拟信号转换 成数字信号)转换功能。我们在听音乐的时 候用到的是D/A转换功能。在接收到数字信号 相同的情况下,D/A的好坏直接决定着声卡的 音质。
• 其它接口:
• 电话应答接口:实现与Modem的连接,并向Modem传送 话筒信号,配合软件,可使电脑具备电话自动应答功能。 • 辅助设备接口(AUX-IN):用于将电视卡等设备的声音信号 输入声卡并通过音箱播放。 • CD模拟音频接口: 通过此接口实现CD音频信号的直接播 放。 • CD数字音频输入接口(CD-SPDIF):接收来自光驱的数字 音频信号。 • 音频扩展接口(SPDIF-EXT):用来连接到数字I/O子卡,实 现数字信号的输入和输出。
三、 数字音频文件的存储量
• 以字节为单位,模拟波形声音被数字化后音频文 件的存储量(假定未经压缩)为:
存储量=采样频率×(量化位数/8)×声道数×声音持续时间
• 例如,用44.1KHz的采样频率进行采样,量化位 数选用16位,则录制1秒的立体声节目,其波形 文件所需的存储量为: 44100×16/8×2×1=176400(字节B)
第3章 数字音频基础
学习目标
• 理解声音的数字化的过程 • 掌握数字化过程中的一些重要概念:采样 频率、量化精度(位数)、量化噪声、动 态范围等 • 掌握计算音频文件数据量的方法。 • 了解常见的音频格式及其特点。 • 了解声卡的构造及工作原理
第1节 声音的数字化
• 数字音频获取过程:
模拟音 频信号
四、比特率(传码率)
• 比特率,或传码率,是指每秒传送的比特(bit)数。 单位为 bps (Bit Per Second)。 • 比特率越高,传送的数据越大,音质越好。 • 计算方法:I=b*f*s • CD的比特率为1.4Mb/s • MP3:112~128kb/s
• 128Kb/s为手机立体声MP3播放器最佳设定 值、低档MP3播放器最佳设定值
• WMA文件(.wma)
– WMA——Windows Media Audio,微软公司推出的与MP3 格式齐名的一种新的音频格式 – 特点:压缩比和音质方面都超过了MP3,更是远胜于RA, 即使在较低的采样频率下也能产生较好的音质
• MIDI文件(.mid)
– MIDI—— Musical Instrument Digital Interface,乐器数字 化接口文件 – 不是将声音的波形进行数字化采样和编码,而是将数字式 电子乐器的弹奏过程记录下来 – 特点:数据量小
二、声卡的工作原理:
• 录制声音需要进行多步操作,麦克风将空气中的声 压变化转换为模拟信号。经声卡放大后数字化,生 成的数据流由软件处理为标准文件格式(如WAV), 然后保存到硬盘。
声卡硬件 驱动程序 麦克风 模拟 信号 数字 信号
存储设备 (硬盘)
声卡的录制原理图
• 播放音乐是声音的回放过程,即录制声音的逆过 程。
– 压缩和解压缩音频文件 目前,大多数声卡上都 固化了不同标准的音频压缩和解压缩软件,常 用的压缩编码方法有ADPCM(自适应差分脉冲 编码调制)和ACM(微软音频压缩管理器)等,压 缩比大约为2:1~5:l。 – 与MIDI设备和CD驱动器的连接 通过声卡上的 MIDI接口,计算机可以同外界的MIDI设备相连 接,如连接电子琴、电吉他等,使MPC具有创 作电脑乐曲和播放MIDI文件的功能。游戏杆也 可通过MIDI接口与计算机相连接,使游戏玩起 来得心应手。
声卡硬件 软件驱动程序 数字 信号 存储设备 (硬盘) 模拟 信号 右声道 左声道
声卡播放原理图
三、声卡的结构和组成
游戏接口 M ID I接 口 麦克风输入 控制总线 M IC 放大器 数字声音 地址总线 总线接口 和控制器 数据总线 功率 放大器 音乐 合成器 处理器 混合信号 处理器
P C
总 线
第3节 声卡的构造及工作原理
一、声卡的主要功能
• 声卡是多媒体计算机的主要部件之一,它协助CPU 处理音频数据。 • 基本功能: – 录制与播放声音 通过接在声卡上的话筒录制声 音,并以文件形式保存在计算机中,随时可打开 声音文件进行播放。声音文件的格式可因使用不 同的软件而不同。 – 音乐合成 利用声卡上的合成器将存储在计算机 内存中的MIDI文件合成为音乐乐曲。通过混合器 混合和处理多个不同音频源的声音,控制和调节 音量大小,最后送至音箱或耳机播放。
音频 质量
采样频率 kHz
采样精度 bit
声道 形式 单声道
数码率 kbps
频带 Hz
电话 AM FM CD DA T
8 11.02 5 22.05 44.1 48
8 8 16 16 16
64 88.2
200~3400 50~7000 20~15000 20~20000 20~20000
单声道
立体声
左图为采样率2000Hz,量化等级为20的采样量化过程 右图为采样率4000Hz,量化等级为40的采样量化过程
• 当采样率和量化等级提高一倍,从图中可以看出, 当用D/A转换器重构原来信号时(图中的轮廓线), 信号的失真明显减少,信号质量得到了提高。