第2章 音频信息处理
连接字语音识别系统 连续语音识别系统。
对说话人的依赖程度
特定人语音识别系统 非特定人语音识别系统
70年代:提出了动态时间归正技术(DTW),矢
量量化(VQ)和隐马尔可夫模型(HMM)理论, 实现了特定人孤立语音识别系统。 90年代:开始进入实用阶段。
词汇量大小
小词汇量语音识别系统 中等词汇量语音识别系统 大词汇量语音识别系统 无限词汇量语音识别系统。
3.MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,
削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。
4.RA文件:属于Real Media的音频部分,采用流式传输方式,可以在非常低的带宽下提供足
够好的音质让用户能在线聆听。
5.WMA 文件:Windows Media的音频部分。无损压缩,支持多声道编码。 6.AC3文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1
时处理的轨道数为128个。按钮“R”表示录音、“S”表示独奏、“M”表示静音。
1.常用编辑
(1)裁剪音频波形 波形的选择 波形的删除 波形的移动与复制
混合工具:拖曳左键选中波形,拖曳右键移动波形。 时间选择工具:拖曳左键选中波形。 移动/复制剪辑工具:拖曳左键移动波形,拖曳右键移动或 复制。 刷选工具:拖曳左键可以播放选中波形。
(4)编组音频波形
编组则可以使多个音频片段的相对位置固定,移动时可整体移动。
2.包络编辑
(1)音量包络编辑
音量包络是指音频波形随时间变化而产生的音量变化,也即是音量变化
的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小,是 一个非常直观和简单有效的方法。
(2)声相包络编辑
声相就是声音在左右声道中所处的位置。声相包络线处于中间时(0点), 声音在左右声道中达到平衡的效果,声相包络线位于上半部,声音偏向左声道, 声相包络线位于下半部,声音偏向右声道。
2)信噪比(SNR):即有用信号与噪音信号的强度之比,对于声卡或音 箱则是其产生的最大不失真声音信号强度与同时发出的噪音强度之比, 单位是分贝。 3) 声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。
3.音频信号的表示
声音信号通过麦克风等设备转换成电信号以后称之为音频信号。
(1)规则音频信号
第2 章
2 .1 2 .2 2 .3
音频信息处理
音频处理基础 音频处理软件Adobe Audition 音频处理综合应用案例
2.1 音频处理基础
2.1.1 音频信号概述
1. 声波
(1)声波:由各种机械振动或气流的扰动引起周围的弹性媒质发生波动。 (2)声源:产生声波的物体,如人的声带和乐器等。 (3)声音:人的听觉系统所能感知到的声波。
一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的
MP3播放器也只能播放12首这样的歌曲。
2.
数字音频压缩标准
标准 G.711 编码方法 PCM
电话质量的语音压缩标准
采样频率 8kHz 采样精度 8位 数据传输率 64kb/s
G.721
G.723
ADPCM
ADPCM LD-CELP
加载效果器
加载效果器按照使用方法可分为:
插入效果器:作用的声音范围是一整条音轨; 波形效果器:作用于音轨中的某一段音频片段;
60~70
70~90
>90
听觉效果
能分辨
轻声
ห้องสมุดไป่ตู้
正常交谈声
吵闹
很吵
听力受损
常见声音的分贝量级
(2)声音信号的心理学特征
人们感知到的声音特征称为心理学特征。
音调: 在音乐中又叫音高,是由发声物体的振动频率决定,振动越快 (即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音 基频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低 沉,基频频率增加一倍,在音乐上就叫升高了一个八度。
文语转换 语音查询
2.2 音频处理软件 Adobe Audition
2.2.3 Audition界面及基本操作
单轨编辑界面
多轨编辑界面
2.2.4
音频信号获取
直接读取计算机磁盘上的音频文件; 提取视频信息中的音频信号; 直接录音。Audition允许同时进行多音轨录音,当然需要有相应的硬件支持,比 如多个音频输入接口、多个录音源等。
2.声音的基本特征
(1)声波信号的物理特征
周期(T):声波的两个波峰或波谷之间的相对时间。 频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次
数。
声波的幅度:从声波信号的基线到波峰的距离,幅度越大声波的 强度也越大。通常也用声压、声强或声功率来表示声音的强弱。
分贝数
低于20
20~40
40~60
(1)采样
声音信号在时间轴上的离散化,即每隔相等的一段时间抽取一个 信号样本。 采样频率:每秒采样的次数。 奈奎斯特理论(Nyquist theory):采样频率不应低于声音信号最高 频率的两倍,这样就能把以数字声音还原成原来的声音,称为无损数 字化。 f s >= 2 f max 电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。
数字音频工作站
2. 智能语音处理技术
(1)语音识别技术
1)语音识别的发展
50年代:AT&T Bell实验室实现了第一个可识别十 个英文数字的语音识别系统——Audry系统。 60年代:提出动态规划(DP)和线性预测分析技 术(LP)。
2)语音识别系统分类
对说话人说话方式的要求
孤立字(词)语音识别系统
(2)音频信号的表示
1)音频信号的数学表示
f (t ) An sin(n 0 t n )
n 0
其中:ω0表示声音的基音,决定了音调的高低,nω0是ω0的n次谐波分量,代表了 声音的泛音,决定了声音的音色,An 是声波的振幅,表示声音的强弱。
2)音频信号的波形表示
3)音频信号的频谱表示
(2) 量化
将连续的声音信号的幅度离散化。
也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的 划分是等间隔的,称为线性量化,否则为非线性量化。
采样精度:即量化的位数,位数越多量化等级数也越多,所能表 示的声波幅度的动态范围也越大,当然需要的存储空间也越大。
(3) 编码
就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将 量化值转换成二进制码组。 典型的音频编码方法:脉冲编码调制法(PCM)。
信号频谱即信号频率的分布曲线。复杂的声音可以认为是振幅不同和频率不同 的正弦声波叠加而成的,这些正弦声波的幅值按频率排列的图形就叫做频谱 。 男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。
2.1.2
音频信号的数字化
1. 音频信号数字化
声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上 也是连续的,属于模拟信号。
音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构, 一般高次谐波越丰富,音色越明亮并具有穿透力。 响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅 越大声音越响,其次人耳距离声源越远,声音越小。
(3)声音质量的评价
声音质量与带宽有关,频率范围越宽,声音质量越高。
3)Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN上的声音传输。
3. 数字音频文件的格式
1.WAV文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。 2.MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,
所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的 设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。
(4)数字音频的数据量
数据量 = 采样频率* 采样精度* 采样时间* 声道数 / 8 单声道:一次只产生一组声波数据, 立体声:一次产生两组声波数据,分别送往左声道和右声道,根据声音到达人耳的 时间差产生空间立体效果,因此立体声声波数据所需存储空间是单声道的一倍。 例2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * ( 44100 * 16 * 2 ) / 8 = 10.09 MB (字节数)
(2) 语音合成技术
语音合成技术:指利用计算机合成语音信号的技术,使计算机能够产生高清
晰度和高自然度的连续语音,能够具有类似普通人的说话能力。 语音合成的三个层次
从文字到语音 从概念到语音 从意向到语音
语音合成技术的特点
清晰度 自然度 表现力 复杂度
语音合成的应用
(3)音量淡化包络编辑
Audition提供了简单快速的音量淡化包络。在音乐制作领域,淡化 (fade)指音量的逐渐变化,音量由小到大变化称为淡入(fade in),音
量由大到小变化称为淡出(fade out)。
3.时间伸缩
用于改变声音播放的速度,且不影响音高。
“查看|启用剪辑时间伸展”
时间伸缩
2.2.6
(2)切分和合并音频
在多轨编辑状态下,可以对活动音轨上的波形进行分割,使其变成多个波形片 段,定位播放线,执行“剪辑|分割”或右击鼠标点选“分割”。 使两段波形首尾相接,按住Ctrl键将两段波形都选中,执行“剪辑|合并”或 右击鼠标点选“合并”即可完成。
(3)锁定音频波形
锁定使音频的绝对时间位置不变。
1.录音前声卡设置
“选项 | Windows 录音控制台 ”