当前位置:文档之家› 多媒体通信技术_第二章

多媒体通信技术_第二章


缩程度不高,实现的码速率也较高。在对信号
带宽要求不太严格的通信中得到应用,而对频 率资源相对紧张的移动通信则不合适。
常见的波形压缩编码方法有:
脉冲编码调制(PCM) 增量调制编码(DM)
差值脉冲编码调制(DPCM)
自适应差分脉冲编码调制(ADPCM) 子带编码(SBC) 矢量量化编码(VQ)
需的码位数也较少,则可以实现压缩编码。
差值脉冲编码调制(DPCM)
差值脉冲编码调制是利用样本间存在的信
息冗余度来进行编码的一种数据压缩技术。基
本思想是:根据过去的样本去估算下一个样本
信号的幅度大小,这个值称为预测值,然后对
实际信号值与预测值之差进行量化编码,从而 就减少了表示每个样本信号的位数。
对当前样值的预测值可以由其前面的若干 个样值来进行预测,预测表达式为:
耳听到同样响度时所需的声压级不同。
人耳对声压及变化的感觉是:声压级
每增加10dB,响度增加一倍。
分析等响曲线可得出以下结论:
(1)人耳对不同频率声音的灵敏度不同,
对中频段最为敏感,对高、低频段的敏
感度下降。 (2)从听阀曲线可看出, 4kHz左右是曲 线的最低点,即人耳听到4kHz左右声音 所需的声压级最小,因而对4kHz左右声 音最为敏感。
起始
稳定
结束
声音信号的频域特征是指声音是由很多 的正弦分量组成的。
周 期 信 号 非 周 期 信 号 傅 立 叶 级 数 傅 立 叶 积 分 离 散 线 状 谱 有 明 确 高 音 无 明 确 高 音 的 有 调 声 音 的 无 调 声 音
声 音 信 号
连 续 谱
在多媒体技术中,常用声波频率、
声压、声强等参数来描述声音。
为了获得比较好的处理结果,混合编码方 法是同时采用上述两种方法甚至两种以上的编
码方法来进行编码的,其压缩比特率一般在
4~16kbit/s。
混合编码是在参数编码基础上的改进,其
差别在于信号激励源的选取更加精细。由于采
用不同的激励方式,客观的模拟了激励源的特
性,从而使重构语音信号的质量有了很大的提
高。
(2)网络或电话级:200Hz~3200Hz,信噪比
大于30dB。
(3)通信级:完全可以听懂,但和长途电话相
比,有明显失真。
(4)合成级:80%~90%可懂度,音质较差, 听起来像机器讲话,失去了讲话者的个人特 征。 声音质量评价 对声音质量的评价分为主观评价和客观 评价两种。
不同的人背景不同,对声音的评价也是
浊音又称有声音,语声发声时声带在气流
的作用下激励起准周期的声波。这一准周期音
称为基音,其基音周期为4~20ms相当于基音
频率在50~250Hz范围内。
浊音声波波形图
浊音频谱示意图
清音又称无声音。清音没有周期特性。从
清音的频谱分析可知,清音中不含具有周期或 准周期特性的基音及其谐波成分。
清音声波波形图
线性预测编码原理
按照线性预测编码原理实现的LPC-10声码
器已经用于美国第三代保密电话中,其编码速
率只有2.4bit/s,虽然其编码速率很低,但是
由于其信号源只采用简单的二元激励,在噪声
环境中的语音质量不好,所以目前已被新的编
码器替代。
3. 矢量量化编码 矢量量化的理论基础是香农的速率失真理
论,利用码书中与输入矢量最匹配的码字下标
60dB,400Hz纯音和窄带噪声的掩蔽谱
中心频率为1200Hz的带有噪声的掩蔽谱
大量实验数据表明: (1)频率低的纯音比较容易掩蔽频率高的
纯音,而频率高的纯音比较难掩蔽频率 低的纯音。 (2)单一频率的纯音与同频窄带噪声相比, 在具有相同声压级的情况下,窄带噪声 的掩蔽效应要比纯音明显。
(3)在较低声压级时,窄带噪声的掩蔽区
自适应差分脉冲编码调制系统
2. 线性预测编码(LPC) 线性预测编码是一种比较简单的编码方法。
将语声激励信号简单的划分为浊音信号和清音
信号。由于语声信号是短时平稳的,根据语声
信号的短时分析和基音提取方法,可以用若干
的样值对应的一帧来表示短时语声信号。这样 逐帧将语音信号用基音周期、清/浊音判决、 声道模型参数和增益来表示。对这些参数进行 量化编码,在接收端再进行语声的合成。
声波频率 声波频率是指信号每秒钟变化的次数。 人耳能感觉到的声音频率范围20Hz~20kHz。
人对声音频率的感觉表现为音调的高低,
在音乐中称为音高。
音调
音调是由频率所决定的。音乐中音阶的
划分是在频率的对数坐标(20×log)上取 等分而得的。
简谱符号 频率(Hz) 1 261 2 293 3 330 4 349 5 392 6 440 7 494
采用混合编码的编码器有:
三种压缩编码的性能比较
2.3 常用压缩编码 1. 差值脉冲编码调制(DPCM)和自适应差值
脉冲编码调制(ADPCM)
语音信号经采样后得到的采样值相关性较
强。传统的脉冲编码调制(PCM)是对整个样
值进行编码。如果考虑到相邻样值间的相关性,
即相邻样值间的差值一般很小,对差值编码所
和参量编码是两种基本类型。
1. 波形编码
波形编码是将时间域信号直接变换为数字
代码,试图使重建语音波形保持原语音信号的 波形形状。
波形编码的基本原理是在时间轴上对模拟
语音按一定的速率抽样,然后将幅度样本分层
量化,并用代码表示。解码是其反过程,将收
到的数字序列经过解码和滤波恢复成模拟信号。
它具有适应能力强、语音质量好等优点,但压
个组假定有k个数据,一组数据就构成了一个k
维矢量。每个矢量有对应的用二进制数来表示
的下标。把每个数据组所形成的矢量视为一个
码字,语音数据所分成的组就形成了各自对应
的码字。把所有这些码字进行排列,可以形成
一个表,这样的表就称为码本或码书。
在矢量量矢量对应的下标。由于下标 的数据相比于矢量本身来说要小得多,因此就 实现了数据的压缩。
采用波形编码时,编码信号速率的计算公式:
编码速率=采样速率×编码比特数
计算音频信号所需存储容量: 存储容量=播放时间×速率÷8(字节)
2. 参量编码 参量编码又称为声源编码,是以发声机制 的模型为基础,将信源信号在频率域或其它正 交变换域提取特征参量,并将其进行量化编码, 以实现传输。在接收端,重建语音信号,使其 具有尽可能高的可靠性,即保持原语音的语意。
(3)声压级越高,人耳听觉频响越趋平直;
反之,声压级越低,人耳听觉频响越不好,
高低频都会有所损失。
(4)对100Hz以下的低频声,人耳的灵敏度
会急剧下降。对20Hz声音的听阈为70dBSPL,
因此为了进行有适当低音的调音,监听扬声
器的声压级至少应为70dBSPL。
(5)曲线族之间的间隔1kHz附近几乎是
y N a1 y1 a2 y 2 a N 1 y N 1 ai yi
i 1 N 1
当前样值与预测值的差值为:
e0 y N y N

差分脉冲编码调制系统
自适应差值脉冲编码调制(ADPCM)
为了进一步提高编码性能,将自适应量化
技术和自适应预测技术结合,实现自适应差分 脉冲编码调制,它的核心思想是:利用自适应 的思想改变量化阶的大小,即使用小的量化阶 去编码小的差值,使用大的量化阶去编码大的 差值。 自适应量化的方式可以分为:前向自适应 量化和后向自适应量化两种。
参量编码的特点:可实现低速率语音编码,
比特率可压缩到2~9.6kbit/s 之间。 缺点:重建信号的波形同原语音信号的波 形有相当大的差别,语音质量较差,清晰度满 足要求但自然度较低,难以分辨处讲话者;其 次是电路实现复杂度高。
发生机制模型 构成声音的音素可以分为:浊音(声带振
动)和清音(声带不振动)。
多媒体通信技术
第2章音频技术基础
2.1 声学基础知识
2.2 音频信息编码分类
2.3 常用压缩编码方法
2.4 音频信息压缩编码标准
2.5 多媒体音频信号文件格式
2.1 声学基础知识
1. 声音信号特性
音频信号特征可以从时域和频域两个
方面进行说明。
声音信号的时域特征说明了人们听到 的声音从产生到结束的过程。
均等的,说明人耳对1kHz附近的频率,声
压变化的dBSPL值与听觉上的音量感的变化
是比较一致的。因此,选定1kHz声音作为
各种声音的声压级基准。
人耳听觉的掩蔽效应 由于第一个声音的存在而使第二个声音 提高听阈的现象称为掩蔽。当人耳听到符合 声音时,若存在响度较高的声音频率分量, 那么人耳对响度较低的声音频率分量就不易 察觉到了,这种生理现象称为掩蔽效应。
大不相同的,可以说主观评价方式是比较全
面的。
主观评价方法
评价指标:
(1)清晰度或可懂度评价(DRT)
(2)音质评价 前者是指语音是否容易听清楚;后者 指语音听起来有多自然。 音质评价分为:平均意见得分(MOS) 和判断满意度得分(DAM)。
MOS得分为五个等级:优、良、中、差、 劣。满分为5分,相当调频广播质量;4分以
率有关,将人耳在听到不同频率纯音(正弦
波)时,对所有具有相同音量感的声压用一
条曲线表示后得到的曲线族,称为等响曲
线。
将1kHz纯音(基音)以dB表示的声压级
定义为响度级,单位为phon(方)。




等响曲线
图中每条曲线上所代表的与声压级、
频响相对应的声音,人耳听来都是同样响
的,也可以理解为对于不同频率的声音,人
域仅限于中心频率附近很窄的范围,随
着声压级的升高,掩蔽区域的范围也随
相关主题