当前位置:文档之家› 语音信号处理 第2版 赵力 语音信号处理第7章新

语音信号处理 第2版 赵力 语音信号处理第7章新

2019/2/22 4

20世纪六七十年代,VLSI技术与数字信号处理理论 的发展为语音编码技术开辟了新的道路,语音分析 合成采用了短时傅立叶变换,变换编码与子带编码, 基于线性预测的编码技术进一步得到发展。新的编 码技术纷纷产生,如余弦分析合成技术,多带激励 声码器,LPC中的多脉冲与矢量激励,矢量量化。 到20世纪90年代中期,速率为4~8Kbps的波形与 混合编码器,在语音质量上,与早期速率为 64Kbps的PCM波形编码器已十分接近。

2019/2/22 2
三种编码方式的比较
波形编码
编码信息 波形 9.6~64Kbps 比特率
参数编码
模型参数 2.4~9.6Kbps
混合编码
综合 16~24Kbps
优点
缺点 典型代表
适应能力强, 有效降低了编码比 语音质量好 特率
随着量化粗糙 合成语音质量低, 语音质量下降 处理复杂度高
自适应差分编码调 LPC- 10、LPC10E 制(ADPCM)
语音质量明显 提高
编码速率明显 上升
多脉冲激励线性预测 编码(MPLPC) 规则脉冲激励线性预 测编码(RPE-LPC)
3
2019/2/22
语音编码发展史
自从20世纪30年代脉冲编码调制(PCM)
被提出起,语音编码在60多年的时间里得到 了迅速的发展。 早期的声码器基于对语音信号基音周期与频 谱的分析,主要包括通道声码器,共振峰声 码器与模式匹配声码器。20世纪50年代后期, 着重于线性语音源系统生成模型,包括线性 慢时变系统,周期脉冲激励序列与随机激励。
合成分析背景 16Kbps以下的高质量语音编码在当今得到的极大 关注,使得传统的量化方法对误差最小化已无能为 力。因此,合成分析的方法被引入。
2019/2/22
14

感觉加权滤波器
对于低码率(4~16Kbps)的语音编码,理论上的 最小均方误差(MMSE)在实际应用时却因为人的 听觉特点而障碍重重。在这种背景下,根据人耳上 网掩蔽效应设计的感觉加权滤波器得到了广泛的应 用。 在实际应用中,共振峰处的噪声相对于能量较低处 的频段更加不易被察觉,故高能量段处的误差要求 W ( z) 不高。因此,感觉加权滤波器 被提出,用以衡量 语音间的误差。
预测
发送端
xr ( n)
x p ( n )
预测
接收端
29
2019/2/22
但采用固定的高阶预测,改善效果并不明显,于是,高阶自 适应预测作为相应的解决方式被提出,自适应预测器随着语音 特征变化不断更新预测系数,从而获得更高的预测增益。
后向自适应预测编码结构框图:
x(n)

e(n)
eq (n )
+
2019/2/22
5
7.2 语音信号压缩编码原理&系统 压缩评价
语音信号中存在着冗余度(包括时 域与频域),人的听觉感知机理也 有很多可以利用的特点。语音信号 压缩编码之所以可行,正是因为这 两种情况的存在。
2019/2/22 6
语音编码依据之一:语音信号冗余度
基本时域冗余: 语音信号幅度非均匀分布性 语音信号样本间的强相关性 浊音语音段具有的准周期性 声道形状及其变化的缓慢性 静止系数 (即语音间隙性)
由此可知引用线性预测后,SNR 可得到成功的改善。
2019/2/22
2
2
2
量化噪声平均能量
27
自适应增量调制(ADM)
增量调制的基本方案:
增量调制方式将下一个语音信号与当前语音信号比 较,如果高与当前值则系统则编码1,否则系统编码 0.
自适应增量调制的工作方式:
自适应增量调制随输入波形自适应的改变量化阶梯 的大小,在信号平均斜率大时自动增大量化阶梯,反 之减小。
z
均匀量化
y
编码
b
解码
y
非线性 扩张
C 1 ( x)
非线性压缩扩张的非均匀量化器
2019/2/22
xq
21

A律压缩扩张技术(中国标准)
A |x ( n ) | /X |x(n)| 1 m ax sgn x ( n [ )] (0 ) Xm a x A 1 ln A 1 ln A [ |x ( n ) | /X ]x 1 |x(n)| ma ( X sgn x ( n [ )] A X 1) m ax max 1 ln A
2019/2/22
18
适用于低 比特率语 音编码质 量的评价
评测方法
主观评价
客观评价
可懂度评价(DRT得分)
音质评价
计算较简单,但没有 考虑实际情况,故 适用于高比特率 语音编码质量的 评价
判断满意度测量(DAM)
平均意见得分(MOS)
2019/2/22
19
7.3 语音信号的波形编码


F [ x ( n )]

μ律压缩扩张技术(北美及日本标准)
|x ( n )| ln[ 1 ] X max F [ x ( n )] X sgn[ x ( n )] max ln( 1 )
2019/2/22 22
形式三:自适应PCM
无论是均匀或是非均匀PCM,量化间隔总是随着量化器的确 定而固定。而自适应PCM引入的自适应幅值变化概念使得量化 误差可以匹配于输入信号方差,或是量化器增益G可以随着幅值 而变化,从而使信号能量在量化前恒定。
2019/2/22
20

脉冲编码调制
形式一:均匀PCM 最简单最原始的波形编码方式,没有运用压缩技术,产生的 比特率也极高,故在当今运用极少。 形式二:非均匀PCM 将信号进行非线性变换后再均匀量化,变换后信号具有均匀 概率密度分布。编码时常采用对数变换压缩(译码时指数扩 展)。
x
C ( x)
非线性 压缩
A(z)
语音信号合成模型图示 其中信号源为预测余量信号, 1/P(z)为长时预测滤波器, 1/A(z)为短时预测滤波器。
2019/2/22
11
语音信号的短时相关性可用一个全极点 模型来描述,其传输函数H(z)为:
滤波器阶数
1 1 H (z) P A (z) i 1 a iZ
i 1
短时预测系数
2019/2/22
12
而滤波器 1/ P(z) 是语音信号长时相关性的模型, 其一般形式为:
1 P(z) 1 1 bi Z ( Di)
iq r
延时参数(/22
13

合成分析
合成分析原理 合成分析在编码器中加入综合器,并将其与分析器 结合从而产生与译码器端相同的语音,而后根据误 差原理调整使得误差最小化。
x(n)
Q【· 】
~ x(n)
编码器
c(n)
x(n)
y (n)
ˆ (n) y
Q【· 】 编码器
X
c(n)
( n)
c(n)
G (n)
解码器
~ x(n)
c(n)
ˆ (n) y
解码器
ˆ(n) x
+
G(n)
(n)

2019/2/22
匹配自适应
G匹配自适应
两 种 自 适 应 方 法 的 原 理
2019/2/22 7
基本频域冗余: 从长时间的功率谱密度来看,语音信号具有 强烈的非平坦型,存在着固定的冗余度。而 且高频能量通常较低,恰好对应于时域上的 相邻样本相关性。 从短时功率谱密度来看,语音信号在不同频 率交替出现峰值(共振峰)与谷值。整个功 率谱的细节基于基音频率形成高次谐波结构。
7.1概述 7.2语音信号压缩编码原理&系统压缩评价 7.3语音信号的波形编码 7.4语音信号的参数编码 7.5语音信号的混合编码 7.6现代通信中的语音信号编码
7.1 概述
语音编码(Speech Coding) 从信息论角度看,信源编码 是要以最少的数码表示信源所发的信号,语音编码属于信源 编码的范畴。语音编码通过减少传输码率(或存储量),来 达到提高传输(或存储)效率的目的。作为传输语音的压缩 技术,语音编码在通信史上一直都扮演着极为重要的角色。 语音编码分为三类: * 波形编码:重建后的语音时域信号的波形与原语音信号保持 一致。 * 参数编码:通过建立语音信号的产生模型,提取其特征参数 来编码,波形上不要求与原信号匹配,又称声码器技术。 * 混合编码:有机结合以上两种编码方式,基于语音产生模型 的假定并采用分析合并技术。
2019/2/22
16
其传递函数为:
p
预测系数
A(z) W(z) A(z /)
1 ai zi 1 ai i zi
i1 i1 p
加权因子
号类似的包络形状,从而在掩蔽效应的作用下在主观 听觉上产生较好的效果。
2019/2/22 17
W ( z ) 的作用就是使实际信号误差的谱呈现与语音信
语音压缩系统的性能评判指标
较为重要的性能评价准则

编码速率(比特率),决定了编码器工作时占用的信道 带宽,要求尽可能降低。 编码器的完健性,要求良好。 编码器的时延,要求最小化。 误码容限,要求保持较高值。 算法复杂度(包括运算复杂度与内存要求),影响硬件 成本,尽可能降低。 算法可扩展性,越高越好。
线性预测传送整个反应过程变化的参数,其出发点 在于跟踪波形的产生过程而非波形本身。基于全极 点模型假设,使得语音信号编码的比特率得到有效 的降低。 语音信号中存在的两点相关性 样点间的短时相关性 相邻基音周期之间的长时相关性
2019/2/22
10
激励发生 器
1
————
1
————
合成语音
P(z)
其中,
相关主题