数字技术论文 摘要: 为了满足数字通信及其它商业应用的需求,语音压缩编码技术得到了迅速发展。介绍了目前语音压缩编码技术的研究进展,主要包括连续可变斜率增量调制(CVSD)、小波分析、多脉冲激励线性预测编码、散布脉冲码(MPD-USACELP)、波形内插(WI)、线谱对(频率)(LSP)的量化。激励线性预测(DP-CELP)、多重脉冲散布非均匀代数码本激励线性预测。
关键词: 数字通信 语音压缩编码 近30 年来, 通信技术一直在发生着深刻的变化, 编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现, 各国相继成立了一些国际通信标准化组织, 及时地制定专门的通信编码标准, 语音编码技术的发展也体现在这些不断制定的标准中。由于实现方式的不同, 语音压缩编码技术种类很多, 一直向着高质低速方向发展, 并出现了不少令人振奋的成果。 随着信息技术的发展, 信道资源显得更加宝贵, 为了在有限的信道内进行更多的信息传输, 必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余, 可分别从时间域和频率域描述。从时间域分析: 幅度的非均匀分布, 即语音中的小幅度样本出现的概率高, 信息主要集中在低功率上;采样数据间的相关, 相邻的语音信号间有很强的相关性, 研究表明, 当采样率为8 kHz 时, 相邻样值之间的相关系数大于0.85, 如果采样率提高, 相关性将更强; 周期间的相关, 浊音语音段具有准周期性, 反映在波形上出现图形的重复, 即信息冗余; 语音间隙, 实际语音通信中, 存在通话间隙, 通话分析表明, 全双工话路的典型效率约为通话时间的40%, 即静止系数为0.6;长时自相关, 除了本间、同期间的相关外, 在较长的时间间隔上, 语音信号也存在相关, 统计表明, 8 kHz 采样时的平均相关系数高达0.9。从频率域分析: 非均匀的长时功率谱密度, 从相当长的时间内统计平均, 语音信号的功率谱呈现强烈的非平坦性, 这说明语音信号对给定的频段利用的不充分, 存在固定的冗余度; 语音特有的短时功率谱密度, 语音信号的短时功率潜在某些频率上出现峰值, 而在另一些频率上出现谷值, 这些峰值频率是能量较大的频率, 称为共振峰( Formant) , 语音特征主要由前3 个共振峰频率决定, 随着频率的增高, 对整个功率谱的影响会快速递减。语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,其影响主要表现在: 第一, 人的听觉系统( Human Auditory System, HAS)对声音具有掩蔽效应( Mask Effect) , 即一个强的声音能够抑制另一个同时存在相对较弱的声音, 利用这一性质可以抑制与信号同时存在的量化噪声。第二, 对不同频段的声音的敏感程度不同。人的听觉对低频端比较敏感, 而对高频端不太敏感, 这主要是因为浊音的周期和共振峰在这里。第三, 人耳对语音信号的相位变化不敏感。人耳的听觉不像人的视觉对感知的信号相位那样敏感, 一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余, 可以利用这些特性进行语音数据压缩。语音压缩编码的目的是用尽可能低的数码率获得尽可能好的合成语音质量, 同时又使要编码过程的计算代价尽可能小。降低数码率的实质就是压缩频带宽度, 数码率低意味着算法的复杂度增加, 延迟变大。所以语音压缩编码算法的研究一直在这个矛盾中向前发展。 语音压缩编码的发展及应用近10 多年来, 语音编码技术取得了突飞猛进的发展, 出现了多个国际标准和区域标准, 已具备了比较完善的理论和技术体系, 随着高速信号处理器的诞生, 使多种算法复杂、计算量很大的编码技术的实时化变得容易起来, 语音压缩编码进入了实用阶段。目前语音编码主要分为三类: 波形编码、参数编码和混合编码。 1.波形编码 最早的语音编码系统采用波形编码方法, 这种方法主要是基于语音信号的波形, 力图使合成语音与原始语音的波形误差最小。由于语音信号的全部信息都蕴含在原始波形里, 所以这种方法编码后的合成语音质量非常好, 且适应能力强, 抗信道干扰性能好。所采用的压缩方法一般是基于各种有效的数学变换, 通过将波形从一个域变换为另一个更易于提取特征参数的域来达到对变换后的参数进行量化编码的目的, 在数学上, 这实质上是一个曲线拟合或数据近似的问题。主要的有以下的编码器: 脉冲编码调制( PCM) 、自适应增量调制( ADM) 、自适应差分编码( ADPCM) 、自适应预测编码( APC) 、自适应子带编码( ASBC) 、自适应变换编码( ATC) 。波形编码的性能和压缩比特率决定于所用的变换方法的性能, 由于语音波形的动态范围很大, 目前所用的变换算子的作用又有限, 因此, 波形编码的比特率不能压得很低, 一般在16 kb/s 以上, 再往下, 性能就下降很快。新近蓬勃发展的小波变换, 尽管具有分层的思想、“ 显微镜”的功能、与图像的视觉感知相吻合, 但用于语音编码效果不理想, 因为与人的听觉感知不相吻合。国际电报电话咨询委员会CCITT( 现已并入国际电信联盟ITU) 于1972 年制定的G.711 64 kb/s 的脉冲编码调制( PCM) 和ITU 在1984 年公布的G.721 32 kb/s 自适应差分脉冲编码调制( ADPCM) 编码器标准等都属于这一类编码器。 2.参数编码 参数编码始于1939 年美国人Homer Dudey 发明的声码器, 它是根据语音信号的特征参数来编码, 所以又叫“ 声码器技术”。这种编码方法是通过对人的发声生理过程的研究, 建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的, 它力图使合成语音具有尽可能的可懂性, 保持原语音的语意, 而合成语音的波形与原始语音的波形可能有相当大的差别。由于它是以滤波器为主来构造语音产生模型, 发送的只是滤波器的参数和相关的特征 值, 可以将比特率压得很低, 但合成语音质量不是很好。这种方法在低数率声码器中普遍采用。主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测( LPC) 声码器等。其中LPC 声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数, 较好地解决了编码速率和语音质量的问题, 以其成熟的算法和参数的精确估计成为研究的主流, 并已走向实用。美国政府1980 年公布的2.4 kb/s 线性预测编码算法LPC- 10 就是采用的这种方法。1986 年, 美国第三代保密电话装置采用了2.4 kb/s 的LPC- 10e( LPC- 10 的增强型) 作为话音处理方法。 3.混合编码 20 世纪80 年代后期, 综合波形编码和参数编码的混合编码算法成为主流, 这种算法也假定了一个语音产生模型, 但同时又使用与波形编码相匹配的技术将模型参数编码, 吸收了两者的优点。所谓混合编码有两层含义: 激励的混合, 达到更精确的表示残差信号; 编码方式的混合, 综合波形编码和参数编码的优点, 从而获得更高的质量。根据这种方法进行编码的有1982 年Bishnu S. Atal 和Joel R. Remde 提出的多脉冲激励线性预测编码( MPLPC) , 码率在9.6 kb/s ~16 kb/s 范围内, 1985 年Ed.F.Deprettere 和Peter Kroon 首先提出的规则脉冲激励语音编码( RPE- LPC) ,1985 年Manfred R. Schroeder 和Bishnu S. Aral 提出了用矢量量化技术对激励信号进行编码的码激励线性预测编码( CELP) , 在4.8 kb/s~16 kb/s 范围内可获得质量相当高的合成语音。近年来码激励线性预测( CELP) 编码作为一种优秀的中、低速率方案得到了很好的重视和研究, 在降低复杂度、增强CELP 性能、提高语音质量等方面取得了许多新的进展。1989 年,Motorola 的8 kb/s 矢量和激励线性预测编码( VSELP) 成为北美第一种数字蜂窝移动通信网的语音编码标准, 与美国政府标准4.8kb/s CELP 语音编码器基本相同。美国政府制定了FS- 1016 4.8 kb/s 的CELP 保密电话网的标准之后, 提出了制定半速率2.4 kb/s 声码器的新课题。CCITT 从1988 年开始研究符合进入公用网要求的16 kb/s 语音压缩编码标准, 并对该速率的算法提出一些具体要求。经过一年多的工作,CCITT 最终选定了由AT&T 实验室提出的16 kb/s 低延迟线性预测编码方案, 并经过进一步的研究和优化, 于1992 和1993 分别通过了浮点和定点 算法的G.728 协议, 即低延迟码激励线性预测算法LD- CELP。LD- CELP算法的特点是语音短时语音谱预测、长时语音谱预测、增益因子预测等参数不是从语音中直接提取, 而是采用了后向自适应算法, 即从量化后的语音信号中提取LPC 参数及增益系数。传送的信息只是激励矢量, 这就压缩了传输比特率。LD- CELP 可应用于可视电话伴音、存储和转发系统、数字移动无线通信、数字语音插空设备、语音信息录音和分组语音等领域。CCITT 在20 世纪80 年代末就提出要建立一个8 kb/s 高质量、低延迟的编码方案。但是由于要求过高, 很长时间没有人能够提供满足要求的编码方案。CCITT 不得不在1991 年降低了要求, 把原来要求5 ms 延时降为16 ms, 并综合了日本NTT 和加拿大Sherbrooke University 的科学家们提出的算法, 于1995 年11 月在ITU- TSG 15 全会上通过了CSACELP算法的8 kb/s 的建议G.729。CS- ACELP 算法基于CELP 编码模型, 采用了共扼结构和代数码本技术。它的主要技术指标是: 在无误码的条件下, 语音的质量不得比32 kb/s 自适应差分脉冲编码调制的质量差;另外在3%帧删除的情况下, 对比无误码的32