当前位置:
文档之家› 清华大学移动通信教程第06讲-信源编码
清华大学移动通信教程第06讲-信源编码
音频编码的历史(3)
宽带语音:主要应用于会议电视,相当于调幅广播的质量
1988年CCITT制定了G.722 标准:SB-ADPCM 1996 年 左 右 , 美 国 PictureTel 公 司 提 出 PTC - PictureTel Transform Coder 1999 年 9 月 发 布 : “ ITU-T G.722.1 proposed for decision: 7 kHz Audio - Coding At 24 And 32kbit/s For Hands Free Operation In Systems With Low Frame Loss。”
混合编码器(80年代) 利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术。 多脉冲激励线性预测(MPELP 1982 Atal、Remde) 规则脉冲激励线性预测(RPELP 1985 Deprettere、Kroon) 码本激励线性预测(CELP 1985 Manfred、Schroeder、Atal) 8~16kb/s高质量。话音质量高、编码速率低,但算法复杂。
音频编码的历史(4)
音频(Audio):主要应用于娱乐与鉴赏,对于重建信号的音 质有很高的要求,目前采用比特率较高的波形编码技术进 行压缩。可以直接在时域进行,也可以转到频域或其他变 换域进行。 1982年激光唱盘 (CD: Compact Disk)上市。MD:MiniDisk , 日 本 索 尼 公 司 采 用 ATRAC - Adaptive Transform Acoustic Coder压缩技术。 1987数字音频磁带录音 (DAT: Digital Audio Tape) 问 世。 DAB (Digital Audio Broadcasting) 源于欧洲。
压缩的必要性
类型 电话语音 宽带语音 调频广播 CD 光盘 DAB/DAT
带宽 KHZ 0.2~3.4 0.05~7 0.02~15 0.01~20 0.01~20
采样率 比特/样点 KHZ 8 12 16 14 32 16 44.1 16 48 16
比特率 kb/s 96 224 512 705.6 768
音频编码性能评价(1)
1) 编码速率(KBPS、KB/S) 信号带宽:可懂度、自然度、透明度。 200~3400HZ、50~7000HZ、20~15000Hz、10~20000HZ。 采样速率:8KHZ、16KHZ、32KHZ、44.1/48KHZ…。 编码位数R(b/ps) 总速率I(kb/s) 影响重建质量、存储容量、传输带宽 2) 重建语音质量 客观评价: 信噪比 分段信噪比 (一般15DB以上较好,20DB以上相当好)
音频编码的历史(2)
参数编码 波形编码通道声码器(39年,Dudly,二次大战保密电话) LPC声码器(67年,Atal、Schroeder) 同态声码器(69年,Oppenheim) 共振峰声码器(71年,Rabiner、Schafer、Elanagan) MBE声码器(88年,Griffin、Lim) 波形插值(91年,W.B. Kleijn) 2.4kb/s、1.2kb/s、较好;600~800b/s可懂。编码速率低,但自然度差。
音频编码历史(1)
语音 :主要应用于数字电话
波形编码 PCM原理(37年,法Alec Reeres) 电子管PCM(46年,Bell实验室) 晶体管PCM(62年,市话扩容,64kb/s) 单片IC PCM(70年代,微波、卫星、光纤) 增量编码原理(46年,法De Loraine) 自适应增量 CVSD(60年代末,军用,32、16kb/s) Continuously Variable Slope Delta Modulator 连续变化斜率增量调制器 其他编码(70年代,ADPCM、SubBand、ATC、APC等) 在16kb/s以上得到较好的话音质量,话音质量好,但编码速率高。
现有标准(3)
语音编码标准 采样 名称 率 KHz G.711 G.726 G.728 G.729 G.723 G.723 G.722 US1015 替 1015 US1016 GSM IS-54 JDC INMAR SAT IS-95 IS-127-1 8 8 1~8 1.2、4.8、 9.6 QCELP EVRC 95 98 ~3.7 93 8 KB/S 8 8 8 8 8 8 16 8 8 8 8 8 8 8 64 16~40 16 8 5.3 6.3 48~64 2.4 2.4 4.8 13 8 6.7 4.15 PCM ADPCM LD-CELP CS-ACELP ACELP MP-MLQ SB-ADPCM LPC-10 MELP CELP RPE-LT VSELP VSELP IMBE 72 84-88 92 95 95 95 88 82 97 89 88 89 90 91 4.3 4.1 4.1 4.1 3.8 4.0 3.7~4.1 2.5 优于 3.0 3.7 3.7 3.5 3.4 90 DOD 94 1016 95 94 94 32 KB/S 编码速率 KB/S 编码制式 年代 MOS DRT 备注
现有标准(2)
宽带语音 名称 G.722 G.722.1 采样频率 KHZ 编码速率 KB/S 16 16 64、56、48 24、32 编码方式 SB-ADPCM MLT 年代 1988 1999 MOS 分 4.1 4.0 3.7
MLT:Modulated Lapped Transform The algorithm is based on transform technology, using a modulated lapped transform (MLT). It operates on 20 ms frames (320 samples) of audio. Because the transform window (basis function length) is 640 samples and a 50% (320 samples) overlap is used between frames, the effective look-ahead buffer size is 20ms. Hence the total algorithmic delay of 40ms is the sum of the frame size plus look-ahead. All other delays are due to computational and network transmission delays.
现有标准(4)
LPC-10 : Government Standard Linear Predictive Coding Algorithm: LPC-10 MELP:Mixed Excited Linear Predictive Coding CELP:Codebook Excited Linear Predictive Coding ACELP:Algebraic Cocebook Excitation LPC QCELP:Qualcom Cocebook Excitation LPC EVRC:Enhanced Variable Rate Codec LD-CELP:Low Delay-CELP CS-ACELP:Conjugate-Structure Algebraic CELP VSELP:Vector Sum Excitation LPC RPE-LT:Long Time Predictive Regular-Pulse Excitation LPC MPLPC:Multi-Pulse Excitation LPC MP-MLQ:Multipulse Maximum Likelihood Quantization MBE:Multi-Band Excitation Speech Coder CVSD:Continuously Variable Slope Delta Modulator SB-ADPCM : Sub-Band Adaptive Differential Pulse Code Modulation PTC:PictureTel Transform Coder AC-3: Digital Audio Compression Standard, 美国 Dolby AC-2; 公司
音频压缩依据
1) 冗余度 时域样点之间相关(短时、长时) 频域谱的非平坦性(谱包络、谱离散) 统计特性 (去除可恢复) 2) 人耳听觉特性 人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 Masking Effect … 对人耳听不到或感知极不灵敏的声音分量都不妨视为冗余。 可利用听觉心理特性…感觉加权、量化、去除多余分量、后滤波、… (不可恢复)
现有标准(1)
宽带音频 名称 编码方式 MOS 分 Layer1 SB-DBA 4.7 Layer2 SB-DBA 4.6 layer3 SB-DBA-MDCT 3.7 SB:Sub-Band DBA:Dynamic Bit Allocation ISO/MPEG 2(1993) :将采用率扩充到 16、22.05、24KHZ,带宽分别 为 7.5、10.3、11.25KHz。 ISO/MPEGI(1991) 采样频率 KHZ 编码速率 KB/S 48 180+12 48 120+8 48 60+4
音频编码性能评价(3)
3) 编解码延时(ms) 公众网(25ms)、点对点、广播、存储 回声控制或回声抵消 正常通话秩序 与重建质量关系 4) 算法复杂度 硬件、成本 浮点、定点 MIPS、RAM、ROM 5) 其他 抗随机误码和突发误码能力 抗丢包和丢帧能力 对不同信号编码能力 级联或转接能力
音频信号分类、特性及应用
分类 频率范围 动态范围 Hz 200-3400 50-7000 48dB 84dB 采样频 率 kHz 8 16 质量 要求 清晰度 清晰度 主要应用