多媒体音视频编解码浅析为便于大家了解查阅,特对多媒体编解码及相关信息大致整理一下。
视频编码的基本原理视频图像数据有极强的相关性,也就是说有大量的冗余信息。
其中冗余信息可分为空域冗余信息和时域冗余信息。
压缩技术就是将数据中的冗余信息去掉(去除数据之间的相关性),压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。
去时域冗余信息使用帧间编码技术可去除时域冗余信息,它包括以下三部分:-运动补偿运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
-运动表示不同区域的图像需要使用不同的运动矢量来描述运动信息。
运动矢量通过熵编码进行压缩。
-运动估计运动估计是从视频序列中抽取运动信息的一整套技术。
注:通用的压缩标准都使用基于块的运动估计和运动补偿。
去空域冗余信息主要使用帧间编码技术和熵编码技术:-变换编码帧内图像和预测差分信号都有很高的空域冗余信息。
变换编码将空域信号变换到另一正交矢量空间,使其相关性下降,数据冗余度减小。
-量化编码经过变换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出达到一定的位率。
这一过程导致精度的降低。
-熵编码熵编码是无损编码。
它对变换、量化后得到的系数和运动信息,进行进一步的压缩。
标准化机构在视频编解码技术定义方面有两大标准机构。
国际电信联盟 (ITU) 致力于电信应用,已经开发了用于低比特率视频电话的 H.26x 标准,其中包括 H.261、H. 262、H.263 与 H.264;国际标准化组织 (ISO) 主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。
MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。
图1 说明了视频编解码标准的发展历程。
MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。
有时它们也会开展合作,如:联合视频小组 (JVT),该小组定义了 H.264 编解码技术,这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。
我们在本文中将这种联合标准称为 H.264/AVC。
同样,H.262 对应 MPEG2,而H.263 基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Si mple Profile) 编解码技术存在较多重复。
标准对编解码技术的普及至关重要。
出于规模经济原因,用户根据可承受的标准寻找相应产品。
由于能够保障厂商之间的互操作性,业界乐意在标准方面进行投资。
而由于自己的内容可以获得较长的生命周期及广泛的需求,内容提供商也对标准青睐有加。
尽管几乎所有视频标准都是针对少数特定应用的,但是在能够适用的情况下,它们在其他应用中也能发挥优势。
为了实现更好的压缩及获得新的市场机遇,ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。
中国最近开发了一种称为 AVS 的国家视频编码标准,我们在后面也会做一介绍。
目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)(对 H264/ AVC 的修订)和MPEG 多视角视频编码 (Multi-view Video Coding)。
另外,为了满足新的应用需求,现有标准也在不断发展。
例如,H.264 最近定义了一种称为高精度拓展 (Fidelity Ra nge Extensions) 的新模式,以满足新的市场需求,如专业数字编辑、HD-DVD 与无损编码等。
除了 ITU 与 ISO 开发的行业标准以外,还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。
由于这些格式在内容中得到了广泛应用,因此专有编解码技术可以成为业界标准。
2 003 年 9 月,微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。
该提议得到了采纳,现在 WMV9 已经被 SM PTE 作为 VC-1 实现标准化。
国际音视频压缩标准发展历程H.261H.261标准是为ISDN设计,主要针对实时编码和解码设计,压缩和解压缩的信号延时不超过150ms,码率px64kbps(p=1~30)。
H.261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。
只有I帧和P帧,没有B帧,运动估计精度只精确到像素级。
支持两种图像扫描格式:QCIF和CIF。
H.263H.263标准是甚低码率的图像编码国际标准,它一方面以H.261为基础,以混合编码为核心,其基本原理框图和H.261十分相似,原始数据和码流组织也相似;另一方面,H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分,如:半像素精度的运动估计、PB帧预测等,使它性能优于H.261。
H.263使用的位率可小于64Kb/s,且传输比特率可不固定(变码率)。
H.263支持多种分辨率: SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。
与H.261和H.263相关的国际标准与H.261有关的国际标准H.320:窄带可视电话系统和终端设备;H.221:视听电信业务中64~1 920Kb/s信道的帧结构;H.230:视听系统的帧同步控制和指示信号;H.242:使用直到2Mb/s数字信道的视听终端的系统。
与H.263有关的国际标准H.324:甚低码率多媒体通信终端设备;H.223:甚低码率多媒体通信复合协议;H.245:多媒体通信控制协议;G.723.1.1:传输速率为5.3Kb/s和6.3Kb/s的语音编码器。
JPEG国际标准化组织于1986年成立了JPEG(Joint Photographic Expert Group)联合图片专家小组,主要致力于制定连续色调、多级灰度、静态图像的数字图像压缩编码标准。
常用的基于离散余弦变换(DCT)的编码方法,是JPEG算法的核心内容。
MPEG-1/2MPEG-1标准用于数字存储体上活动图像及其伴音的编码,其数码率为1.5Mb/s。
MPEG-1的视频原理框图和H.261的相似。
MPEG-1视频压缩技术的特点:1. 随机存取;2. 快速正向/逆向搜索;3 .逆向重播;4. 视听同步;5. 容错性;6. 编/解码延迟。
MPEG-1视频压缩策略:为了提高压缩比,帧内/帧间图像数据压缩技术必须同时使用。
帧内压缩算法与JPEG压缩算法大致相同,采用基于DCT的变换编码技术,用以减少空域冗余信息。
帧间压缩算法,采用预测法和插补法。
预测误差可在通过DCT变换编码处理,进一步压缩。
帧间编码技术可减少时间轴方向的冗余信息。
MPEG-2被称为“21世纪的电视标准”,它在MPEG-1的基础上作了许多重要的扩展和改进,但基本算法和MPEG-1相同。
MPEG-4MPEG-4标准并非是MPEG-2的替代品,它着眼于不同的应用领域。
MPEG-4的制定初衷主要针对视频会议、可视电话超低比特率压缩(小于64Kb/s)的需求。
在制定过程中,MPEG组织深深感受到人们对媒体信息,特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。
MPEG-4与前面提到的JPEG、MPEG-1/2有很大的不同,它为多媒体数据压缩编码提供了更为广阔的平台,它定义的是一种格式、一种框架,而不是具体算法,它希望建立一种更自由的通信与开发环境。
于是MPEG-4新的目标就是定义为:支持多种多媒体的应用,特别是多媒体信息基于内容的检索和访问,可根据不同的应用需求,现场配置解码器。
编码系统也是开放的,可随时加入新的有效的算法模块。
应用范围包括实时视听通信、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。
JVT:新一代的视频压缩标准JVT是由ISO/IEC MPEG和ITU-T VCEG成立的联合视频工作组(Joint Video Team),致力于新一代数字视频压缩标准的制定。
JVT标准在ISO/IEC中的正式名称为:MPEG-4 AVC(part10)标准;在ITU-T 中的名称:H.264(早期被称为H.26L)H264/AVCH264集中了以往标准的优点,并吸收了以往标准制定中积累的经验, 采用简洁设计,使它比MPEG4更容易推广。
H.264创造性了多参考帧、多块类型、整数变换、帧内预测等新的压缩技术,使用了更精细的分象素运动矢量(1/4、1/8)和新一代的环路滤波器,使得压缩性能大大提高,系统更加完善。
目前常用的一些多媒体格式分类多媒体的格式包括三种:封装格式、视频编解码、音频编解码。
多媒体封装格式(又称容器)所谓封装格式就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中,以方便同时回放。
MPGMPEG编码采用的容器,具有流的特性。
里面又分为 PS,TS 等,PS 主要用于 DVD 存储,TS 主要用于 HDTV。
VOBDVD采用的容器格式,支持多视频多音轨多字幕章节等。
MP4MPEG-4编码采用的容器,基于 QuickTime MOV 开发,具有许多先进特性。
3GP3GPP视频采用的格式,主要用于流媒体传送。
ASFWindows Media 采用的容器,能够用于流传送,还能包容脚本等。
RMRealMedia 采用的容器,用于流传送。
MOVQuickTime 的容器,恐怕也是现今最强大的容器,甚至支持虚拟现实技术,Java 等,它的变种 MP4,3GP都没有这么厉害。
MKV 它能把 Windows Media Video,RealVideo,MPEG-4 等视频音频融为一个文件,而且支持多音轨,支持章节字幕等。
OGGOgg 项目采用的容器,具有流的特性,支持多音轨,章节,字幕等。
OGMOgg 容器的变种,能够支持基于 DirectShow 的视频音频编码,支持章节等特性。
AVI最常见的音频视频容器。
AVI也是最长寿的格式,已存在10余年了,虽然发布过改版(V2.0于1996年发布),但已显老态。
AVI格式上限制比较多,只能有一个视频轨道和一个音频轨道(现在有非标准插件可加入最多两个音频轨道),还可以有一些附加轨道,如文字等。
AVI格式不提供任何控制功能。
NSVNullsoft Video 的容器,用于流传送。
WAV一种音频容器,大家常说的 WAV 就是没有压缩的 PCM 编码,其实 WAV 里面还可以包括 MP3 等其他 ACM 压缩编码。
常用的多媒体音视频编解码标准:MPEG 系列MPEG 即(Moving Pictures Experts Group)运动图象专家组,属于ISO (International Organization for Standardization)国际标准组织,他们开发了一系列视频音频编码,最为大家熟悉的就是 MP3,MPEG-1/2/4。