第31卷第4期哈尔滨工程大学学报V ol.31 No.4 2010年4月Journal of Harbin Engineering University Apr. 2010文章题目创新点自述创新点自述与摘要有一定的区别,作者应把文章具体新在哪里,好在哪里写出来,说明本文较前人工作有何创新,好的创新点自述能增加文章的可读性,也能给评审人留下好的印象。
2 哈尔滨工程大学学报第28卷视频压缩技术张明瑶(哈尔滨工程大学,黑龙江省哈尔滨市 150001)摘要:90年代以来,随着电子技术、图像通信技术的迅猛发展,视频压缩技术逐步规范与成熟。
视频压缩是多媒体技术和产业发展的关键,而视频压缩标准则是多媒体产业发展的命脉。
本文简单介绍与分析了现有的视频压缩技术与标准,概述了两种基本的视频压缩标准,并结合实际应用,对视频压缩技术的特点进行了较详细的阐述。
关键词:视频压缩;视频压缩技术;分析;应用Doi:10.3969/j.issn.1006-7043.中图分类号:(作者本人填写)文献标识码:A 文章编号:1006-7043 (2006) xx-xxxx-xVideo compression technologyZHANG Mingyao( Harbin Engineering University, Harbin, Heilongjiang, 150001,China)Abstract:Since the 90's, with the rapid development of electronic technology, image communication technology, video compression technology is gradually standardized and mature. Video compression is the key of multimedia technology and industrial development, and video compression standard is the lifeline for the development of multimedia industry. This paper introduces and analyzes the existing video compression technology and standard, this paper summarizes two kinds of basic video compression standard, and combining the practical application, the characteristics of video compression technology is discussed in detail.Keywords:Video compression; Video compression technology;Analysis; Application人类已经步入信息时代,信息时代的重要特征是信息的数字化,而数字化的多媒体信息特别是视频信息的数据量之大是惊人的。
例如,1幅64×480分辨率的彩色图像(24比特/像素),其数据量约为0.92MB,如果以每秒30帧的速度播放,则视频信号的数码率高达27.6Mbps。
如果存放在650MB 的光盘中,在不考虑音频信号的情况下,每张光盘也只能播放24秒钟。
因此,视频压缩技术的研究与应用是解决数字化视频存储和传输问题的关键。
近年来,视频压缩技术的进展已经进入多媒体领域的前沿。
新的应用和新的产品几乎每天都会出现,所以在多媒体世界中要订立标准来保证一个制造商提供的设备和服务可以成功地与其他制造商的类似设备一起工作。
现在已经妥善地确立了这方面的一些标准,包括JPEG、MPEG1、MPEG2和H. 330。
现在,大多数采用ISDN的视像会议系统都符合ITU-TH. 320标准,而MPEG2则用在更高档的广播系统。
除JPEG之外,这些标准确定了储存和传送视频和音频信号时压缩这些信号的规则。
现在已经形成这些新标准和压缩算法来减少视频传输所需的带宽。
视频标准具有一些共有的特性,尤其是它们都采用分立余弦变换。
但这些标准又是截然不同的,针对不同的用途,新的标准还会出现,以满足更多的用途。
例如,H. 263是和H. 261有许多相似之处的视频标准,它可以通过普通的电话线进行优质的电视会议。
MPEG4具有新功能改进的压缩比和图像质量。
1视频压缩技术概况视频压缩技术是在数据压缩、数据编码的基础上发展起来的。
国际图像专家组(motionpicture experts group),简称MPEG,是用来压缩视频的主要算法。
MPEG主要有两个国际标准,一是1992年通过的MPEG-1,二是1994年通过的MPEG-2。
同其它视频压缩方式相比,MPEG不仅能进行帧内数据压缩,还实现了帧间数据压缩,并采用了运动补偿技术。
因此,MPEG在保证图象质量不变的情况下,提高了压缩效率,增加了压缩比,降低了数码率。
MPEG-1(国际标准11172)的目标是产生比特率为1.2Mb/s的视频录像质量的输出(NTSC的352*增刊第一作者姓名,等:文章题目- 3 -240)。
为此,需要把472M/s的非压缩视频进行大幅压缩。
电影、电视图象存在两种信息冗余:空间的和时间的。
MPEG-1两者都用。
空间冗余度能通过对每一帧画面进行静象压缩(jpeg)来利用,特别是当需要随机访问每一帧时,如在编辑视频节目时。
在这种模式下,压缩后的带宽可以达到8Mb/s10Mb/s。
MPEG-1通过利用连续帧常常基本相同这一事实来实现额外的压缩。
对于摄像机和背景均静止的场景,仅有一两个演员在场景上缓慢地运动,帧与帧之间几乎所有的象素都相同。
这时仅将每一帧从前一帧中减去,并对不同之处施行静象压缩(JPEG),将会得到很好的效果。
对于摇镜头或快速移动摄像机的场景,MPEG-1使用相应的运动补偿技术。
MPEG-1能输出四种特定的帧信息,分别对静像编码、对帧间差别编码、运动画面补偿以及在快放、快退时显示低分辨率图象。
MPEG-1由音频、视频和集成这两者的系统组成。
在考虑音频流和视频流同步的情况下,将音频流和视频流进行多路复用就能得到MPEG-1输出。
例如,DARIM公司制造的MPEGator视频压缩卡,能将视频信号压缩成比特率为50-3000Kbits/s 的MPG格式文件,图象分辨率可达到352*240SIF(NTSC),352*288SIF(PAL)。
MPG格式文件可通过各种刻录软件制作成VCD光盘。
同时,该压缩卡还能将视频信号压缩成A VI格式文件,可在PRE-MIERE软件上进行非线性编辑。
MPEG-2(国际标准13818)设计为将广播质量的视频压缩到4Mb/s-6Mb/s。
MPEG-2还扩展为支持高分辨率电视HDTV。
MPEG-2与MPEG-1有区别,但基本原理是相同的,MPEG-2是MPEG-1的超集。
发展趋势是:MPEG-1主要用于低端视频产品,在CD-ROM影片上占主导地位;MPEG-2在远程视频传输方面占主导地位,例如,作为电视台卫星转播的速率标准。
MPEG-2支持4种分辨率。
主分辨率(720*480)用于专业广播电视,低分辨率(352*240)用于VCR并与MPEG-1向后兼容,高(1440*1152)、(1920*1080)用于HDTV。
MPEG-2为了用于长距离传输,定义了若干包含音频和视频的基本流,以及音频和视频同步的数据流,每个流首先和时间戳一起被打包。
每个打包器的输出是一个打包的基本流PES(packetized elementary stream)。
音频和视频和可能数据的PES 被多路复用到一个输出流上以便传输。
程序流(program steam)用于公共时基且必须以同步方式显示的基本流的多路复用。
传输流(transport steam)用于非公共时基的基本流的多路复用(包括程序流)。
2视频压缩的方法视频压缩的主要根据在于:一方面视频信号在时间与空间上存在大量冗余,另一方面利用人的视觉特性,在图像变化不被觉察的条件下减少量化信号的灰度级之类,以一定的客观失真换取数据压缩。
视频冗余存在于结构和统计两方面。
在结构上的冗余度表现为很强的空间(帧内)和时间(帧间)相关性。
一般情况下画面的大部分区域信号变化缓慢,尤其是背景部分几乎不变,视频信号在相邻像素间、相邻行间、相邻帧间存在强相关性,这种相关性具体表现为空间冗余和时间冗余。
另外,人眼对图像的细节分辨率、运动分辨率和对比度分辨率的感觉都有一定的界限。
因此可以在一定图像质量范围内,减少表示信号的精度,实现数据压缩。
具体的视频压缩方法有很多分类,根据是否存在信息损失分为无损压缩与有损压缩。
常用的压缩编码方法可以分为三类:熵编码、预测编码、变换编码以及其它编码方法。
2.1熵编码香农定理证明只要符号速率不超过信息容量C,符号可以任意小的差错概率在该信道中传输。
信源所含有的平均信息量(熵)就是进行无失真编码的理论极限,只要不低于此极限,总能找到某种适宜的编码方法逼近熵。
而信源中含有的冗余度源于信源本身的相关性和信源概率分布的不均匀性,只要能去除相关性或改变概率分布的不均匀性,也就找到了信源熵编码的方法,利用信息熵的编码方法主要有霍夫曼编码、行程编码和算术编码。
霍夫曼编码是可变字长编码(VLC)的一种。
是Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头平均长度最短的码字,有时称之为最佳编码,一般为霍夫曼编码。
霍夫曼编码中每一个符号都对应一个码字,总的形成一个码表,接收端与发送端码表相同。
现实中有许多这样的图像,在一幅图像中具有许多颜色相同的图块。
在这些图块中,许多行上都具有相同的颜色,或者在一行上有许多连续的象素都具有相同的颜色值。
这种情况下就不需要存储每一个象素的颜色值,而仅仅存储一个象素的颜色值,以及具有相同颜色的象素数目就可以,或者存储一个象素的颜色值,以及具有相同颜色值的行数。
这种压缩编码称为行程编码(Run Length Encoding,RLE),具有相同颜色并且是连续的象素数目称为行程长度。
算术编码是将被编码的信息映射到实数0与1之间的一个间隔。
信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位数就越多。
算术编码包括基于概率统计的固定模式与非概率统计的自适应模式。
自适应模式各个符号的概率初始值相同,它们依据出现的符号而相应地改变。
只要编码器和译码器使用相同的初始值和改变值方法,它们的概率模型将保持一致。