当前位置:文档之家› 信源编码和信源解码

信源编码和信源解码

信源编码和信源解码
字、符号、图形、图像、音频、视频、动画等各种数据本身的编码通常称为信源编码,信源编码标准是信息领域的基础性标准。

无论是数字电视、激光视盘机,还是多媒体通信和各种视听消费电子产品,都需要音视频信源编码这个基础性标准。

大家用电脑打字一定很熟悉,当你用WORD编辑软件把文章(DOC文件)写完,存好盘后,再用PCTOOLS工具软件把你的DOC文件打开,你一定能看到你想象不到的东西,内容全是一些16进制的数字,这些数字叫代码,它与文章中的字符一一对应。

现在我们换一种方法,用小画板软件来写同样内容的文章。

你又会发现,用小画板软件写出来的BMP文件,占的内存(文件容量)是DOC文件的好几十倍,你知道这是为什么?原来WORD编辑软件使用的是字库和代码技术,而小画板软件使用的是点阵技术,即文字是由一些与坐标位置决定的点来组成,没有使用字库,因此,两者在工作效率上相差几十倍。

[信源]->[信源编码]->[信道编码]->[信道传输+噪声]->[信道解码]->[信源解码]->[信宿]
目前模拟信号电视机图像信号处理技术就很类似小画板软件使用的点阵技术,而全数字电视机的图像信号处理技术就很类似WORD编辑软件使用的字库和代码技术。

实际上这种代码传输技术在图文电视中很早就已用过,在图文电视机中一般都安装有一个带有图文字库的译码器,对方发送图文信号的时候只需发送图文代码信息,这样可以大大地提高数据传输效率。

对于电视机,显示内容是活动图像信息,它哪来的“字库”或“图库”呢?这个就是电视图像特有的“相关性”技术问题。

原来在电视图像信号中,90%以上的图像信息是互相相关的,我们在模拟电视机中使用的Y/C(亮度信号/彩色信号)分离技术,就是利用两行图像信号的相关性,来进行Y/C分离。

如果它们之间内容不相关,Y/C信号则无法进行分离。

全数字信号电视也一样,如果图像内容不相关,则图像信号压缩也就要免谈。

如果图像内容有相关性,那么上一幅图像的内容就相当于下一幅图像的“图形库”,或一幅图像中的某部分就是另一部分的“图形库”,因此,下一幅图像或图像中某一个与另一个相关的部分,在发送信号时,只需发送一个“代码”,而传送一个“代码”要比送一个“图形库”效率高很多,显示时也只需把内容从“图形库”中取出即可,这就是MPEG图像压缩的原理。

利用电视信号的相关性,可以进行图像信号压缩,这个原理大家已经明白,但要找出图像相关性的内容来,那就不是一件很容易的事情,这个技术真的是太复杂了。

为了容易理解电视图像的相关性,我们不妨设想做一些试验,把图像平均分成几大块,然后每一块,每一块的进行比较,如果有相同的,我们就定义它们有相关性;如果没有相同的,我们继续细分下去,把每大块又分成几小块,一直比较下去,最后会发现,块分得越细,相同块的数目就越多,但分得太细需要的代码也增多,所以并不是分得越细越好。

我们在看VCD的时候经常发现,如果VCD读光盘数据出错,就会在图像中看到“马赛克”,这些“马赛克”就是图像分区时的最小单位,或把数码相片进行放大,也可以看到类似“马赛克”的小区,这就是数码图像的最小“图形库”,每个小“图形库”都要对应一个“代码”。

在单幅图像中找出相关性的几率并不是很大的,所以对单幅图像的压缩率并不很大,这个通过观察数码相片的容量就很容易明白,如果把寻找相关性的范围扩大到两幅图像,你就会发现,具有相关性的内容太多了,这是因为运动物体对于人的眼睛感觉器官来说,是很慢
的,如果很快,人的眼睛就看不清楚,看不清楚的东西就不能算成图像。

电视机每秒钟向人们演示图像是50次或以上(PAL为50次,NTSC为60次),如果你的眼睛是个摄影机,你也无法感觉到图像的微小变化,这就表明相邻两幅图像的相关性非常大,而图像之间相隔距离较远时,其图像的相关性才逐步减小,并且这种相关性很强的图像变化时,一般都是有规律的,也就是说每一幅图像的变化是可以预测的。

实际上在上一幅图像的基础上乘以一个带有方向的系数,即左、右、上、下移动,就可以得到一幅运动图像的新图像。

这里顺便指出,上面说到的一幅图像,并不是特指人们从电视机显示屏上看到的整幅画面,而是可大可小的一部分。

利用图像的可预测性,可以大大的提高“图形库”的利用律,即很多幅图像都可以公用一个“图形库”。

MPEG在传送图像时就是这样,对于高速变化的图像,如果时间来得及(即码率不是很高时),就传送新的内容来显示,如果来不及(即码率很高时)就用“图形库”中的内容来顶替(即预测),反正高速运动的图像人们也看不清。

例如:MPEG在传送5幅图像时,可能只传其中的3幅(时间来得及时),也可能只传两幅(时间来不及时),具体过程是,先传第1和第5幅,然后时间来得及就传第3幅,时间来不及就插第3幅(根据1和5预测3),最后再插第2幅(根据1和3预测2),和第4幅(根据3和5预测4)。

上面我们只是从感性上和很肤浅的对图像压缩的原理进行了分析,如果我们把上面的分析内容移到数学领域,那么我们将要面对非常多的西格玛“∑”(求和)和矩阵符号。

顺便介绍一下,对数字电视图像压缩处理最出名的理论是:DCT(Discrete Cosine Transform)离散余弦变换(付立叶变换),和DPCM差动脉冲编码调制,还有哈夫曼编码(Huffmancoging)。

图像信号的压缩过程也是数字电路(或计算机)对数字信号的处理过程,计算机虽然很聪明,但它只会做加法运算。

其它的减法、乘法、除法还有函数运算,计算机都是把它们转换成加法进行运算。

付立叶先生60年前可能就预见到了我们要对数字信号进行处理,所以他发明了付立叶变换。

其原理是:一个周期函数可以展开成无数个正弦或余弦函数之和,函数的周期越短其(级数)收敛就越快,周期越长其收敛就越慢。

对于上面我们分析的图像信号,全部都可以看成是周期函数信号。

相关性很强的图像信号可看成是短周期信号,相关性很弱的图像信号可看成是长周期信号。

因此,经过付立叶变换后的信号,只需对展开成级数的各项系数(一般只取前几项)进行处理和传送。

DPCM差动脉冲编码调制也有人叫预测编码,它的定义是:在线性预测编码中,首先用过去的若干像素值对当前像素值进行线性预测,然后将其差值进行PCM编码传送,接收端将此差值积分而再生图像;哈夫曼编码也叫可变长编码,它对出现概率大的差值信号编以短码,对概率小的差值信号编以长码,哈夫曼编码可获得最小的平均码长。

在数字电视技术中,除了图像需要压缩以外,声音也要压缩,但声音压缩要比图像压缩简单很多,因为声音的信息量比起图像的信息量来,少得可怜。

人的耳朵能听到声音的频率范围是20Hz到20kHz,如果我们把20Hz到20kHz按照一定的频带宽度分成很多个频率通道,用来对声音进行过滤和处理,就能对声音信号进行压缩。

这个频率通道就相当于,歌曲中的谐音:多、来、米、发、梭、拉、妻、多(12345671)。

声音压缩的原理也是利用“字库”的概念,在信号的译码端,安装有很多个与信号发送编码端对应的频率发生器(如12345671谐音器)。

另外声音还有一个屏蔽效应,就是,人的耳朵对某个频率范围的声音灵敏度特别高(600Hz附近),对一些频率却很低(低频和高
频);还有,如果有几种声音同时存在,声音大的内容很容易听到,而声音很小的东西要非常注意才能听到(对数特性)。

利用这些特点,在编码的时候就可以分长码和短码来对不同的内容进行编码,对主要声音内容用长码,对次要内容用短码——这叫有所为和有所不为。

经过多种方法对声音信号压缩处理后,声音信号传送的码率可变得非常低,即压缩比非常大。

声音信号压缩的原理可以比喻成,某人想听某钢琴家弹钢琴,一种方法是把钢琴家连同钢琴都请到家来;另一种方法是,只请钢琴家而用自己的钢琴进行演奏;再有一种方法是,只需对方把曲谱寄过来,而用自己的钢琴和家人来演奏,显然是最后一种方法最简便。

在全数字信号电视系统中,图像信号和音频号之所以能压缩,并不完全是信源编码端的功劳,接收端译码器的功劳也非常大,没有译码器强大的数据处理功能,图像信号和音频信号的压缩是不可能的。

其实从信源端发送给接收端,真正属于图像内容的信息并不多,大部分都是“补丁”(差值),和“指令”(代码),译码器通过对这些数据进行加工,不断地更新自己的“数据库”(图形库),然后重新编码输出,最后进行D/A转换,输出音视频。

目前图像压缩标准有MPEG1、MPEG2、MPEG4、MPEG7,根据用途的不同压缩方法和码率也不一样。

MPEG1用于VCD,清晰度很低,但码率也很低;MPEG2用于SDTV或HDTV,清晰度很高,但码率也很高;MPEG4本来准备用于可视电话,它压缩比很高,码率也很低,活动图像质量比MPEG2差,但它可以在电脑上进行标清节目显示,所以有人准备把它进行升级来替代MPEG2或更高版本(JVT);MPEG7用于图书馆档案查询,压缩比非常高,码率很低。

声音压缩标准现在较常用的有杜比和AC3两种。

我们国家目前也想自己搞一套音视频压缩编码标准AVS(Audio Video coding Standard),AVS1.0的标准准备与新的国际音视频标准JVT(Joint Video Team)兼容,性能与MPEG4的升级版本差不多,这个AVS标准是否成功,取决于国内IC生产厂家愿不愿意跟进,和政府扶植的力度。

相关主题