当前位置:文档之家› 第4章 无损数据压缩

第4章 无损数据压缩

第4章无损数据压缩数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩。

无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。

一个很常见的例子是磁盘文件的压缩。

根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4。

一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。

有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。

有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。

例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。

本章主要介绍目前用得最多和技术最成熟的无损压缩编码技术,包括包含霍夫曼编码、算术编码、RLE编码和词典编码。

对于不打算开发压缩技术和编写压缩程序的读者可不必深究编译码的详细过程。

4.1 香农-范诺与霍夫曼编码香农-范诺编码算法需要用到下面两个基本概念:1. Entropy(熵)的概念1.熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。

2.某个事件的信息量用表示,其中为第个事件的概率,2. 信源S的熵的定义按照仙农(Shannon)的理论,信源S的熵定义为其中是符号在S中出现的概率;表示包含在中的信息量,也就是编码所需要的位数。

例如,一幅用256级灰度表示的图像,如果每一个象素点灰度的概率均为,编码每一个象素点就需要8位。

[例4.1] 有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和E 表示,40个象素中出现灰度A的象素数有15个,出现灰度B的象素数有7个,出现灰度C 的象素数有7个等等,如表4-01所示。

如果用3个位表示5个等级的灰度值,也就是每个象素用3位表示,编码这幅图像总共需要120位。

H(S) = (15/40) ⨯(40/15) + (7/40) ⨯(40/7) + ∙∙∙ + (5/40) ⨯(40/5) =2.196这就是说每个符号用2.196位表示,40个象素需用87.84位。

最早阐述和实现这种编码的是Shannon(1948年)和Fano(1949年),因此被称为仙农-范诺(Shannon- Fano)算法。

这种方法采用从上到下的方法进行编码。

首先按照符号出现的频度或概率排序,例如,,,,和,如表4-02所示。

然后使用递归方法分成两个部分,每一部分具有近似相同的次数,如图4-01所示。

按照这种方法进行编码得到的总位数为91。

压缩比约为1.3 : 1。

表4-02 Shannon-Fano算法举例表(图4-01 香农-范诺算法编码举例4.1.2 霍夫曼编码霍夫曼(Huffman)在1952年提出了另一种编码方法,即从下到上的编码方法。

现仍以一个具体的例子说明它的编码步骤:1.初始化,根据符号概率的大小按由大到小顺序对符号进行排序,如表4-03和图4-02所示。

2.把概率最小的两个符号组成一个节点,如图4-02中的D和E组成节点P1。

3.重复步骤2,得到节点P2、P3和P4,形成一棵“树”,其中的P4称为根节点。

4.从根节点P4开始到相应于每个符号的“树叶”,从上到下标上“0”(上枝)或者“1”(下枝),至于哪个为“1”哪个为“0”则无关紧要,最后的结果仅仅是分配的代码不同,而代码的平均长度是相同的。

5.从根节点P4开始顺着树枝到每个叶子分别写出每个符号的代码,如表4-03所示。

6.按照仙农理论,这幅图像的熵为H(S) = (15/39) ⨯(39/15) + (7/39) ⨯(39/7) + ∙∙∙ + (5/39) ⨯(39/5) = 2.1859压缩比1.37:1。

表4-03 霍夫曼编码举例图4-02 霍夫曼编码方法霍夫曼码的码长虽然是可变的,但却不需要另外附加同步代码。

例如,码串中的第1位为0,那末肯定是符号A,因为表示其他符号的代码没有一个是以0开始的,因此下一位就表示下一个符号代码的第1位。

同样,如果出现“110”,那么它就代表符号D。

如果事先编写出一本解释各种代码意义的“词典”,即码簿,那么就可以根据码簿一个码一个码地依次进行译码。

采用霍夫曼编码时有两个问题值得注意:①霍夫曼码没有错误保护功能,在译码时,如果码串中没有错误,那么就能一个接一个地正确译出代码。

但如果码串中有错误,哪仅是1位出现错误,不但这个码本身译错,更糟糕的是一错一大串,全乱了套,这种现象称为错误传播(error propagation)。

计算机对这种错误也无能为力,说不出错在哪里,更谈不上去纠正它。

②霍夫曼码是可变长度码,因此很难随意查找或调用压缩文件中间的内容,然后再译码,这就需要在存储代码之前加以考虑。

尽管如此,霍夫曼码还是得到广泛应用。

与仙农-范诺编码相比,这两种方法都自含同步码,在编码之后的码串中都不须要另外添加标记符号,即在译码时分割符号的特殊代码。

此外,霍夫曼编码方法的编码效率比仙农-范诺编码效率高一些。

请读者自行验证。

4.2 算术编码算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。

在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。

信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。

编码过程中的间隔决定了符号压缩后的输出。

算术编码器的编码过程可用下面的例子加以解释。

[例4.2] 假设信源符号为{00, 01, 10, 11},这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 },根据这些概率可把间隔[0, 1)分成4个子间隔:[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7,1),其中表示半开放间隔,即包含不包含。

上面的信息可综合在表4-04中。

表4-04 信源符号,概率和初始编码间隔如果二进制消息序列的输入为:10 00 11 00 10 11 01。

编码时首先输入的符号是10,找到它的编码范围是[0.5, 0.7)。

由于消息中第二个符号00的编码范围是[0, 0.1),因此它的间隔就取[0.5, 0.7)的第一个十分之一作为新间隔[0.5, 0.52)。

依此类推,编码第3个符号11时取新间隔为[0.514, 0.52),编码第4个符号00时,取新间隔为[0.514,0.5146),… 。

消息的编码输出可以是最后一个间隔中的任意数。

整个编码过程如图4-03所示。

图4-03 算术编码过程举例这个例子的编码和译码的全过程分别表示在表4-05和表4-06中。

根据上面所举的例子,可把计算过程总结如下。

考虑一个有M个符号的字符表集,假设概率,而。

输入符号用表示,第个子间隔的范围用表示。

其中,和,表示间隔左边界的值, 表示间隔右边界的值,表示间隔长度。

编码步骤如下:步骤1:首先在1和0之间给每个符号分配一个初始子间隔,子间隔的长度等于它的概率,初始子间隔的范围用[,)表示。

令,和。

步骤2:L和R的二进制表达式分别表示为:和其中和等于“1”或者“0”。

比较和:①如果,不发送任何数据,转到步骤3;②如果,就发送二进制符号。

比较和:①如果,不发送任何数据,转到步骤3;②如果,就发送二进制符号。

…这种比较一直进行到两个符号不相同为止,然后进入步骤3,步骤3:加1,读下一个符号。

假设第个输入符号为,按照以前的步骤把这个间隔分成如下所示的子间隔:令,和,然后转到步骤2。

表4-05 编码过程表4-06 译码过程[例3] 假设有4个符号的信源,它门的概率如表4-07所示:表4-07 符号概率概率输入序列为。

它的编码过程如图4-04所示,现说明如下。

输入第1个符号是,可知,定义初始间隔[,)=[0.5, 0.75),由此可知,左右边界的二进制数分别表示为:L=0.5=0.1(B),R =0.7=0.11… (B) 。

按照步骤2,,发送1。

因,因此转到步骤3。

输入第2个字符,,它的子间隔,)=[0.5, 0.625),由此可得=0.125。

左右边界的二进制数分别表示为:L=0.5=0.100 …(B),R=0.101… (B)。

按照步骤2,,发送0,而和不相同,因此在发送0之后就转到步骤3。

输入第3个字符,,, 它的子间隔[,)=[0.59375, 0.609375),由此可得=0.015625。

左右边界的二进制数分别表示为:=0.59375=0.10011 (B),=0.609375=0.100111 (B)。

按照步骤2,,,,但和不相同,因此在发送011之后转到步骤3。

…发送的符号是:10011…。

被编码的最后的符号是结束符号。

图4-04 算术编码概念就这个例子而言,算术编码器接受的第1位是“1”,它的间隔范围就限制在[0.5, 1),但在这个范围里有3种可能的码符, 和,因此第1位没有包含足够的译码信息。

在接受第2位之后就变成“10”,它落在[0.5, 0.75)的间隔里,由于这两位表示的符号都指向开始的间隔,因此就可断定第一个符号是。

在接受每位信息之后的译码情况如下表4-08所示。

表4-08 译码过程表在上面的例子中,我们假定编码器和译码器都知道消息的长度,因此译码器的译码过程不会无限制地运行下去。

实际上在译码器中需要添加一个专门的终止符,当译码器看到终止符时就停止译码。

在算术编码中需要注意的几个问题:1.由于实际的计算机的精度不可能无限长,运算中出现溢出是一个明显的问题,但多数机器都有16位、32位或者64位的精度,因此这个问题可使用比例缩放方法解决。

2.算术编码器对整个消息只产生一个码字,这个码字是在间隔[0, 1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。

3.算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。

算术编码可以是静态的或者自适应的。

在静态算术编码中,信源符号的概率是固定的。

在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。

需要开开发态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。

当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效的方法是在编码过程中估算概率。

因此动态建模就成为确定编码器压缩效率的关键4.3 RLE编码现实中有许多这样的图像,在一幅图像中具有许多颜色相同的图块。

相关主题