当前位置：文档之家› 字典算法

字典算法

LZ77编码算法的核心是查找从前向缓冲器开始的最长的匹配串。

算法的具体执行步骤如下：
◆把编码位置设置到输入数据流的开始位置。

◆查找窗口中最长的匹配串。

◆输出(Pointer， Length) Characters，其中Pointer是指向窗口中匹配串的指针，Length表示匹配字符的长度，
Characters是前向缓冲器中的第1个不匹配的字符。

◆如果前向缓冲器不是空的，则把编码位置和窗口向前移Length+1个字符，然后返回到步骤2。

例：待编码的数据流如表03-05-1所示，编码过程如表03-05-2所示。

现作如下说明：
1)“步骤”栏表示编码步骤。

2)“位置”栏表示编码位置，输入数据流中的第1个字符为编码位置1。

3)“匹配”栏表示窗口中找到的最长的匹配串。

4)“字符”栏表示匹配之后在前向缓冲存储器中的第1个字符。

“输出”栏以(Back_chars， Chars_length) Explicit_character格式输出。

其中(Back_chars， Chars_length)是指指向匹配串的指针，告诉译码器“在这个窗口中向后退Back_chars个字符然后拷贝Chars_length个字符到输出”，Explicit_character是真实字符。

例如，表3-13中的输出“(5，2) C”告诉译码器回退5个字符，然后拷贝2个字符“AB”
表03-05-1 待编码的数据流
表03-05-2 编码过程
（三）解压算法
对于LZ77压缩文本的解压很简单。

解压算法必须保存解压输出的最后N个字符。

当碰到编码字符串时，解压算法使用<指针>，和<长度>，字段将编码替换成实际的正文字符串。

LZSS编码算法的具体执行步骤如下：
把编码位置置于输入数据流的开始位置。

在前向缓冲器中查找窗口中最长的匹配串
①Pointer ：=匹配串指针。

②Length ：=匹配串长度。

判断匹配串长度Length是否大于等于最小匹配串长度(MIN_LENGTH) ，
如果“是”：输出指针，然后把编码位置向前移动Length个字符。

如果“否”：输出前向缓冲存储器中的第1个字符，然后把编码位置向前移动一个字符。

如果前向缓冲器不是空的，就返回到步骤2。

例：编码字符串如表03-05-3所示，编码过程如表03-05-4所示。

“输出”栏的输出为：
①如果匹配串本身的长度Length >= MIN_LENGTH，输出指向匹配串的指针，格式为(Back_chars， Chars_length)。

该指针告诉译码器“在这个窗口中向后退Back_chars个字符然后拷贝Chars_length个字符到输出”。

②如果匹配串本身的长度Length >= MIN_LENGTH，则输出真实的匹配串。

表03-05-3 输入数据流
表03-05-4 编码过程(MIN_LENGTH = 2)
在相同的计算环境下，LZSS
为开发新算法的基础。

许多后来开发的文档压缩程序都使用了LZSS的思想，例如PKZip，ARJ，LHArc和ZOO等等，其差别仅仅是指针的长短、窗口的大小等有所不同。

LZSS同样可以和熵编码联合使用，例如ARJ就与霍夫曼编码联用，而PKZip则与Shannon-Fano联用，它的后续版本也采用霍夫曼编码
LZ78编码的具体算法如下：
步骤1：在开始时，词典和当前前缀P都是空的；
步骤2：当前字符C：=字符流中的下一个字符；
步骤3：判断P+C是否在词典中
(1) 如果“是”：用C扩展P，让P：= P+C ；
(2) 如果“否”：
①输出与当前前缀P相对应的码字和当前字符C；
②把字符串P+C添加到词典中；
③令P：=空值；
(3) 判断字符流中是否还有字符需要编码
①如果“是”：返回到步骤2；
②如果“否”：若当前前缀P不是空的，输出相应于当前前缀P的码字，然后结束编码。

(二) 译码算法
在译码开始时译码词典是空的，它将在译码过程中从码字流中重构。

每当从码字流中读入一对码字-字符(W，C)对时，码字就参考已经在词典中的缀-符串，然后把当前码字的缀-符串string.W和字符C输出到字符流(Charstream)，而把当前缀-符串(string.W+C)添加到词典中。

在译码结束之后，重构的词典与编码时生成的词典完全相同。

LZ78译码的具体算法如下：
步骤1：在开始时词典是空的；
步骤2：当前码字W：=码字流中的下一个码字；
步骤3：当前字符C：= 紧随码字之后的字符；
步骤4：把当前码字的缀-符串(string.W)输出到字符流，然后输出字符C；
步骤5：把string.W+C添加到词典中；
步骤6：判断码字流中是否还有码字要译
(1) 如果“是”，就返回到步骤2；
(2) 如果“否”，则结束。

表03-05-5 编码字符串
表03-05-6 编码过程
LZW编码算法的具体执行步骤如下：
步骤1：开始时的词典包含所有可能的根(Root)，而当前前缀P是空的；
步骤2：当前字符(C) ：=字符流中的下一个字符；
步骤3：判断缀-符串P+C是否在词典中
(1) 如果“是”：P：= P+C ，即用C扩展P)；
(2) 如果“否”
①把代表当前前缀P的码字输出到码字流;
②把缀-符串P+C添加到词典;
③令P：= C ，即现在的P仅包含一个字符C;
步骤4：判断码字流中是否还有码字要译
(1) 如果“是”，就返回到步骤2；
(2) 如果“否”
①把代表当前前缀P的码字输出到码字流;
②结束。

LZW译码算法的具体执行步骤如下：
步骤1：在开始译码时词典包含所有可能的前缀根(Root)；
步骤2：cW：=码字流中的第一个码字；
步骤3：输出当前缀-符串string.cW到码字流；
步骤4：先前码字pW：= 当前码字cW；
步骤5：当前码字cW：= 码字流中的下一个码字；
步骤6：判断先前缀-符串string.pW是否在词典中
(1) 如果“是”：
①把先前缀-符串string.pW输出到字符流；
②当前前缀P：=先前缀-符串string.pW；
③当前字符C：=当前前缀-符串string.cW的第一个字符；
④把缀-符串P+C添加到词典；
(2) 如果“否”：
①当前前缀P：=先前缀-符串string.pW；
②当前字符C：=当前缀-符串string.cW的第一个字符；
③输出缀-符串P+C到字符流，然后把它添加到词典中。

步骤7：判断码字流中是否还有码字要译
(1) 如果“是”，就返回到步骤4；
(2) 如果“否”，结束。

在编码原理上，LZW与LZ78相比有如下差别：①LZW只输出代表词典中的缀-符串(String)的码字(code word)。

这就意味在开始时词典不能是空的，它必须包含可能在字符流出现中的所有单个字符，即前缀根(Root)。

②由于所有可能出现的单个字符都事先包含在词典中，每个编码步骤开始时都使用一字符前缀(one-character prefix)，因此在词典中搜索的第1个缀-符串有两个字符。

表03-05-9 被编码的字符串
表03-05-10 LZW的编码过程
表03-05-11解释了译码过程。

每个译码步骤译码器读一个码字，输出相应的缀-符串，并把它添加到词典中。

例如，在步骤4中，先前码字(2)存储在先前码字(pW)中，当前码字(cW)是(4)，当前缀-符串string.cW是输出(“A B”)，先前缀-符串string.pW ("B")是用当前缀-符串string.cW ("A")的第一个字符，其结果("B A") 添加到词典中，它的索引号是(6) 。

表03-05-11 LZW的译码过程。

e商务文档

字典算法

相关文档推荐：