当前位置：文档之家› 04数据压缩基础

04数据压缩基础

源编码──不可逆压缩──有失真编码特征提取等
两种压缩技术不互斥，两种压缩技术的结合，可以达到最高可能的压缩率。
多媒体数据压缩技术分类
无损压缩是指使用压缩后的数据进行重构 (或者叫做还原，解压缩)，重构后的数据与原来的数据完全相同；无损压缩用于要求重构的信号与原始信号完全一致的场合。
有损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不会使人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。
3.接收端需保存一个与发送端相同的霍夫曼码表。
霍夫曼(Huffman)编码
字母 A B C D E
频率 25% 15% 10% 20% 30%
编码 01 110 111 10 00
信源消减信源符号集 B = {b1 , b2 , b3 , b4} 概率矢量 u = {0.1，0.38，0.22，0.3} 步骤1：信源消减
算数编码练习
初始信源： a1：0.1， a2：0.4， a3：0.5，码串：a1，a1，a2，a3
游程RLE编码
RLE(run length encoding）编码的概念
00000000 111 888 • • • • • • 888 1111 00000000
8个 0 3个 1 50个 8 4个 1 8个 0
用RLE编码方法得到的代码为：80315084180。
代码中用黑体表示的数字是行程长度，黑体字后面的数字代表象素的颜色值。例如黑体字50代表有连续50个象素具有相同的颜色值，它的颜色值是8。
译码时按照与编码时采用的相同规则进行，还原后得到的数据与压缩前的数据完全相同。
词典编码
词典编码的思想
第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过，然后用已经出现过的字符串替代重复的部分，它的输出仅仅是指向早期出现过的字符串的“指针”。
词典编码
词典编码的思想
第二类算法的想法是企图从输入的数据中创建一个“短语词典 (dictionary of the phrases)”，这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。
无损数据压缩
主要介绍目前用得最多和技术最成熟的无损压缩编码技术，包括：
霍夫曼编码算术编码游程编码RLE 词典编码LZW
霍夫曼(Huffman)编码
霍夫曼(Huffman)在1952年提出了另一种编码方法，即从下到上的编码方法。
几个个问题值得注意： 1.霍夫曼码没有错误保护功能；
2.霍夫曼码是可变长度码，因此很难随意查找或调用压缩文件中间的内容，然后再译码;
初始信源：
a1：0.1， a2：0.4， a3:：0.06， a4: 0.1， a5： 0.04， a6： 0.3.
练习
练习
算术编码
只需要用到加法和位移运算从整个符号序列出发
算术编码不再是块码，采用递推形式连续编码
ቤተ መጻሕፍቲ ባይዱ术编码的特点：
1种从整个符号序列出发，采用递推形式连续编码的方法
不存在源符号和码字间的一一对应关系
压缩的必要性
音频、视频的数据量很大，如果不进行处理，计算机系统几乎无法对它进行存取和交换。
例如，一幅具有中等分辨率（640×480）的真彩色图像（24b/像素），它的数据量约为7.37Mb/帧，一个 700MB（Byte）的硬盘只能存放约100帧图像。若要达到每秒25帧的全动态显示要求，每秒所需的数据量为184Mb，而且要求系统的数据传输率必须达到184Mb/s。对于声音也是如此，若采用16b样值的PCM编码，采样速率选为 44.1kHZ，则双声道立体声声音每秒将有176KB的数据量。
霍夫曼码改型
霍夫曼(Huffman)编码
依赖于信源的统计特性，必须先统计得到信源的概率特性才能编码，这就限制了实际的应用。
缺乏构造性，即它不能用某种数学方法建立起消息和码字之间的一一对应关系，而只能通过某种查表的方法建立起它们的对应关系。
如果消息数目很多，那么所需存储的码表也很大，这将影响系统的存储量及编、译码速度。
步骤2：对信源符号赋值平均码长 L avg=1.946
霍夫曼码的特点 1，块码（组码） 2，即时码 3，唯一可解码
霍夫曼码改型
亚最优牺牲编码效率来换取编码速度
截断霍夫曼码
前M个符号用霍夫曼编码其余用前缀码+定长码（自然码）
平移霍夫曼码
分组：相同符号数用霍夫曼编码编第1组其余组用平移符号+第一组霍夫曼码
数据压缩基础
数据压缩编码技术概述
多媒体数据压缩的必要性和可行性
衡量多媒体数据压缩技术的指标：压缩比算法简单，压缩解压缩速度快尽可能地恢复原始数据
压缩方法分类无损压缩：Huffman编码、游程编码、算术编码、LZW编码有损压缩：预测编码、变换编码、模型编码、基于重要性的编
码、混合编码
新一代的数据压缩方法：矢量量化和子代编码、基于模型的压缩、分形压缩、小波变换压缩等等。
数据压缩的好处
时间域压缩──迅速传输媒体信源频率域压缩──并行开通更多业务空间域压缩──降低存储费用能量域压缩──降低发射功率
数据压缩技术实现的衡量标准
压缩比要大恢复后的失真小压缩算法要简单、速度快压缩能否用硬件实现
多媒体数据压缩技术分类
平均信息量编码──可逆压缩──去冗余 ──统计特性
1个算术码字要赋给整个信源符号序列，而每个码字本身确定了0和1之间的1个实数区间
算术编码过程只需用到加法和移位运算
算术编码
码串： b1； b2； b3； b4
b4=0.3 b3=0.22 b2=0.38 b1=0.1
0.000010012 0.0351562510
算术编码
在算术编码中需要注意的几个问题： 1. 由于实际计算机精度不可能无限长，运算中溢出是明显的问题，但多数机器都有16位、32位或者64位的精度，因此可使用比例缩放法解决。 2. 算术编码器对消息只产生一个码字，这个码字是在[0, 1)中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。 3. 算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。

e商务文档

04数据压缩基础

相关文档推荐：