第八章 图像压缩
(1)“第一代”编码技术
三大经典编码方法
“熵值编码” “预测编码” “变换编码”
“熵值编码”
(概率匹配编码) 主要针对无记忆信源,根据信息码字出 现概率的分布特征,寻找概率与码字长 度间的最优匹配,从而进行压缩编码, 又称为统计编码。 游程编码、Huffman编码和算术编码等 多种。 熵值编码是信息编码的基础,也是各种 实用算法的一个基本组成部分。
图像压缩编码方案),只能用于特定图像场景(如人
的头肩像场景)的压缩。
算法的复杂度
算法的复杂度即指完成图像压缩和解压缩所需的
运算量和硬件实现该算法的难易程度。优秀的压缩算 法要求有较高的压缩比,压缩和解压缩快,算法简单 ,易于硬件实现,还要求解压缩后的图像质量较好。 选用编码方法时一定要考虑图像信源本身的统计特性
从本质上来说就是一种“混合编码”方 案,它在不同阶段根据图像的不同特征 将变换编码、预测编码、无误差编码等 各种方案的优势综合利用起来。 关键是识别图像的特征。 多种方案的复用缩标准JPEG、MPEG等在设计中就 利用了这种思路。
(2)第二代编码技术
“变换编码”
进行某种正交变换来消除像素间的相关性。 可分为最佳变换编码,如K-L变换,以及次 优变换编码,如离散余弦变换(DCT)等。 在实施时,辅助以区域变换编码、门限变换 编码。 基于离散余弦变换的静止图像压缩标准jpeg 和运动图像压缩标准mpeg等一系列标准。
“自适应编码”
3. 编码方法的分类
由压缩恢复的图像与原始图像的差别
“可逆压缩”:编码的数据可完全恢复出原始图 像 “熵编码”(Entropy Coding), “无失真编 码”、“无误差编码”(Error Free Coding) 、无噪声编码”(Noiseless)、“冗 余度压缩 ”(Redundancy Reduction)、 “数据紧缩”( DATA Compaction Lossless Bit-Preserving)。 “不可逆压缩”: “有失真编码”(lossy Coding),采用这类编码方法,由编码数据恢复 的图像与原始图像有区别,图像编码产生的误差 与编码的方法以及压缩比等因素有关。
PCM 预测 编码 编码 算法
固定 固定
自适应 自适应
离散余弦变换 变换编 码
统计 编码 付立叶变换 LZW Huffman编码
KL变换
斜变换
沃尔什 哈达马 小波变换
Harr变换
算术编码
游程编码
方块 静态图像 编码
比特平面 帧内预测
抖动
逐渐浮现 逐层内插
视频 图像
运动估计 帧间编码 内插
帧间预测
运动补偿
3.心理视觉冗余
人类的视觉系统对于图像场的注意是非均匀和非线 性的,特别是视觉系统并不是对于图像场的任何变 化都能感知,即眼睛并不是对所有信息都有相同的 敏感度,有些信息在通常的视觉感觉过程中与另外 一些信息相比来说并不那么重要,这些信息可认为 是心理视觉冗余的,去除这些信息并不会明显地降 低所感受到的图像的质量。 心理视觉冗余的存在是与人观察图像的方式有关的, 人在观察图像时主要是寻找某些比较明显的目标特 征,而不是定量地分析图像中每个像素的亮度,或 至少不是对每个像素等同地分析,人通过在脑子里 分析这些特征并与先验知识结合以完成对图像的解 释过程,由于每个人所具有的先验知识不同,对同 一幅图像的心理视觉冗余也就因人而异。 动态图像的视觉延迟现象
、多媒体系统的适应能力、应用环境以及技术标准。
8.3 信息论要素
Cr= n1/ n2
冗余量 Rd 可表示为:
Rd=1-1/Cr
数据冗余的类型
编码冗余 像素间冗余 心理视觉冗余
1、编码冗余(信息熵冗余)
“码本”是表示一组信息或一组事件的一系列 符号(如字母、数字等)。其中对每个信息或 事件所赋予的符号成为“码字”,每个码字含 有的基本符号的个数称为“码长”。 设l(rk)为码字rk的码长,在二进制表示时称为 “比特数(bits)”,Pr(rk)为码字的出现概率。 若编码系统共有L种不同的码字,则系统可获得 的平均比特数为: L 1
0.16 0.08
0.21 0.03 0.19
011 100
101 110 111
3 3
3 3 3 3
1100 1101
1110 111100 111101
4 4
4 6 6 3.78
1100 1101
01 111100 10
4 4
2 6 2 2.8
2、像素间冗余
像素的灰度级和颜色之间具 有相关性,随机场模型 (1)空间冗余:规则物体和规 则背景的表面物理特性具有相 关性。 (2)时间冗余:序列图像
第八章 图像压缩 Image compression
图像编码
Image Coding
压缩目的 基本原理 基本方法 图像编码标准
减少数据量:存储量、传输时间
例1:一般彩色电视信号,YIQ色空间中各分量的带宽 分别为4.2MHz、1.5MHz、0.5MHz,采样原理, 采样频率>=2倍原始信号频率,量化为8bit,1秒 钟的数据量为(4.2+1.5+0.5)*2*8=99.2MBits, 约为100Mbits/S。 HDTV数据量约为1.2GBits/S, 彩色静止图像:3*1024*1024*8=3MB,
码字以二进制形式表示,比特(bit)
D((101),(110))=2
汉明:将3个比特位的冗余加到4比特的码字上,任意 两个正确码字间的距离为3,可发现和校正错误。
2. 图像编码压缩要研究的主要内容
信源压缩方法
信源模型有关 编码模型
逼真度准则或失真度准则
平方误差准则 基于主观感受的逼真度准则
1/ 2
原图像编码每个像素平均所需bit数 / 压缩后像素平均所需bit数
主观保真度准则
尽管客观保真度准则提供了一种简单方便的信息损 失的方法,但是很多解压图像最终是供人观看的,有 时单用某一个或几个解析式来度量图像品质,甚至得 到与主观评估相反的结果,这样就造成采用这些解析 公式得到的定量的逼真度的可信度低,造成逼真度不 能从理论上完满解决的根本原因在于人眼视觉感知得 到的信息传输到神经系统的处理、判别过程不清楚, 而这又涉及到生物物理学、生物化学以及生态光学等 领域的成就,至今还不能提供这一过程的满意回答 (这也是当今计算机视觉的一个前沿课题,目前正在 研究发展中)。
2 [ g ( x , y ) f ( x , y )] x 0 y 0
N 1 N 1
(2)均方根信噪比:
( SNR) rms
(3)压缩比=
N 1 N 1 2 g ( x, y ) x 0 y 0 N 1 N 1 [ g ( x, y ) f ( x, y )]2 x 0 y 0
空间冗余
时间冗余
(3)结构冗余:纹理结构有些图像存在较强的纹理
结构,如墙纸、草席等图像,称之存在结构冗余
(4)知识冗余:人脸的固定结构。有许多图像的理
解与某些基础知识有相当大的相关性,例如人脸的图 像有固定的结构,比如说嘴的上方有鼻子,鼻子的上 方有眼睛,鼻子位于正脸图像的中线上等等,这类规 律性的结构可由先验知识和背景知识得到,称此类冗 余为知识冗余。
8.2 图像压缩模型
编码器
图像 采集
图像 显示或 存储
信源 编码
信道 编码
图 像 通信
信源 解码
信道 解码
解码器
1. 基本概念
信源
需要传输或存储的原始信息称为“信源”。包括 语音、图像、视频等信息源。 “信源编码”的主要任务是利用一定的编码方法 降低数码率,即比特率。 信息传输的通路; 信息在传输中要增加可靠性、抗干扰能力,就要 进行“信道编码”,此时要进行奇偶校验等检测, 需要增加比特数。抗干扰能力越强,增加的比特 数就越多。
的大体上的优劣,而对“内行”人即具有图像处理经验的人来 说,更多的是注意图像中细节的退化程度,所以这种主观评估 法应使“外行”和“内行”分开进行。
主观保真度准则标准
评分 评价 说明
1
2 3 4 5 6
极好
好 可用
图像质量非常好,和希望的一样好
图像质量高,观看舒服,有干扰但不 影响观看
图像质量可接受,有干扰但不太影响 观看 勉强可 图像质量差,干扰有些影响观看,希 以 望改进 差 图像质量很差,干扰严重妨碍观看 不能用 图像质量极差,不能使用
rk r0=0 r1=1/7 r2=2/7 pr(rk) 0.02 0.25 0.06 编码1 000 001 010 L1(rk) 3 3 3 编码2 00 01 10 L2 (rk) 2 2 2 编码3 111101 00 1110 L3 (rk) 6 2 4
r3=3/7 r4=4/7
r5=5/7 r6=6/7 r7=1 平均码长
要充分利用人的视觉生理、心理特征和图 像信源的各种特征,实现从“波形”编码 到“模型”编码的转变,以便获得更高压 缩比。 向量量化编码、基于分形的编码、基于模 型的编码、基于区域分割的编码、基于神 经网络的编码以及识别编码和基于知识的 编码等。
(3)过渡编码技术
充分利用人类视觉特性的“多分辨率编码” 方法,如子带编码、金字塔形编码和基于 小波变换的编码。 这类方法原理上仍属于线性处理,属于 “波形”编码,可归入经典编码方法,但 它们又紧密结合人类视觉系统的特性,因 此可以被看作是“第一代”编码技术向 “第二代”编码技术过渡的桥梁。