音视频编解码技术
22
量化的方法通常有标量量化和矢量量化
1
标量量化
标量量化是对经过映射变换后的数据或 PCM数据逐个进行量化,在这种量化中, 所有采样使用同一个量化器进行量化,每个 采样的量化都与其他采样无关,故也称为零 记忆量化。 标量量化又有均匀量化、非均 匀量化和自适应量化之分.
23
点数
(-255~255)
(c) 图给出了非均匀量化处理的示 意,这时的量化箱不等宽,中间大概 率处箱窄,两边小概率处箱宽。同样 量化为8级,但非均匀量化的误差小于 均匀量化误差。
27
标量量化的量化特性采用阶梯形函数的 形式。图2.2给出了几种均匀量化器的量化特 性
y
yi+1 yi
xi xi+1
y
y
x
x
x
(a)中平型
(b)中升型
29
当输入信号的概率分布密度函数分布 不均匀时,最佳的量化器应是一个非均 匀量化器。 图2.3给出了一个非均匀量化特性的 例子。
y
x
图2.3
非均匀量化特性
30
2
矢量量化
这是近年来发展起来的一种新的编码 方法,是一种有损的编码方案,其主要思想 是先将输入的语音信号按一定方式分组,再 把这些分组数据看成一个矢量,对它进行量 化。每组形成的矢量看成一个元素,又叫码 字,这些码字排列起来,就构成了一个表(码 表),这样在接收端放置同样的码表,当接收 到码字的下标信息后,就可以通过查表的到 码字信息。
25
(b)图给出了均匀量化处理的示意, W1 ~W8为8个等宽的量化箱,其宽度总 和等于输入的动态范围-255~255也相 应地划分成8个相同的区间,每个区间对 应一个量化箱。第k个区间内的中心函数 值对应第k个量化箱的量化值,其量化级 定义为“k”级,该区间内的所有输入均 被定义为“k”级。
26
i=1
n
式中,n为数据或码元的个数,p(x i ) 为码元x i 发生的概率。
8
为使单位数据量D接近或等于H,应设
其中b(x i)为分配给码元x i 的比特数。 理论情况下,应取
但实际上很难确定各码元的概率,因此, 一般总取 b(x1)= b(x2)= ...= b(x n),即 分配给每个码元的比特数相等(等长码),这样 所得的D必然大于H,从而形成了信息冗余。
13
5
视觉冗余
人类的视觉系统由于受生理特性的限制 ,对于图像场的任何变化并不是都能感知 。例如,对图像的压缩或量化而引入的噪 声能使图像发生一些变化,如果这些变化 并不能被视觉所感知,则忽略这些变化后 ,仍认为图像是完好的。事实上,人的视 觉系统一般的分辨能力约为26灰度等级, 而图像量化一般采用28灰度等级,这样的 冗余就称为视觉冗余。
式中,xi为判决电平,yi为输出电平,N 为量化器的量化级数。
21
量化器输出幅度与输入幅度之差,称 为量化误差,其均方误差值为
σ
2}= =E{[ x - Q ( x )] e
2
∫ Σ i=1
N
xi+1 2p(x)dx ( x - y ) i xi
式中,p(x) 为量化器输入信号x的概率分 布密度。
31
编码
解码
i
搜索器 输入矢量 传送矢量 下标i 查表 输入矢量
码本Y
码本Y
图2.5 矢量量化编码解码框图
输入量是一个待编码的矢量xi(i=1, 2, …, m),即先 将图像分割成m个方块,其中任一方块i的大小为k( k=n2),以行(或列)便可堆叠成k维矢量xi:(xi1, xi2, …, xik)。码本Y:(y1, y2, …, yN)是一个码字集合,它实 际上是一个长度为N的表,表中任一分量yi是一个k维 矢量,称为码字。 32
1
教学目标 掌握数据压缩的重要意义 掌握数据冗余的概念、分类及信息熵的 计算公式 了解数据压缩的三个关键指标,即压缩 比、图像质量、压缩和解压缩的速度 掌握Huffman编码原理、方法及特点 了解预测编码和变换编码原理 熟知音频压缩标准 掌握图像压缩标准JPEG和MPEG
2
内容导航 2.1 多媒体数据压缩基本原理
14
6
知识冗余
由图像记录方式与人对图像的知识之 间的差异所产生的冗余称为知识冗余。 例如 人脸的图像就有固定的结构,鼻子位于脸的
中线上,上方是眼睛,下方是嘴等
又如 建筑物的门和窗的形状、位置、大小比例 等,这些规律的结构可由先验知识和背景知识得到 。
我们可以构造其基本模型,并创建对应各种特征 的图像库,进而图像的存储只需要保存一些特征参数, 就可以大大减少数据量。
9
数据冗余的类别 1 空间冗余
这是图像数据中经常存在的 一种冗余。在同一幅图像中, 规则物体和规则背景的表面 物理特性具有相关性,这些 相关的光成像结构在数字化 图像中就表现为数据冗余。
10
2
时间冗余
这是序列图像和语音数据中所经常包 含的冗余。序列图像一般是位于一时间轴 区间的一组连续画面,前后帧之间具有很 强的相关性。当播放该图象序列时,随着 时间的推移,若干帧画面的某些地方发生 了变化,但有的部位却没有变化,这就形 成了时间冗余。
图像质量 图像质量评估法常采用主观评估和客观 评估两种方法。
主观评估 是通过一种具体的算法来统计多媒体 数据压缩结果的评估方法 具体做法是:由若干人对所观测的重建图像 的质量按很好、好、尚可、不好、坏五个等级评 分,然后计算出平均分数MOS
1
38
2 客观评估 是通过一种具体的算法 来统计多媒体数据压缩结果的评估方法
33
此方法以输入矢量与选出的码字之 间失真最小为依据,与标量量化相比, 它有更大的数据压缩比。但其关键问题 是设计一个良好的码本。
34
2.1.5 数据压缩算法的综合评价指标 数据压缩方法的优劣主要由所能达到 的压缩倍数、从压缩后的数据所能恢复 (或称重建)的图像(或声音)质量、 以及压缩和解压缩的速度等几方面来评 价。此外,算法的复杂性和延时等也是 应当考虑的因素。
35
压缩的倍数
压缩的倍数也称压缩率,通常有两 种衡量的方法: 1 由压缩前与压缩后的总的数据量之比来表示 例如,一幅1024×768像素点组成的黑 白图像,每像素具有8bit,通过使其分辨率降 低为512×384,又经数据压缩使每个像素平 均仅用0.5bit,则压缩倍数为64倍,或称其压 缩率为1:64。
矢量量化编码过程就是从码字集合中选 出最紧密适配于输入矢量xi的一个码字yi的 过程。在码本中找到与输入矢量xi完全一 致的码字yi的概率很小,但只要两者之间 的误差最小时,便可用该码字yi来代表输 入矢量xi。传输时并不传送码字yi本身,而 只传送其下标号“i”。当码本长度为N时 ,传送下标所需的比特数为log2N。于是传 送一个像素所需的平均比特数为 (1/k)· log2N。
多媒体信息数据巨大是多媒体计算机系统所面 临的最大难题之一。在各种媒体信息中,视频信息 数据量最大,其次是音频信号,因此,为了处理和 传输多媒体信息不仅需要很大的存储容量,而且要 有很高的传输速度. 激光唱盘 CD 的采样频率为 44.1kHz,量化位数 一幅640× 480 中等分辨率的真彩色位图图像 为16位,双通道立体声,则 1秒的音频数据量为 的数据量为 640×480×24/8= 0.92MB,若以25幅/s 176.4KB,一个 650MB 的光盘仅能存储不足 60分钟 的帧频播放 ,数据率为 23MB/s ,用容量为650MB 的 的音频数据。 CD-ROM 光盘只能存29s的PAL制式数据。 5
15
7
其他冗余
如图像的空间非定常特性所带来的冗余。
另外,空间冗余和时间冗余是将信号看 作概率信号时所反应出的统计特性,因此 有Βιβλιοθήκη 也称这两种冗余为统计冗余。16
2.1.3 图像压缩预处理技术 图像数据压缩的任务是在不影响或少 影响图像质量的前提下,尽量设法减少图 像数据中的数据量。 图像数据中存在各种冗余,数据压缩的首 要任务就是去除各种冗余数据。当然删除冗余 数据必然会给图像质量带来一定的损失,这就 需要进行相应的预处理,来保证将这种损失降 至最低限度。
2 1
数据压缩的可能性 音频信号和视频图像的数字化数据可 以进行数据压缩是基于以下两种事实:
信息的冗余度 如空间冗余、时间冗余、信息 熵冗余、结构冗余、知识冗余等。
1
2
人的视觉、听觉特性
人的听觉特征表现出对部分音频信号不敏感,如人 人的视觉特征表现为对亮度信息很敏感而对边 的听觉具有一个强音能抑制一个同时存在的弱音现象, 缘的急剧变化不敏感; 而且,人耳对低频端比较敏感,而对高频端不太敏感。 因此,完全可以利用这些特性去除一些多余 及不敏感的信息,从而实现对数据的压缩。 6
17
图像预处理的技术主要有以下几种: 二次抽样 滤波器 量化 预测编码 运动补偿 变长码 图像内插法
18
2.1.4 量化及其质量
量化的概念与原理
量化是将具有连续幅度值的输入信号转换 为只具有有限个幅度值的输出信号的过程。 就一般而言,量化是模拟信号到数字信号 的映射。模拟信号是连续量,而数字信号是离 散量,因此量化过程实际上就是用有限的离散 量代替无限的连续量的多对一的映射过程。
(a) 灰度差
(b)
W1
W2
W3
W4
W5
W6
W7
W8
(c)
W1
W2 W3 W4 W5 W6 W7 图2.1 量化过程示意图
W8
24
其中,(a)图是待量化的函数,是一
幅图像的灰度差值直方图。其灰度范围为0
~255,灰度差的范围为﹣255~255,需要
log2512=9位表示一个输入。当限定输出量 化级为8时,量化输出用log28=3位即可
19
一般的量化过程是预先设置一组判决电 平和与其对应的一组码字,再将整个有效 值区间划分成若干个子区间(也即量化级 ),每个子区间对应一个判决电平。量化 时将模拟量的采样值与这些判决电平比较 ,若采样值幅度落在某一子区间上,则将 它量化为该量化级对应的码字。