当前位置:文档之家› 第10讲 信源编码的性能指标

第10讲 信源编码的性能指标

第10讲 信源编码的性能指标1. 无失真信源编码的冗余度压缩原理为了压缩冗余度,必须改造信源输出符号的统计特性。

一方面要尽量提高任一时刻输出符号的概率分布的均匀性,另一方面要尽量消除前后输出符号的统计相关性。

因此,无失真信源编码的实质是将信源尽可能地改造为均匀分布的无记忆信源。

这种信源的通信效率是最大的。

改造后的新信源是由原信源和编码器共同组成的,称为编码后的信源。

设f 是信源S 的一个编码,X 是编码后的信源,则三者之间的关系表示如下f S X −−→信源编码f 所用的码元可以与信源S 的符号不同,一般是某个信道的输入符号。

从数据处理这个角度来看,编码f 是一个数据处理器,输入信源S 的数据,输出信源X 的数据。

从通信的角度看,编码f 是一个信道,输入信源S 的数据,输出信源X 的数据。

无失真信源编码的目的是无损压缩,即用尽可能少的数据表示数据中的所有信息,不能破坏数据原有信息。

这相当于提高信息传输效率,使之接近于1。

因此,度量无失真编码的压缩性能可以看编码后信息传输效率,称为编码效率。

编码效率越接近于1,无损压缩性能越好。

下面介绍信源编码的5个性能指标,包括平均码长、码率、编码效率、编码冗余度和压缩率。

2. 平均码长平均码长是信源编码的一个关键的性能指标。

在已知信源熵的前提下,根据平均码长,可以计算出无损压缩编码的码率和编码效率。

定义2.1 设f 是一个N-分组码,各码字的码长分别记为,1i l i q ≤≤,对应的N 长分组的概率为i p ,则f 的平均码长定义为11(/ qi ii L p l N ==∑码元信源)注:在有的教材中,当平均码长的单位转化为“比特/信源”时,称为编码速率。

本课程用不到这个概念。

讨论:用平均码长估计编码后的数据长度设S 是一个离散无记忆信源,:f S C →是信源S 的一个编码,其平均码长为L 。

令12n s s s s =⋯是一个信源序列。

假设用f 对该数据进行编码,试估计编码后码元序列的长度。

对于信源数据12n s s s s =⋯,我们令L i 表示信源符号s i 所对应的码字f (s i )的长度,则编码后的数据长度为12+++n L L L 。

我们把L i 视为随机变量,则对于任何i ,我们有[]i E L L =。

因为S 是离散无记忆的,所以{L i }是独立同分布随机序列。

根据辛钦大数定理,我们有121+++)P n L L L L n −−→( 这表明,编码后的数据长度可以估计为nL ,并且n 越大,这个估计的越精确、可信。

我们把上述结论推广如下。

定理2.2 (无失真编码的数据长度定理)设S 是具有AEP 性质的信源,f 是S 的一个平均码长为L 的无失真N -分组码。

假设在编码f 下,某数据在编码前的长度为n 信源,在编码后的长度为m 码元,则()P m L n n−−→→∞ 意义:信源序列长度n 越大,编码后所得的码元序列的长度越有可能近似于 ()nL 码元。

3. 码率和编码效率定义3.1 码率(code rate ):编码后的信息传输率H ∞(X ),记为R ,单位是“比特/码元”。

下列定理给出了无失真编码的码率计算公式。

定理3.2 设S 是具有AEP 性质的信源,f 是信源S 的无失真编码。

若S 的熵率为H ∞,f 的平均码长为L ,则f 的码率为H R L∞= 证明:记编码后的信源为X 。

根据定义,X 的熵率为码率R 。

用S k , X k 分别表示信源S 和X 所产生的信源序列中的第k 个符号。

根据渐近等分性定理,121() (1)P n I S S S H n ∞−−→由于S 具有渐近等分割性,易知X 也具有渐近等分割性。

于是我们有121() (2)P m R I X X X m−−→ 其中12m X X X 为12n S S S 经编码后的码元序列,故有1212()()n m I S S S I X X X =. 根据依概率收敛的性质,由(1)和(2)得P H m n R ∞−−→码.再由前面的编码后数据长度定理,P m L n−−→. 于是我们得L R H ∞=码,即R H L∞=码。

证毕定义3.2 编码效率(code efficiency ):对于编码f 来说,编码后信源X 的信息传输效率称为f 的编码效率,记为f η。

因此,()()0f X H X H X ηη∞==码率和编码效率是信源编码的两个重要性能指标,其值越大,则编码的数据压缩能力越强。

注意,对于无失真信源编码来说,提高编码效率与数据压缩是一回事。

而对于限失真信源编码来说,除了通过提高编码效率来实现数据压缩之外,还通过量化方法缩小信源熵率,为后面的无失真压缩提高更大的压缩空间。

提问:(1)码率与编码效率的的最大值分别是多少?(2)试确定码率与编码效率的之间的数量关系。

答:(1)码率最大值=码元最大熵H 0(X ),从而最大编码效率= H 0(X ) /H 0(X )=1。

(2)编码效率=码率/码元最大熵。

定义3.3编码冗余度:度量信源编码与理想编码之间的差距,定义为编码冗余度=最大码率-码率编码相对冗余度=编码冗余度 / 最大码率=1-编码效率4. 压缩率根据第8讲的渐近等分割性定理,对于足够长的的数据,我们有如下近似关系:≈数据信息量数据长度信源熵率数据越长,该近似关系越准确和可信。

根据该近似关系,读者可以看出,在信息量不变的前提下,熵率越大,数据越短。

因此,提高熵率所带来的结果就是数据压缩。

压缩效果用压缩率来度量,定义为=编码后的数据长度压缩率编码前的数据长度(1)数据压缩率:对于一个数据x ,其以比特为单位的长度称为x 的比特数,记为l (x )。

x经过编码后的比特数记为L (x )。

x 的在此编码下的压缩率(也称压缩比)定义为()()()L x x l x ρ= (2)无失真信源编码压缩率:教材上都没有定义。

能否给出一个合理的定义?设f 是信源S 的无失真编码,s 是S 的一个信源序列,x 是在编码f 下所得的码元序列。

令s 的长度是n ,即nH 0(S )比特。

令x 的长度是m ,即mH 0(X )比特。

则s 在f 下的压缩率为()()00mH X nH S根据渐近等分割性,我们有()()P I s H S n ∞−−→和()()P I x H X m∞−−→ 由于编码是无失真的,故I (s )=I (x )。

因此,()()P H S m n H X ∞∞−−→ 0000()()()()()()P mH X H S H X nH S H X H S ∞∞−−→ 即00()()P S XmH X nH S ηη−−→ 其中S η是信源S 的信息传输效率, X η是编码后信源X 的信息传输效率,即编码效率。

这个收敛关系表明,当信源序列足够长时,其数据压缩率很有可能近似于信源效率比上编码效率。

因此,这个常数可以度量编码f 的压缩效果。

因此,我们定义无失真信源编码的压缩效率如下:无失真信源的压缩效率=信源效率/编码效率因此,编码效率越大,则压缩能力越强。

(3)信源的极限压缩率:数据是不可能被无限压缩下去的,总存在各自的极限。

我们讨论信源数据的压缩极限。

假设信源S 的熵率H ∞在某编码下被提高到了最大值H 0,则该编码的压缩性能达到理论允许的极限。

此时压缩率为00H I I H H H ∞∞≈=编码后的数据长度数据的信息量数据的信息量编码后的信息速率编码前的信息速率编码前的数据长度 因此,信源的相通信效率0H H ∞是信源数据的压缩率期望的极限。

我们把这个极限称为信源极限压缩率。

5.信源的最优无失真编码根据上面的计算公式,编码效率与平均码长是反比例关系。

这表明,缩短平均码长与提高编码效率是同一回事。

因此,对于无失真编码来说,数据压缩与提高编码效率是同一回事。

编码效率越接近于1,编码的压缩能力越强。

因此,在某信源的所有无失真编码中,我们把其中编码效率达到1的编码称为该信源的最优无失真编码。

这为无失真编码的设计工作指明了努力的目标。

一般来说,由于编码的离散性,这个目标是永远达不到的,但是可以无限地接近。

因此,一般来说,信源编码没有最好,但有更好。

(当编码效率=1时,编码后的信源是均匀分布的无记忆信源。

要做到这一点,信源编码必须消除原信源的记忆性,即前后输出符号之间的统计相关性,并且要让编码后的信源在任何时刻输出符号的概率分布是均匀的。

对于一般的信源来说,其任何编码都不可能完全做到这一点,绝对最优的信源编码是不存在的。

)如果把上述最优编码称为绝对最优编码的话,还有一种相对最优编码,其定义如下。

定义5.1在信源S的所有r-元N-分组无失真编码中,平均码长最小的称为S的最优r-元N-分组无失真编码。

注:(1)一个信源的r-元N-分组码是有限多的,所以其中一定存在最优码。

(2)比较两个不同元数的编码的平均码长时,其单位要化为相同的单位后才可以比较。

无失真信源编码理论的核心问题就是寻找最优无失真编码。

根据编码效率与平均码长的反比关系,要提高编码效率只需缩短平均码长即可,这是实现无失真编码的数据压缩功能的唯一途径。

下一讲我们将重点讨论这个问题。

这里我们先了解最优编码的两个简单性质。

命题5.2 最优编码是概率匹配编码,即信源符号的概率越小,对应的码字长越大。

证明设f是信源U的最优的1-分组编码。

令U的n个符号的分别为a i,对应的概率为p i,在某编码下,对应码字长为l i。

假设存在两个符号a i,a j,有p i >p j且l i > l j, 则p i l i + p j l j > p i l j+ p j l i 。

因此,对调a i与a j的码字后,可以得到平均码长更小的编码。

这与f的最优性矛盾。

证毕命题5.3最优编码充分用短字符串作为码字。

设f是某信源的最优编码,最大码字长为L,则任何长度小于L的串一定是f的某个码字的前缀。

证明留给读者。

证毕6.本讲要点小结1)平均码长的定义和物理意义。

2)平均码长的应用:(1)估计无失真编码的码元序列长度≈信源序列长度×平均码长这表明,无失真编码的平均码长越小,压缩能力越强。

(2)计算无失真编码的码率=信源熵/平均码长(3)计算无失真编码的效率=码率/码元最大熵=信源熵/(平均码长×码元最大熵)这表明,编码效率与平均码长是反比关系,从而无失真编码的数据压缩功能与提高信息传输率的功能是一致的。

3)无失真编码的绝对最优性和相对最优性:(1)绝对最优性:编码效率=1的无失真编码是该信源的绝对最优无失真编码。

一般不存在,是可以逼近的理想目标。

(2)相对最优性:在所有元数固定且分组长度也固定的无失真编码中,编码效率最大或者平均码长最小的码是相对最优无失真编码。

相关主题