第2章离散信息的度量本章主要内容(1)自信息的概念(2)平均自信息的概念(信源熵的概念)(3)互信息的概念(4)平均互信息的概念(5)相对熵的概念在通信系统中,信源发出的不同消息携带不同的信息量,不同的信源输出信息的能力也不同;同一消息通过载体信号在不同的信道中传输后,接收端获得的信息量不同,不同的信道传递信息的能力也不同。
为了衡量一个通信系统质量好坏,必须有一些评价标准。
例如误码率、接收信噪比、传信率等。
而系统的传信率就是指单位时间内信道所传递的信息量。
为了评价系统的传信率,必须对消息或信源所含有的信息有一个数量上的度量方法。
这就是我们要研究信息度量的目的。
本章将介绍信息度量的一些基础概念。
2.1自信息信源发出的消息的形式可以是语言、文字、公式、数据、声音、图像等等。
信源发出信息,通过信道传送信息。
假如学生上课时,教师在全部时间内仅反复说一句同样的话。
显然,从后面教师(信源)发出的同一句话(消息)中,学生(信宿)得不到任何信息。
同样的,把“2008年在北京召开了奥运会”这样一则消息告诉大家,那么大家也不会从中获得任何信息。
从这些例子我们可以看出,学生要想再课堂上获得信息,必须要从教师那里学到事先不知道的知识。
也就是说,对于信宿来说,使其获得解惑的是消息中的未知部分,借助通信,信宿明确了原来不明确的一些事情,获得了一些信息。
一则消息包含有多少信息量,通过理想信道传输后信宿就可以获得多少信息量(或说消除了多少不确定性)。
2.1.1 自信息的定义绪论中我们给出了香农对于信息的定义:信息是客观事物存在方式或运动状态的不确定性的描述。
一般地说,信源要发出的消息的状态应该存在着某种程度的不确定性,通过通信,将信息传给了收信者,收信者得到信息之后,消除了不确定性。
这里所说的不确定性,也就是随机性,不确定性程度可以直观地看成是猜测某些随机事件是否会发生的难易程度。
我们可以用概率统计方法来描述随机事件发生后提供信息的大小。
即概率大的事件,出现的可能性大,不确定性小,事件发生后带给我们的信息量就少。
反之,小概率事件出现的可能性小,不确定性大,事件发生后带给我们的信息量就多。
定义2.1 随机事件i x 的自信息量定义为()log ()=-i r i I x p x(2.1)由定义可以看出,随机事件所含信息量的多少用消息出现概率的对数的负值来表示。
下面我们借助通信过程的研究来分析自信息量的含义。
对应在通信系统中,信源发出消息(符号)i x 的概率为()i p x ,则i x 含有的自信息量即为)(i x I ,正确传输,收信者就可以获得)(i x I 这么多的信息量。
而通信过程发生前,信源发出的消息存在某种不确定性,借助通信,信宿明确了原来不明确的一些事情,获得了一些信息。
通信过程消除掉的不确定性越多,信宿获得信息量就越大。
所以通信系统中,自信息量)(i x I 的含义可以由两方面来理解:(1) 表示信源发出符号i x 前,发出符号i x 的不确定性的大小;(2) 表示信源发出符号i x 后,符号i x 提供的信息量的多少。
由定义我们可以绘制出自信息量的函数曲线如图2.1所示。
图2.1 自信息量由图中我们可以看出(1) 自信息量非负,即()0i I x ≥。
(2) 消息i x 的自信息量是消息i x 出现概率()i p x 的单调递减函数,即若12()()p x p x <,则有12()()I x I x >。
(3) 当()0i p x =,()i I x →∞;当()1i p x =,()0i I x =。
自信息量的单位与所用对数的底有关,常用的底数有2、e (自然对数)和10,相应的单位分别为比特(bit ,binary unit)、奈特(nat ,natural unit )和哈特莱(Hart ,Hartley )。
三个信息单位之间的转换关系如下:1nat=2log e ≈1.433 bit1Hart 2log 10=≈3.322 bit同理有1 r 进制单位2=log r bit如果使用底为r 的对数,自信息量的单位就是r 进制单位。
本书如无特殊说明,一般选用对数底为2,因而自信息的量纲一般用比特表示。
若取底数为2时,对数的底常省略。
【例2.1】一副充分洗乱了的扑克牌(52张),问:(1) 任一特定排列所给出的信息量是多少?(2) 若从中抽出4张牌,花色各不相同时得到的信息量是多少?解 (1) 设任一特定排列为事件i x ,则有221()log ()log 52!=-=-=i i I x p x 225.6 bit 加入底数2 (2) 设抽出4张花色各不相同的牌为事件b ,则有 42245213()log ()log =-=-=j j I y p y C 3.5 bit 加入底数2 2.1.2 条件自信息的定义通信系统中,人们关心的是发送符号i x 经传输输出符号j y 的概率多大?或反之,在接收端收到符号j y 后,能以多大概率判断发送的符号为i x ?也就是说我们还要关心条件概率问题以及相应的条件自信息问题。
定义2.2 事件j y 在事件i x 给定的条件下的条件自信息量为(/)log (/)j i j i I y x p y x =- (2.2)通信系统中,设信源发出符号i x 后,信宿收到符号j y 的概率为(/)j i p y x ,则已知发端发送符号i x 的条件下,收端收到符号j y 的条件事件的信息量即为条件自信息量(/)j i I y x 。
通信系统中,条件自信息量(/)j i I y x 的含义可以由两方面来理解:(1) 表示在信源发出符号i x 条件下,信宿收到符号j y 的不确定性的大小;(2) 表示在信源发出符号i x 条件下,信宿收到符号j y 后获得的信息量的多少。
【例2.2】一副充分洗乱了的扑克牌(52张),问:(1) 第一次取出一张牌为红桃,求第二次取出一张牌仍为红桃的事件所给出的信息量是多少?(2) 第一次取出一张牌为红桃,求第二次取出一张牌仍为梅花的事件所给出的信息量是多少?解 (1) 设第一次取出一张红桃的事件为a ,第二次取出一张红桃的事件为b ,则有2212(/)log (/)log 2.0951I b a p b a bit =-=-= (2) 设第一次取出一张红桃的事件为a ,第二次取出一张梅花的事件为c ,则有2213(/)log (/)log 1.9751I c a p c a bit =-=-= 2.1.3 联合自信息的定义定义2.3 事件i x 和事件j y 的联合概率为()i j p x y ,则定义i x 和j y 的联合自信息量为()log ()i j i j I x y p x y =- (2.3)通信系统中,若信源发出符号i x 后,信宿收到符号j y 的联合概率为()i j p x y ,则发端发送符号为i x ,同时信宿所收符号为j y 的联合事件的信息量即为联合自信息量()i j I x y 。
【例2.3】一副充分洗乱了的扑克牌(52张),问:(1) 求“第一次取出一张红桃,第二次取出一张红桃”的事件所给出的信息量是多少?(2) 求“第一次取出一张红桃,第二次取出一张梅花”的事件所给出的信息量是多少? 解 (1) 设第一次取出一张红桃的事件为a ,第二次取出一张红桃的事件为b ,则有221312()log ()log 5251I ab p ab =-=-⨯= 4.09 bit (2) 设第一次取出一张红桃的事件为a ,第二次取出一张梅花的事件为c ,则有221313()log ()log 5251I ac p ac =-=-⨯= 3.97 bit 我们对自信息、条件自信息和联合自信息的关系进行简单分析。
第一次取出一张红桃的事件a 发生的概率为41,那么1()log 4I a =- bit = 2 bit ,由例题2.2和例题2.3可知(/)I b a = 2.09 bit ,()I ab = 4.09 bit ,因此我们可以得到如下关系)/()()(a b I a I ab I += (2.4)利用联合概率和条件概率之间的关系可以很容易得到式(2.4)的结论,即两个相关事件a 和b 共同给出的联合自信息量等于事件a 提供的自信息量与已知a 后b 再发生提供的条件自信息量之和。
同理)/()()(b a I b I ab I +=。
当事件a 和b 相互独立时,有)()()(b I a I ab I += (2.5)2.2平均自信息2.2.1 平均自信息的定义通过前面分析我们知道信源发出消息时含有不确定性,例如天气预报作为信源,它具体给出未来的天气情况是有多样性的,可以是阴晴雨雪等等情况,信源究竟要选出哪一种天气情况作为发出的消息存在不确定性。
对于某个消息,它的不确定性可以用前面学习的自信息来度量,那么信源的不确定性如何度量呢?或者说信源它输出信息能力的大小如何 度量呢?这就是我们要介绍的平均自信息,又称信息熵或信源熵。
为了便于说明问题,我们举个例子:有一个布袋,装有对人手的感觉完全一样的球,但颜色不同,每种颜色球的数量也不同。
现在要问在下面三种情况下不确定程度的大小:(1)布袋中装有99个红球,1个白球,随意从布袋中拿出一个球,猜测是红球还是白球。
首先我们可以肯定:这样的一个信源发出消息具有不确定性,因为拿出一个球可能是红的,也可能是白的。
但我们很容易猜测出它大概是红球,因为红球多,所以猜测的难度不大,当然不确定程度也不大。
(2)布袋中装有红球白球各50个,这时猜测从布袋中随意拿出一球是红球还是白球的难度就要比第一种情况大。
因为这时红球、白球一样多,不好猜,所以这种情况下信源发出的消息不确定程度较大。
(3)布袋中装有红、白、黑、黄四种颜色的球各25个,这时猜测从布袋中随意拿出一球的颜色的难度就更大,因为这时更难猜测。
所以此种情况下的不确定性更大。
从这个简单的例子中,我们可以很容易看出信源的不确定程度与信源所包含的随机事件的可能状态数目和每种状态的概率有关。
由于信源具有不确定性,所以把信源用随机变量来表示,用随机变量的概率分布来描述信源的不确定性。
而信源的不确定程度可以用这个概率空间的可能状态数目及其概率来描述。
设离散信源X ,其概率空间为⎥⎦⎤⎢⎣⎡====⎥⎦⎤⎢⎣⎡)(,),(),(,,,)(2121q q x p x p x p x X x X x X X P X ΛΛ 1)(1=∑=q i i x p 定义 2.4 随机变量X 的每一个可能取值的自信息的数学期望定义为信源的平均自信息量,即1()[()]()log ()qi i i i H X E I x p x p x ===-∑ (2.6)对于q 元信源,其熵常简记为12()(,,,)()q H X H p p p H P ==u r L ,当2q =时,若令一个概率为p ,则另一个概率为1p -,熵函数可以简记为()H p 。