当前位置:
文档之家› 信息论_举例讲解(信息量、熵及互信息量)
信息论_举例讲解(信息量、熵及互信息量)
X6
x7
110
111
1/16
1/16
0
0
0
0
0
0
I ( x3 ;011) log
p ( x3 011) p ( x3 )
单位为比特
1 log 3 1 8
熵是信源平均不确定性的度量, 一般情况下,它并不等于信宿所获得 的平均信息量,只有在无噪情况下,二 者才相等.为此我们需要学习条件熵. 同时我们由条件熵引出平均互信息量 的概念,其可以用来衡量一个信道的 好坏.
H X 0.5 log0.5 0.5 log0.5 1
H Y 0.99 log0.99 0.01log0.01 0.08
H ( X ) 2 1 log 1 2 1 log 1 4 1 log 1 2.75(比特/符号) 4 4 8 8 16 16
信息论基础
信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。 信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。 研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
第三次测量获得的信息量:
1 1 I ( p3 ( x)) I ( p 4 ( x)) log log 1 0 1(bit) p3 ( x ) p4 ( x)
故共需要3bit信息量.
信源熵
前面我们根据信源或信宿的概率模型,通过 自信息量的计算,能得到信源以及信宿中每个消 息的不确定性。然而,事实上,人们往往关注的 并不紧紧是每个消息的不确定性,而是整个系统 的不确定性的统计特性即整个信源自信息量的统 计平均值——熵。 我们先来看一个例子: 例3 有两个信源X和Y:
I ( x y ) log p( x y )
def
(比特)
计算条件自信息量的例子
例5 在二进制对称信道BSC中,若信道转移概 x/ y 0 1 率矩阵为: py x 0 0.875 0.125
1 0.125 0.875
计算下列条件自信息量(若p(0)=p(1)=1):
当我们收到消息y,它是否由x发出也有一定的 不确定性p(x|y),其大小为条件自信息量:
I(x|y)=-log p(x|y)
两者之间的差就是我们通过这一次通信所 获得到的信息量的大小。
同样,收到的消息为y具有不确定性p(y),其 大小为y的自信息量:
I(y)=-log p(y)
当我们发出消息x,它是否收到y也有一定的不 确定性p(y|x),其大小为条件自信息量:
I ( x 0 | y 1), I ( y 1 | x 0), I ( y 1 | x 1)
[解答]由已知条件可得:
1 p( x 0 | y 1) , 8 1 p( y 1 | x 0) , 8 7 p( y 1 | x 1) . 8
由量 条的 件定 自义 信得 息
离散集自信息量的性质
因此,某事件x发生所提供的信息量I(x) 应该是该事件发生的先验概率p(x)的函数: I(x)=f(p(x)) 且应满足以下四点: (1)I(x)应该是事件概率p(x)的单调递减函数; (2)信息量应具有可加性:对于两个独立事件, 其信息量应等于各自信息量之和; (3)当p(x)=1时,I(x)=0:表示确定事件发生得 不到任何信息; (4)当p(x)=0时,I(x)=∞:表示不可能事件一旦 发生,信息量将无穷大。
计算互信息量的例子
例5 设信源中含有8个消息,其先验概率如下 图,试求当我们收到011所能获取到的信息量, 即计算互信息量I(x3;011).
信源消息 x0 x1 X2 X3 码字 000 001 010 011 先验概率 1/4
收到0后 1/3 1/3 1/6 1/6 收到01后 0 0 1/2 1/2 收到011后 0 0 0 1
计算熵的例子
例4 计算下面一个信源的熵:
xi 000 001 1/4 010 1/8 011 1/8 100 1/16 101 1/16 110 1/16 111 1/16 q(xi) 1/4
[解]由定义有:
我们再回过头来看一下例3中两个信源熵分 别是多少, 结果反映了一个怎样的事实? [例3解答]由定义有:
I(y|x)=-log p(y|x)
两者之间的差也是我们通过这一次通信所 获得到的信息量的大小。
互信息量
很显然,从通信的角度来看,上述两个差 值应该相等,即:
I ( x) I ( x | y ) I ( y ) I ( y | x)
事实上,由概率论概率的乘积公式有:
p ( x, y ) p ( x ) p ( y | x ) p ( y ) p ( x | y )
条件熵的定义
设X是信源的消息集,Y是信宿消息集, 对条件自信息量I(x|y)取统计平均值得 到条件熵H(X|Y),即:
H X Y p ( x, y )I ( x y ) p ( x, y ) log p ( x y )
def x y x y
其中p(x,y)为联合概率,p(x|y) 为条件概率.
故:
p( x | y ) p ( y | x) I ( x) I ( x | y ) log log I ( y ) I ( y | x) p( x) p( y)
这样,用I(x;y)或I(y;x)记该差式, 称为x与y之间的互信息量,单位也为比特。
互信息量的性质
一、对称性:I(x;y)=I(y;x),其通信意 义表示发出x收到y所能提供给我们的信 息量的大小; 二、当x与y统计独立时,I(x;y)=I(y;x)=0, 表示这样一次通信不能为我们提供任何信 息. 上述两条性质与我们实际情况非 常吻合.
1
1
单位为比特
[解法二]直接计算得:
信源消息 x0 x1 X2 X3 X4 X5 码字 000 001 010 011 100 101 先验概率 1/4 1/4 1/8 1/8 1/16 1/16 消息后验概率 收到0后 1/3 1/3 1/6 1/6 0 0 收到01后 0 0 1/2 1/2 0 0 收到011后 0 0 0 1 0 0
例1:信源消息X={0,1,2} 的概率模型如下:
xi
P(xi)
0
1/3
1
1/6
2
1/2
则该信源各消息的自信息量分别为:
xi P(xi) I(xi) 0 1/3 log3 1 1/6 log6 2 1/2 log2
单位:比特
自信息量的涵义
自信息量代表两种含义: 一、事件x发生以前,I(x)表示事件x发生的不 确定性;
二、当事件x发生以后,I(x)表示事件x所提供 的信息量(在无噪情况下)。 在通信系统模型中,不仅可以用自信息量来 研究信源中的每个消息,对信宿也可同样可以。
自信息量计算的应用
例2:假设一条电线上串联了8个灯泡x1,x2,…,x8, 这8个灯泡损坏的可能性是等概率的,假设有也只 有一个灯泡损坏,用万用表去测量,获得足够的信 息量,才能获知和确定哪个灯泡xi损坏。下面就来 看我们最少需要获得多少信息量才能判断出。
def xi X
p( x ) I ( x ) p( x ) log p( x )
i i i i xi
熵的单位是比特/符号. 我们知道,I(xi)是唯一确定xi所需要的信 息量,那么H(X)就是唯一确定X中任一事件所需 的平均信息量。它反映了X中事件xi出现的平均 不确定性。
熵的几条性质
I ( x 0 | y 1) log 8 3, I ( y 1 | x 0) log 8 3, I ( y 1 | x 1) log 8 log 7.
单位为比特
我们知道,在通信之前,消息x具有不确定 性p(x),其大小为x的自信息量:
I(x)=-log p(x)
xi 0 1 yi 0 1
P(xi) 0.5 0.5
P(yi) 0.99 0.01
在现实中,能找到很多类似的模型,我们想 知道这两个信源本质的区别在哪里?
平均自信息量——熵的定义
设X是一个集合(即信息系统如信源或信 道),其概率模型为{xi,p(xi)},则定义系统X 的平均自信息量——熵为:
H X
计算条件熵的例子
例6 设一个二进制对称信道BSC:
0 .9 p( y x) 0.1 0q.(1(0 | 0) 0.5 0.9 0.45 p(1,1) p (0,0) 0) p p (0,1) q (0) p (1 | 0) 0.5 0.1 0.05 p (1,0) 0.9
显然,H(X)>>H(Y),这表示信源X的平均不稳 定性远远大于信源Y的平均不稳定性。
条件自信息量
前面我们引入自信息量以及熵的概念,用 以描述信源或信宿,事实上,信宿收到的消息 是与信源发出的消息密切相关。并且接受信息 与发送信息之间的关系往往是判定一个信道的 好坏的最佳标准。所以,我们需要引入互信息 量。在学习互信息量之前我们先来了解条件信 息量的概念。 设消息x发出的先验概率为p(x),收到消 息y是由x发出的条件概率为p(x|y),则在收到y 是由x发出的条件自信息量I(x|y)定义为:
平均互信息量的定义
很显然,信源X的熵H(X)与条件熵H(X|Y) 的差值和信宿Y的熵H(Y)与条件熵H(Y|X)的 差值相等,我们称为X与Y的平均互信息量, 记为: