当前位置:文档之家› 第二章-信息论基本概念(1)

第二章-信息论基本概念(1)


{
离散信源 连续信源
2
1. 连续信源 连续信源是指发出在时间和幅度上都是连续分布的 连续消息(模拟消息)的信源,如语言、图像、图 形等都是连续消息。
2. 离散信源 离散信源是指发出在时间和幅度上都是离散分布的 离散消息的信源,如文字、数字、数据等符号都是 离散消息。 发出单个符号的无记忆信源 离散无记忆信源 发出符号序列的无记忆信源 离散信源 发出符号序列的有记忆信源 离散有记忆信源 发出符号序列的马尔可夫信源
这三个信息量单位之间的转换关系如下:
1 nat=log2e
l.433 bit, l Hartley =log 10 3.322 bit
2
12
3. 不确定度
定义:随机事件的不确定度在数量上等于它的自信息量.
说明:
a. 两者的单位相同,但含义却不相同。 b. 具有某种概率分布的随机事件不管发生与否,都存 在不确定度,不确定度表征了该事件的特性,而自 信息量是在该事件发生后给予观察者的信息量。
18
解:信源符号的自信息量:
1 I ( x1 ) log2 1.415 3/8
1 I ( x2 ) I ( x3 ) log2 2 1/ 4
单位都是 bit/符号
1 I ( x4 ) log 3 1/8
信源无记忆,发出的符号串中各符号统计独立,由自信 息量的可加性,符号串自信息量等于各符号自信息量之和:
p( xi ) 0, p( xi ) 1
i 1
p( xi )为符号 x i的先验概率。
6
概率空间
X x1 P p( x ) 1
xn p( x2 ) p( xn ) x2
状态空间X中各状态 xi 相互独立。
举例(二进制信源):
第二章 信息论的基本概念
第一节 信源的描述和分类 第二节 离散信源的信息论概念 第三节 离散信源的熵
1
第一节 信源的描述和分类
一、香农信息论的基本点
用随机变量或随机矢量来表示信源,运用概率论和 随机过程的理论来研究信息。
二、信源的分类
按照信源发出的消息在时间上和幅度上的分布情况 可将信源分成离散信源和连续信源两大类 信源
20
(7)在布袋中放入81枚硬币,它们的外形完全相同。
已知有一枚硬币与其它80枚硬币重量不同,但不知
这个硬币比其它硬币的重量是重还是轻。问确定随
意取出的一枚硬币恰好是重量不同硬币的所获得的 信息量是多少?并进一步确定它比其它硬币是重还
是轻所需要的信息量是多少?
解: (a) P(A)=1/81,I(A)=-lbP(A)=6.34(bit)。 (b) P(B)=1/2,P=P(A)×P(B)=1/162;
符号),意味着其不确定性可用2位二进制数字来度 量(00、01、10、11)。 若取4为对数底,自信息量为1(四进制单位/符号), 意味着其不确定性可用1位四进制数字来度量(0、1、
2、3)。
16
(4)英文字母中“e‖ 出现的概率为0.105,“c‖出现的概
率为0.023,“o‖出现的概率为 0.001。分别计算它们的
11
d. 自信息量单位的确定
• • • • 在信息论中常用的对数底是 2 ,信息量的单位为比特 (bit),用log2或lb表示;( bit /符号) 若取自然对数,则信息量的单位为奈特( nat ),用 loge或ln表示;(nat/符号) 若以 10为对数底,则信息量的单位为哈脱莱 (Hartley), 用log10或lg表示;(hartley/符号) 若对数底为r,则信息量的单位为r进制用单位/符号。
15
(3)具有四个取值符号的随机变量 X [ x1 , x2 , x3 , x4 ] 各符号概率相等,均为1/4,各符号的自信息量:
1 I ( x1 ) I ( x2 ) I ( x3 ) I ( x4 ) lb 2(bit / 符号) 4
注:
bit的含义是二进制数字(0、1),自信息量为2(bit/
8
(一)
本节的重点内容: 1. 信息量?
自信息量
2. 自信息量? 3. 不确定度? 4. 联合自信息量? 5. 条件自信息量?
9
(一)
1. 信息量
自信息量
I(信息量)=不确定程度的减少量 即 收信者收到一个消息后,所获得的信息量等于收到 信息前后不确定程度减少的量。(举例)
2. 自信息量
定义:一个随机事件的自信息量定义为其出现概率 对数的负值:
i 1 j 1 N M
二元联合符号的自信息量称为联合自信息量:
I ( xi , y j ) lbp( xi , y j )
同理,三元联合符号的联合自信息量:
bit/二元符号
I ( xi , y j , zk ) lbp( xi , y j , zk )
bit/三元符号
22
注意:
a. 当(xi,yj)相互独立时,有P(xi,yj)=P(xi)P(yj),那
解:将棋子方格从第一行开始按顺序编号,得到一个序号集合
{zl | l 1, 2,
,64}
棋子落入的方格位置可以用取值于序号集合的随机变量Z来描述
Z {zl | l 1, 2, ,64}
26
(1)由于棋子落入任一方格都是等可能的,则
1 p( zl ) l 1,2, 64
,64
棋子落入某方格的不确定性就是自信息量
定义两种条件自信息量:
p( y j | xi )
bit/符号 bit/符号
I ( xi | y j ) lbp( xi | y j ) I ( y j | xi ) lbp( y j | xi )
注意:
在给定yj条件下,随机事件xi所包含的不确定度在数值上 与条件自信息量相同,但两者含义不同。
I 14I ( x1 ) 13I ( x2 ) 12I ( x3 ) 6I ( x4 ) 87.81(bit / 符号)
平均一个符号的自信息量:
I / 45 87.81/ 45 1.95(bit / 符号)
19
(6)同时抛掷一对质地均匀的骰子,每个骰子各面
朝上的概率均为1/6,试求:
(a)事件“3和5同时发生”的自信息量? (b)事件“两个1同时发生”的自信息量? (c)事件“两个点数中至少有一个是1‖的自信息量?
解: (a) 存在两种情况:甲3乙5,甲5乙3。 P(A)=1/36×2=1/18,I(A)=-lbP(A)=4.17(bit)。
(b) 存在一种情况:甲1乙1。
P(B)=1/36,I(B)=-lbP(B)=5.17(bit)。 (c) P(C)=1-5/6×5/6=11/36,I(C)=-lbP(C)=1.17(bit)。
24
条件自信息量物理意义: 条件自信息量的物理意义,要根据具体情况来做出相应的解释 如果X是观察输入,Y是观察输出:
p( xi | y j )
后验概率
I ( xi | y j ) lbp( xi | y j ) p( y j | xi ) 转移概率
在观察到符号yj的条件下xi还剩下的不确定性
I ( xi ) log p( xi )
10
说明:
a. 自信息量 I ( xi ) 是非负的。
b. 对于离散无记忆信源,符号串中各符号统计独 立,符号串自信息量具有可加性:
I logp( xi )
i
c. 因为概率 p( xi ) 越小,x i的出现就越稀罕,一旦出
现,所获得的信息量也就较大。由于 xi是随机出 现的,它是X的一个样值,所以是一个随机量。 而 I ( xi ) 是 xi 的函数,它必须也是一个随机量。
的自信息量为:
I(0)= I(1)= - log2 (1/2)=log22=1 bit/符号
( 2 )若是一个 m 位的二进制数,因为该数的每一位可 从0, 1两个数字中任取一个,因此有2m个等概率的可 能组合。所以I= -log2(1/2m)=m bit/符号,就是需要m 比特的信息来指明这样的二进制数。
么就有 I(xi,yj)=I(xi)+I(yj)。 b. (xi,yj) 所包含的不确定度在数值上也等于它们的 自信息量。
23
5. 条件自信息量
定义: 联合随机变量 XY {( xi , y j ) | i 1,2...N; j 1,2,...M } 有两种条件概率
p( xi | y j )

{
{ {
3

离散无记忆信源 离散无记忆信源所发出的各个符号是相互独立的,发出 的符号序列中的各个符号之间没有统计关联性,各个符 号的出现概率是它自身的先验概率。 离散有记忆信源 离散有记忆信源所发出的各个符号的概率是有关联的。 发出单个符号的信源 发出单个符号的信源是指信源每次只发出一个符号代 表一个消息; 发出符号序列的信源 发出符号序列的信源是指信源每次发出一组含二个以 上符号的符号序列代表一个消息。
5
三、先验概率及概率空间的形式 一般信源可用一个概率空间来描述,信源的不确 定程度可用该概率空间的可能状态数目及其概率 来描述。
先验概率
一个离散信源发出的各个符号消息的集合为: 它们的概率分别为:
n
X {x1, x2 ,, xn } ——状态空间
P { p( x1 ), p( x2 ),, p( xn )}
自信息量。
解:“e‖的自信息量 I(e)= - lb0.105=3.25 (bit/符号) “c‖的自信息量 I(c)= -lb0.023=5.44 (bit/符号)
“o‖的自信息量 I(o)= -lb 0.001=9.97 (bit/符号)
17
(5)某离散无记忆信源(DMS,Discrete Memoryless Source)的概
相关主题