当前位置：文档之家› 信息论基础

信息论基础

证明： H ( X ,Y ) p(x, y)log p(x, y) x y
p(x, y)log p(x) p y | x x y
p(x, y)log p(x) p(x, y)log p y | x
x y
x y
p(x)log p(x) p(x, y)log p y | x
单位为奈特（nat）若对数以10为底时，则熵的单位为哈特（hartley）。
注意熵只是概率分布 p的函数，与 X 的取值无关。用 E 表示数学期
望，E
表示关于分布
p
p的数学期望，即
Epg(X ) g(x) p(x)
x
则熵可以表示为随机变量 log 1 p(X
的数学期望，即H
)
(X
)
Ep
log
1 p(X
2
12
2
D(q ||
p)
1 log 6
1 6
1 4
1 log 6
1 6
1 12
1 log 3
1 3
1 4
1 log 3
1 3
5 12
1 log 2 1 log 2 1 log 4 1 log 4
6 36
3 33 5
5 1 log 3 1 log 5 0.1bits
32
3
6 设随机变量 X ,Y , Z 有联合分布 p(x, y, z)，证明一下不等式，
x
x y
H (X ) H (Y | X )
习题一选做
1 设随机变量 ( X ,Y ) p(x, y) 由以下给出
计算：
（a） H(X ,Y), H(X ), H(Y), H(X | Y), H(Y | X ), I(X;Y);
（b）如果q(x, y) p(x) p( y) 为两个边际分布的乘积分布，计算 D( p q) 和 D(q p)。
I (x) log 1 。 p(x)
1.2 熵、联合熵、条件熵
X 定义 1.2.1 离散随机变量的熵定义为
H(X ) p(x)log p(x) x
e 我们也用 H ( p) 表示这个熵，有时也称它为概率分布 p的熵，其中对
数函数以2为底时，熵的单位为比特（bit），若对数以为底时，则熵的
p(x, q(x,
y) y)
1 4
log
1 4 1 6
1 12
log
1 12 1 6
1 4
log1 4 1 3来自5 12log
5 12 1 3
1 log 3 1 log 1 1 log 3 5 log 5 4 2 12 2 4 4 12 4
1 log 3 5 log 5 3 0.26bits
p(x, y) Pr X x,Y y, x, y
则定义 ( X ,Y ) 的联合熵 H (X ,Y ) 为
H(X ,Y) p(x, y)log p(x, y) x y 或写成数学期望形式：
H ( X ,Y ) E log p(x, y)
定理 1.2.2 （链法则）
H (X ,Y ) H (X ) H (Y | X )
克劳德·香农（Claude Shannon）于
1948年发表的具有里程碑性质的论文“通讯的数学理论”是世界上首次将通讯过程建立了数学模型的论文，这篇论文和1949 年发表的另一篇论文一起奠定了现代信息论的基础。
信息论简介
作为通讯系统的数学理论，香农在1948 年的奠基性文章中提出了通信系统的一般模型（如下图所示）
图1.1 通信系统模型
第一章随机变量的信息度量
1.1 自信息 1.2 熵、联合熵、条件熵 1.3 相对熵和互信息
1.1 自信息
定理1.1.1
定义 1.1.1
若自信息I (x)满足一下5个条件：
(i) 非复性：I (x) 0;
(ii) 如 p(x) 0, 则 I (x) ;
(iii) 如 p(x) 1, 则 I(x) 0;
(iv) 严格单调性：如果p(x) p( y),
则 I(x) I(y);
(v) 如果p(x, y) p(x)p(y), 则 I(x, y) I(x) I(y)
则 I (x) C log 1 p(x)
其中C 为常数。
x 设 x 有概率 p(x)，则的自信息定义为
解： (a)
H (X ,Y ) 1 log 1 1 log 1 1 log 1 5 log 5 4 4 4 4 12 12 12 12
3 1 1 log 3 5 log 5
222
12
1.5 0.51.585 0.96 1.32bits
H(X ) 1 log 2 log 2 log 2 log3 2 0.918bits
3333
3
H (Y ) 1 log 1 1 log 1 1bits 2 22 2
H (X | Y ) H (X ,Y ) H (Y ) 0.32bits H (X | Y ) H (X ,Y ) H (Y ) 0.402bits I (X :Y ) H (X ) H (Y ) H (X ,Y ) 0.598bits
(b) p(x 0) 1 , p(x 1) 2 , p(Y 0) 1 , p(Y 1) 1
3
3
2
2
q(x 0, y 0) 1 , q(x 0, y 1) 1 , q(x 1, y 0) 1 , q(x 1, y 1) 1
6
6
3
3
D(
p
||
q)
x
y
p(x,
y)
log
)
可见熵是自信息的概率加权平均值
引理 1.2.1 H ( X ) 0 ，且等号成立的充要条件是 X 有退化分布。
例题 1.2.1 设
1 依概率 p X 0 依概率1 p
则 H(X ) p log p (1 p)log(1 p) h( p) 。
定义 1.2.2 设一对随机变量 ( X ,Y ) 的联合分布为
信息论基础
张松松
080803129 南京林业大学理学院
目录
前言第一章随机变量的信息度量第二章随机过程信息度量和渐进等分性第三章数据压缩和信源编码第四章数据可靠传输和信道编码
绪论
信息论简史 ▪ 信息论简介
信息论简史
信息论是在20世纪40年代后期在通讯
工程实践中，由通讯技术与概率论随机过程和数理统计相结合而发展起来的一门科学，是专门研究信息的有效处理和可靠传输的一般规律的科学。
并说明等号成立的条件：

e商务文档

信息论基础

相关文档推荐：