第6讲 联合熵与条件熵
信息熵H(X)反映了随机变量X 的取值不确定性。
当X 是常量时,其信息
熵最小,等于0;当X 有n 个取值时,当且仅当这些取值的机会均等时,信息
熵H(X)最大,等于log n 比特。
我们拓展信息熵H(X)的概念,考虑两个随机
变量X 和Y 的联合熵H(XY)和条件熵H(Y|X)。
1. 联合熵
设X ,Y 是两个随机变量, 则(X,Y)是二维随机变量,简写为XY 。
二维随机变量XY 的联合概率分布记为p (xy ),即
根据信息熵的定义可知,XY 的信息熵为
定义 1.1 二维随机变量XY 的信息熵H(XY)称为X 与Y 的联合熵(joint
entropy )。
它反映了二维随机变量XY 的取值不确定性。
我们把它理解为X 和Y 取值的
总的不确定性。
练习:
假设有甲乙两只箱子,每个箱子里都存放着100个球。
甲里面有红蓝色球
各50个,乙里面红、蓝色的球分别为99个和1个。
试计算H(XY)
我们将联合熵概念推广到任意多离散型随机变量上。
定义1.2 一组随机变量12,,,N X X X 的联合熵定义为
注:为了简化记号,我们有时把12
N X X X 记为X N ,把12N x x x 记为x N 。
物理意义:
(1)12()N X H X X 是这一组随机变量平均每一批取值 所传递的信息量。
(2)若N-维随机变量12
N X X X 表示某信源产生的任意一条长度为N 的消息,则12()N X H X X 是平均每条长度为N 的消息的信息量。
因此,若该信源产生一
个长度为N 的消息,则在不知道其它条件的情况下,对该消息所含信息量的最
优估计为N-维信息熵12
()N X H X X 。
联合熵的性质: 联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合
熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。
当然,联合熵还有自己的特殊性质。
定理1.4(联合熵的独立界)2121()()()()N N H X X H X H X H X X ≤+++
其中等号成立的充要条件是所有随机变量相互独立。
证明:这里仅证明()()()H Y X X H H Y ≤+,一般情形可类似证明。
设对于XY 的联合分布为p (xy ),X 和Y 的概率分布简记为p (x ),p (y )。
由于
我们有
注意,()()p x p y 构成一个概率分布。
应用信息不等式可得
其中等号成立的充要条件是()()()p xy p x p y =,即X 与Y 相互独立。
证毕
2. 条件熵 条件自信息:1(|)log (|)
I y x p y x = 对于任何取值x ,|Y X x =是一个带条件的随机变量,其信息熵为
再对所有x 求熵的平均值可得如下条件熵:
定义2.1 设X ,Y 是两个离散型随机变量,联合分布为p (xy )。
X 相对于Y 的条件
熵H (X|Y )
定义为条件自信息I (X|Y )的期望,即
物理意义:H (X|Y )表示在已知Y 取值的前提下,X 取值的不确定性,亦即X 的
每个取值平均所提供的与Y 无关的信息量。
定理2.2(条件熵非负性)对于任何离散型随机变量X 与Y ,都有H(Y|X) ≥0,
其中等号成立当且仅当Y 是X 的函数,即X 的取值可确定Y 的取值。
证明根据定义
由于上述加式中各加项都≤0,所以该加式=0的充要条件是各加项=0,即对于任何x和y,p(y|x)=1或者p(y|x)=0,亦即对于任何x,P(Y|x)是退化分布。
这表明当X的取值确定时,Y的取值随即确定,即Y是X的函数。
证毕
定理2.3(熵的链法则)对于随机变量序列X1,X2,…和任何N≥1
简记为
其中H1=H(X1),H2=H( X2|X1),…,H N=H(X N|X1X2…X N-1)。
证明:首先根据定义直接可得
H(XY)= H(X)+H(Y|X)
应用上述等式,对N用归纳法可证明熵的链法则。
细节略。
证毕
意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。
注:链法则与熵的可加性是等价的。
思考:
下列不等式是否成立,其中各等号成立的充要条件是什么?
这个性质说明什么?请读者尝试命名该性质。
定理2.4(条件熵递减性)对于任何随机变量X和Y,有
H(Y|X)≤ H(Y)
其中等号成立的充要条件是Y与X相互独立。
证明一:根据链法则,
H(XY)=H(X)+H(Y|X)
再根据联合熵的独立界定理,立刻可得
H (Y |X )≤ H (Y )
其中等号成立的充要条件是
X 与Y 统计独立。
证毕
在条件熵中,条件越少,熵值越大。
相反,条件越多,熵值越小。
这可理解为,我们知道的越多,则事物的不确定性越小。
证明二:应用Jessen 不等式证明。
证毕
3. 计算公式
令X ,Y 为离散的随机变量。
公式1. (|)()()H Y X H XY H X =-
公式2. (|)()((|))H Y X P X H P Y X =
其中P (X )是X 的概率分布,为行向量,P (Y |X )是X 到Y 的条件概率矩阵,((|))H P Y X 是条件概率矩阵中各个行分布(|)P Y x 的熵(|)H Y x 所组成的列向量。
证明:
证毕
例3.1 设()(0.4,0.6)P X =且
则
记号:以后对于任何N ,我们将N 维随机向量X 1,X 2,…X N 简记为X N 。
注:上述条件熵概念可以推广到多个随机变量熵,例如
H (Y|X 1X 2 …X N )
是在已知随机向量X 1,X 2,…X N 取值的前提下,随机变量Y 的不确定性,亦即Y 的每个取值可以提供的与X 1,X 2,…X N 取值无关的新信息量。
练习3.2设p(xy)如下表所示。
试计算
(1) H(XY) (2) H(X), H(Y)
(3) H(X|Y), H(Y|X)
练习3.3 已知平均100人中有2人患有某种疾病,为了查明病情,必须进行某项指标的化验。
这种化验的结果对于有病的人总是阳性的,对于健康的人来说有一半可能为阳性、一半可能为阴性。
若X 表示一个人是否罹患这种疾病,Y 表示其化验结果是否为阳性,试计算H(XY)。
作业5
1. 范九伦等所着教材第38页习题(三)
设X 和Y 的联合分布(,)u x y 由下表给出:
.
试计算(),(),H X H Y H X Y H Y X H X
2. 设一个信源有6种信号,先后输出的信号是独立同分布的,其概率分布为 (1/2, 1/4, 1/8, 1/16, 1/32, 1/32)
(1)该信源输出1个符号所提供的平均信息量。
(2)该信源输出100个符号所提供的平均信息量。
3. 在一段时间内,某城市交通的忙闲天数按天气阴晴和气温冷暖进行分类统计如下:
(1) 计算交通忙闲状态的无条件熵。
(2) 计算天气和气温状态下的条件熵。
(3) 计算从天气和气温状态所获得的关于交通状态的信息。
4. 世界职业棒球锦标赛为7场赛制,只要其中一队赢得4场,比赛就结束。
设随机变量X 代表在比赛中A 队和B 队较量的可能结果。
X 的可能取值为AAAA ,BABABAB 和BBBAAAA ,其中A,B 分别表示A 队和B 对获胜。
设Y 代表比赛的场数,取值范围为4到7。
假设A 队和B 队是同等水平的,且每场比赛相互独立。
试计算H(X),H(Y), H(Y|X)和H(X|Y)。
晴
阴 暖 8忙
冷 27
暖
16晴阴
暖 15闲 冷 4暖 12冷 12冷 8。