第三章连续信源的信息熵
由于表达形式的不同,则它的物理意义也应有所不同。所以 我们不能以离散熵的概念来理解上述表达式,特别是当某些离散 熵的数学性质不在继续保持的情况下,如:非负性、对称性、扩 展性等。但值得庆幸,上式中将熵函数中最能反映信源的固有属 性的数学性质如可加性、极值性和上凸性仍旧依然保持着。因此 有可能上述表达式的某些部分仍能代表连续信源的某些物理属性。 (但我们要深入讨论离散向连续逼近时,物理属性的变化。)x) 1 p( y
x)
dxdy
p(x) p(x) p(y)
P(x y) p(xy)
p(xy)
p( y)
p(x)
p(x) p( y x)dxdy p(x) p( y)dxdy
Rx Ry
Rx Ry
p(xy)dxdy p(x)dx p( y)dy 11 0
p(y) P(y x)
§3. 2 连续变量的相对熵
在取极限的过程中由于n→∞ 相当于 →0,此时这个离散变 量越来越逼近一个连续变量;而离散集合中的信息熵Hn(X)就分解 为两项,其中一项与划分精度无关,趋于一个常量——Hc(X)。 而另一项,随着 →0最终趋于一个无穷大的量。很显然这与取极 限之前的离散熵差别很大,那么这种极限形式能否表达出信源平 均不定度的概念吗?
因此任何复杂的统计对象,经多种处理后就可由 浅入深地逐步解决问题。正如我们在离散信源中:
ai
消息
事件
X
随机 变量
X X (t,)
随机
随机
序列 H ( X )
过程
HL(X )
I (ai ) H ( X )
自信息
信息熵
任何处理过程总要丢失信息,
H H m1
H X (t,)
随机过程的熵
I(X ;Y ) 0
and
Then :
3°.
I ( X ;Y ) Hc ( X ) Hc (Y ) Hc ( XY ) Hc ( XY ) Hc ( X ) Hc (Y ) I ( X ;Y )
def
Hc ( X ) p(x) log p(x)dx
R
where, R is the domain of x . 为什么说相对熵反映连续变量的客观存在的平均不定度?首 先一个随机变量,当它的概率分布一旦确定,则它的不定性就该 给定,而不能随划分精度的变化而变化。第二,由于信息量的概 念是不定度的解除量,如果在相同划分精度下,再讨论两者之差 时,H()将会消失。所以我们可看到仅从Hc(X)上就可真正反映出 信息的全部属性 (包括非负性) 。因此,我们只要相对熵的定义就 足够了。同时我们也能给出两个连续变量的互信息问题:
Hc (Y X ) p(x) p( y x) log p( y x)dxdy
Rx Ry
p( xy )
and I ( X ;Y ) p(xy)log
dxdy
Rx Ry
p(x) p( y)
Hc ( X ) Hc ( X Y ) Hc (Y ) Hc (Y X )
Hc ( X ) Hc (Y ) Hc ( XY )
a
n 信息散度 D( p//q )
def
Hc(X ) H ()
(relative entropy)
where :
def b
Hc ( X ) p( x) log p( x)dx
称为相对熵
a
Differential entropy
def
and
H () lim(log )
称为绝对熵
0
n
absolute entropy
Rx Ry
Rx
Ry
Hc(X ) Hc(X Y )
§3. 3 相对熵的性质
2°.Hc ( X ) can be a negative; but, I ( X ;Y ) 0.
I ( X ;Y ) Hc ( X ) Hc ( X Y ) Hc (Y ) Hc (Y X )
and
Hc ( X Y ) Hc ( X ) Hc (Y X ) Hc (Y );
正交变换 Orthogonal Transformation
x( )
Amplitude
continuous
Hc (X )
所谓正交变换是一种数学处理手段,将在T时间内的 受限于最高频率为F的随机过程,无失真地变换成2FT个 随机变量。最理想的正交变换是: K—L expansion。
§3. 1 连续信源的离散化
«信 息 理 论 基 础 »
第三章:连续信源的信息熵
§3. Entropy of Continuous Source
§3.1 连续信源的离散化 §3.2 随机变量的相对熵 §3.3 相对熵的性质 §3.4 常见几种概率密度下的相对熵 §3.5 连续信源的最大熵定理 §3.6 平稳高斯随机过程的信息熵与互信息 §3.7 熵功率与功率不等式
p(x) f (x)
于第i个区间的概率就等于:
def
pi Pn (xi ) P[a (i 1)] x (a i)
ai
a(i1) p( x)dx p( xi )
where : b a ; n
i 1, 2, n
xi a (i 1), a i
a0
Δ
xi b x
Then : 按积分中值定理上式一定成立。
, an , pn
finite
symbol
or
sequence
而连续信源是指信源所发出的消息都是由一个个随机
过程( stochastic process)所形成。如:语音信号 X (t,)
它不仅幅度上,而且在时间上也都是 连续的,即分别属
于一个无限的集合之中。
§3. 1 连续信源的离散化
因此,我们所研究的问题就复杂了,然而任何复杂
p(x) f (x)
def
where : F (x) P(x),为概率分布函数。
def
f (x) p(x), 为概率分布密度。
b
b
P(x b) f (x)dx p(x)dx 1
a
a0
Δ
bx
§3. 2 连续变量的相对熵
如果把x∈[a,b]的定义域划分成n个小 区间,且每个小区间宽度相等。那么处
一个连续变量总可以采用数字量化的方式简化成一个离散变量
来近似,而且量化单位越小则所得的离散变量就越接近那个连续变 量。因此我们针对连续变量的概率统计规律——概率分布密度函数
( probability density function)也可采用上述近似方法。
x
def x
F (x) f (t)dt P(x) p(t)dt
Ry
1
Rx
Rx Ry
Hc ( X ) Hc (Y X )
§3. 3 相对熵的性质
and
Hc(X ) Hc(X Y )
p(x) log p(x)dx p( y) p(x y) log p(x y)dxdy
Rx
Rx Ry
p(x) p( y x) log p(x)dxdy p( y) p(x y) log p(x y)dxdy
的问题都可以分解成比较简单的问题分步解决。故通
常我们有一些处理连续变量的方法。
Stochastic
Random
Random
process
vector
variable
X (t,)
Time
discretization
X
MMaemrkoorvyilaenss
X
x H( p)
Amplitude discretization
n
n
n
Hn ( X ) pi log pi pn (xi ) log pn (xi ) pn (xi ) log pn (xi )
i 1
i 1
i 1
n
1n
(log ) pn (xi ) pn (xi ) log pn (xi ) (log )
i 1
i 1
§3. 2 连续变量的相对熵
第三章. 连续信源的信息熵
§3. 1 连续信源的离散化
( Discretization of Continuous Source)
我们前面所介绍的信源均指离散信源,即信源所发 的消息都是由符号或符号序列所组成; 而且每一个符号 的取值都属于一个有限元素组成的集合之中。
x
A
a1, p1,
a2 , p2 ,
第三章. 连续信源的信息熵 §3. 3 相对熵的性质
( The Properties of Differential Entropy)
1°. 可加性
proof :
Hc(XY ) Hc( X ) Hc(Y X ) Hc(Y ) Hc(X Y )
and Hc(Y X ) Hc(Y ); Hc(X Y ) Hc( X )
let p(xy) p(x) p( y x) p( y) p(x y)
then Hc( XY ) p(xy)log p(xy)dxdy
Rx Ry
p(x) p( y x)log[ p(x) p( y x)]dxdy
Rx Ry
p( y‖ x)dy p(x)log p(x)dx p(x) p( y x)log p( y x)dxdy
最多保持不变。所以简化处理就 得付出代价即:容忍信息的丢失,
H1
H
(X
)
除非正交变换和极限处理。
H0 log n
序列熵的表达类型
第三章. 连续信源的信息熵
§3. 2 连续变量的相对熵
( The differential entropy of Continuous random Variable)
§3. 2 连续变量的相对熵
因为对于一个连续变量,它的取值有无穷多个,无论它取任何 值,其随机事件所对应的不定度一定是无穷大量。而对熵来说, 应是这个随机事件集合的平均值,既然每一个事件的自信息都是 无穷大,则它的集合平均值也应是无穷大才对。又因为从绝对的 观点来看,每一个连续信源的平均不定度都是无穷大,那么这个 熵的价值也就无意义了。但是再仔细分析一下,上式中只有H() 项才与划分精度有关, 这说明只有此项能反映人为地利用离散模 式向连续型逼近的近似程度。换句话说,这仅是强加上的人为因 素,并不代表事物原有的客观属性。比如,对于同样概率分布的 随机变量x,如果仅划分精度不同时,可取1 ,2代表两种划分 精度,则我们所得到的熵的表达式: