当前位置:文档之家› 信息熵.doc

信息熵.doc

一些信息熵的含义(1) 信息熵的定义:假设X是一个离散随即变量,即它的取值范围R={x1,x2...}是有限可数的。

设p i=P{X=x i},X的熵定义为:(a)若(a)式中,对数的底为2,则熵表示为H2(x),此时以2为基底的熵单位是bits,即位。

若某一项p i=0,则定义该项的p i logp i-1为0。

(2) 设R={0,1},并定义P{X=0}=p,P{X=1}=1-p。

则此时的H(X)=-plogp-(1-p)log(1-p)。

该H(x)非常重要,称为熵函数。

熵函数的的曲线如下图表示:再者,定义对于任意的x∈R,I(x)=-logP{X =x}。

则H(X)就是I(x)的平均值。

此时的I(x)可视为x所提供的信息量。

I(x)的曲线如下:(3) H(X)的最大值。

若X在定义域R={x1,x2,...x r},则0<=H(X)<=logr。

(4) 条件熵:定义推导:H(X|Y=y)= ∑p(x|y)log{1/p(x,y)}H(X|Y)=∑p(y)H(X|Y=y)= ∑p(y)*∑p(x|y)log{1/p(x/y)}H(X|Y)表示得到Y后,X的平均信息量,即平均不确定度。

(5) Fano不等式:设X和Y都是离散随机变量,都取值于集合{x1,x2,...x r}。

则H(X|Y)<=H(Pe)+Pe*log(r-1)其中Pe=P{X≠Y}。

Fano表示在已经知道Y后,仍然需要通过检测X才能获得的信息量。

检测X的一个方法是先确定X=Y。

若X=Y,就知道X;若X≠Y,那么还有r-1个可能。

(6) 互信息量:I(X;Y)=H(X)-H(X|Y)。

I(X;Y)可以理解成知道了Y后对于减少X的不确定性的贡献。

I(X;Y)的公式:I(X;Y)=∑(x,y)p(x,y)log{p(y|x)/p(y)}(7)联合熵定义为两个元素同时发生的不确定度。

联合熵H(X,Y)= ∑(x,y)p(x,y)logp(x,y)=H(X)+H(Y|X)(8)信道中互信息的含义互信息的定义得:I(X,Y)=H(X)-H(X|Y)= I(Y,X)=H(Y)-H(Y|X)若信道输入为H(X),输出为H(Y),则条件熵H(X|Y)可以看成由于信道上存在干扰和噪声而损失掉的平均信息量。

条件熵H(X|Y)又可以看成由于信道上的干扰和噪声的缘故,接收端获得Y后还剩余的对符号X的平均不确定度,故称为疑义度。

条件熵H(Y|X)可以看作唯一地确定信道噪声所需要的平均信息量,故称为噪声熵或者散布度。

(9)I(X,Y)的重要结论互信息互信息I(X,Y)只是输入信源X的概率分布P(x i)和信道转移概率P(y j|x i)的函数,可以证明当P(x i)一定时,I是关于P(y j|x i)的∪函数,存在极小值;当P(y j|x i)一定时,I是关于P(x i)的∩函数,存在极大值。

(10)联合熵、条件熵的关系图。

H(X)>=H(X|Y),H(Y)>=H(Y|X)。

信息熵(Information Entropy)[编辑]什么是信息熵信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。

一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。

信息熵也可以说是系统有序化程度的一个度量。

[编辑]信息熵的计算根据Charles H. Bennett对Maxwell's Demon的解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。

而产生信息,则是为系统引入负(热力学)熵的过程。

所以信息熵的符号与热力学熵应该是相反的。

一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。

我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。

这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

信源的平均不定度。

在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。

记H(X)=H(P1,P2,…,Pn)=P(xi)logP(xi),这里P(xi),i=1,2,…,n为信源取第i个符号的概率。

P(xi)=1,H(X)称为信源的信息熵。

熵的概念来源于热力学。

在热力学中熵的定义是系统可能状态数的对数值,称为热熵。

它是用来表达分子状态杂乱程度的一个物理量。

热力学指出,对任何已知孤立的物理系统的演化,热熵只能增加,不能减少。

然而这里的信息熵则相反,它只能减少,不能增加。

所以热熵和信息熵互为负量。

且已证明,任何系统要获得信息必须要增加热熵来补偿,即两者在数量上是有联系的。

可以从数学上加以证明,只要H(X)满足下列三个条件:①连续性:H(P,1-P)是P的连续函数(0≤P≤1);②对称性:H(P1,…,Pn)与P1,…,Pn的排列次序无关;③可加性:若Pn=Q1+Q2>0,且Q1,Q2≥0,则有H(P1,…,Pn-1,Q1,Q2)=H(P1,…,Pn-1)+PnH;则一定有下列唯一表达形式:H(P1,…,Pn)=-CP(xi)logP(xi)其中C为正整数,一般取C=1,它是信息熵的最基本表达式。

信息熵的单位与公式中对数的底有关。

最常用的是以2为底,单位为比特(bit);在理论推导中常采用以e为底,单位为奈特(Nat);还可以采用其他的底和单位,并可进行互换。

信息熵除了上述三条基本性质外,还具有一系列重要性质,其中最主要的有:①非负性:H(P1,…,Pn)≥0;②确定性:H(1,0)=H(0,1)=H(0,1,0,…)=0;③扩张性:Hn-1(P1,…,Pn-ε,ε)=Hn(P1,…,Pn);④极值性:P(xi)logP(xi)≤P(xi)logQ(xi);这里Q(xi)=1;⑤上凸性:H[λP +(1-λ)Q]>λH(P)+(1-λ)H(Q),式中0<λ<1。

信息熵信息是个很抽象的概念。

人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。

比如一本五十万字的中文书到底有多少信息量。

直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。

信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。

目录1理论提出2信息含义1. 2.1 现代定义2. 2.2 最初定义3. 2.3 计算公式4. 2.4 《博弈圣经》1理论提出[1]信息论之父 C. E. Shannon 在1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中,Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。

Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。

2信息含义现代定义信息是物质、能量、信息及其属性的标示。

【逆维纳信息定义】信息是确定性的增加。

【逆香农信息定义】信息是事物现象及其属性标识的集合。

【2002年】最初定义信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。

所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。

而信息熵和热力学熵是紧密相关的。

根据Charles H. Bennett对Maxwell's Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。

而产生信息,则是为系统引入负(热力学)熵的过程。

所以信息熵的符号与热力学熵应该是相反的。

一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。

我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。

这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

计算公式H(x)=E[I(xi)]=E[ log(2,1/p(xi)) ]=-∑p(xi)log(2,p(xi)) (i=1,2,..n)《博弈圣经》信息熵:信息的基本作用就是消除人们对事物的不确定性。

多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中现象信息的混乱。

香农指出,它的准确信息量应该是-(p1*log(2,p1) + p2 * log(2,p2) +...+p32 *log(2,p32)),信息熵其中,p1,p2 ,...,p32 分别是这32 个球队夺冠的概率。

香农把它称为“信息熵” (Entropy),一般用符号H 表示,单位是比特。

有兴趣的读者可以推算一下当32 个球队夺冠概率相同时,对应的信息熵等于五比特。

有数学基础的读者还可以证明上面公式的值不可能大于五。

对于任意一个随机变量X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

信息熵是信息论中用于度量信息量的一个概念。

一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。

所以,信息熵也可以说是系统有序化程度的一个度量。

熵的概念源自热物理学.假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。

如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。

只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。

这时,系统进入另一种稳定状态,此时,信息熵最低。

热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。

若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。

信息熵的计算是非常复杂的。

而具有多重前置条件的信息,更是几乎不能计算的。

所以在现实世界中信息的价值大多是不能被计算出来的。

但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。

因此信息的价值是通过信息的传递体现出来的。

在没有引入附加价值(负熵)的情况下,传播得越广、流传时间越长的信息越有价值。

熵首先是物理学里的名词.在传播中是指信息的不确定性,一则高信息度的信息熵是很低的,低信息度的熵则高。

具体说来,凡是导致随机事件集合的肯定性,组织性,法则性或有序性等增加或减少的活动过程,都可以用信息熵的改变量这个统一的标尺来度量。

∙ 1 简介o 1.1 熵的计算∙ 2 定义∙ 3 范例∙ 4 熵的特性∙ 5 和热力学熵的联系∙ 6 参见∙7 参考简介[编辑]熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。

在信息论里面,熵是对不确定性的测量。

但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

相关主题