信息论形成的背景与基础人们对于信息的认识和利用,可以追溯到古代的通讯实践可以说是传递信息的原始方式。
随着社会生产的发展,科学技术的进步,人们对传递信息的要求急剧增加。
到了20世纪20年代,如何提高传递信息的能力和可靠性已成为普遍重视的课题。
美国科学家N.奈奎斯特、德国K.屈普夫米勒、前苏联A.H.科尔莫戈罗夫和英国R.A.赛希尔等人,从不同角度研究信息,为建立信息论做出了很大贡献。
信息论是在人们长期的通信工程实践中,由通信技术和概率论、随机过程和数理统计相结合而逐步发展起来的一门学科。
信息论的奠基人是美国伟大的数学家、贝尔实验室杰出的科学家 C.E.香农(被称为是“信息论之父”),他在1948年发表了著名的论文《通信的数学理论》,1949年发表《噪声中的通信》,为信息论奠定了理论基础。
20世纪70年代以后,随着数学计算机的广泛应用和社会信息化的迅速发展,信息论正逐渐突破香农狭义信息论的范围,发展为一门不仅研究语法信息,而且研究语义信息和语用信息的科学。
近半个世纪以来,以通信理论为核心的经典信息论,正以信息技术为物化手段,向高精尖方向迅猛发展,并以神奇般的力量把人类社会推入了信息时代。
信息是关于事物的运动状态和规律,而信息论的产生与发展过程,就是立足于这个基本性质。
随着信息理论的迅猛发展和信息概念的不断深化,信息论所涉及的内容早已超越了狭义的通信工程范畴,进入了信息科学领域。
信息论定义及概述信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。
核心问题是信息传输的有效性和可靠性以及两者间的关系。
它主要是研究通讯和控制系统中普遍存在着信息传递的共同规律以及研究最佳解决信息的获限、度量、变换、储存和传递等问题的基础理论。
基于这一理论产生了数据压缩技术、纠错技术等各种应用技术,这些技术提高了数据传输和存储的效率。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。
信息传输和信息压缩是信息论研究中的两大领域。
这两个方面又由信息传输定理、信源-信道隔离定理相互联系信息论作为一门科学理论,发端于通信工程。
它的研究范围极为广阔,一般把信息论分成三种不同类型:狭义信息论。
狭义信息论主要总结了Shannon的研究成果,因此又称为Shannon信息论。
在信息可以度量的基础上,研究如何有效、可靠地传递信息。
有效、可靠地传递信息必然贯穿于通信系统从信源到信宿的各个部分,狭义信息论研究的是收、发端联合优化的问题,而重点在各种编码。
它是通信中客观存在的问题的理论提升。
一般信息论。
研究从广义的通信引出的基础理论问题:Shannon 信息论;Wiener的微弱信号检测理论。
微弱信号检测又称最佳接收研究是为了确保信息传输的可靠性,研究如何从噪声和干扰中接收信道传输的信号的理论。
主要研究两个方面的问题:从噪声中去判决有用信号是否出现和从噪声中去测量有用信号的参数。
该理论应用近代数理统计的方法来研究最佳接收的问题,系统和定量地综合出存在噪声和干扰时的最佳接收机结构。
除此之外,一般信息论的研究还包括:噪声理论、信号滤波与预测、统计检测与估计理论、调制理论、信号处理与信号设计理论等。
可见它总结了Shannon和Wiener以及其他学者的研究成果,是广义通信中客观存在的问题的理论提升。
广义信息论。
无论是狭义信息论还是一般信息论,讨论的都是客观问题。
然而从前面给出的例子可知,当讨论信息的作用、价值等问题时,必然涉及到主观因素。
广义信息论研究包括所有与信息有关的领域,如:心理学,遗传学,神经生理学,语言学,社会学等。
因此,有人对信息论的研究内容进行了重新界定,提出从应用性、实效性、意义性或者从语法、语义、语用方面来研究信息,分别与事件出现的概率、含义及作用有关,其中意义性、语义、语用主要研究信息的意义和对信息的理解,即信息所涉及的主观因素。
广义信息论从人们对信息特征的理解出发,从客观和主观两个方面全面地研究信息的度量、获取、传输、存储、加工处理、利用以及功用等,理论上说是最全面的信息理论,但由于主观因素过于复杂,很多问题本身及其解释尚无定论,或者受到人类知识水平的限制目前还得不到合理的解释,因此广义信息论目前还处于正在发展的阶段。
信息量信息量也就是熵,是一个建立在随机型性基础上的概念。
信息论中熵的概念与物理学中热力学熵的概念有着紧密的联系。
玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。
信息论中的熵也正是受之启发。
信息量是随机性大小的度量。
信源X是随机,可以认为信源X发出符号1,2 ,3的概率都是1/3,即可以按公式I(a)=-log p(a)来计算。
但是信源y是一个确定的信源,t=0时刻发1,t=1时刻发2,t=2时刻发3等等,这是有规律可循的,随机性为0,即信源y是确定的,它的信源熵为0,不能提供任何信息,信息量为0。
所以信源x的消息每一个消息符号所含的消息量大于信源y的每个消息符号所含的信息量(信源y的每个消息符号所含的信息量为0)。
信息的度量是信息论研究的基本问题之一。
美国数学家C.E.香农在1948年提出信息熵作为信息量的测度。
根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。
一个小概率事件的发生,如“唐山发生七级以上大地震”使人们感到意外,它给人们的信息量就很多。
因此,用I(A)=- log(A)〔P(A)表示事件A 发生的概率〕来度量事件A给出的信息量,称为事件A的自信息量。
若一次试验有M种可能结果(事件),或一个信源可能产生M种消息(事件), 它们出现的概率分别为,则用来度量一次试验或一个消息所给出的平均信息量。
当对数取 2为底时,单位为比特;当对数取e为底时,单位为奈特。
H 的表达式与熵的表达式差一个负号,故称负熵或信息熵。
信息传输模型信息传输系统主要由信源、信道和信宿组成,下图为信息传输系统的基本模型。
信源是产生消息的系统。
信宿是接受消息的系统,信道则是传输消息的通道。
图中编码器、译码器的作用是把消息变换成便于传输的形式。
信源编码信源是产生消息(包括消息序列)的源,是为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。
具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
信源编码的基本目的是提高码字序列中码元的平均信息量,一切旨在减少剩余度而对信源输出符号序列所施行的变换或处理,都可以在这种意义下归入信源编码的范畴,例如过滤、预测、域变换和数据压缩等。
信源编码器将消息变换为一个数字序列(通常为二进制数字序列)。
在离散情形,若信源产生M种可能消息,它们出现的概率分别为,每个消息由N种信源符号组成,便可取信源编码与数字序列一一对应。
第i种消息对应的数字序列长(数字个数)为Li,Li相等的称等长编码,否则称变长编码。
定义为编码速率,它表征平均每个信源符号要用多少个数字来表示。
若取信源译码器为信源编码器的逆变换器,则在无噪信道(信源编码器的输出即为信源译码器的输入) 情况下,消息可以正确无误地传送。
这时信源编码问题是要找出最小的速率R及其相应的编码。
已经证明,对于相当广泛的信源类,当N可以任意大时这个最小极限速率,称为信源的熵率,是信源的一个重要参数。
为了有效传播信息,最理想状态即为无失真传输。
在无失真信源编码中又分为定长编码、变长编码机最佳变长编码。
一、定长编码。
在定长编码中,K是定值,编码的目的即为找到最小的K值。
要实现无失真的信源编码,不但要求信源符号与码字是一一对应的,而且还要求有码字组成的码符号序列的逆变换也是唯一的。
由定长编码定理可知,当编码器容许的输出信息率,也就是当每个信源符号必须输出的码长是K=KL/log M。
由定理表明,只要码字所能携带的信息量大于信源序列输出的信息量,则可以使传输几乎无失真,但是条件是L足够大。
这就为传输带来了很大的麻烦,并且实现起来很困难,并且编码效率也不高。
而要达到编码效率接近1的理想编码器虽有存在性,但在实际上时不可能的,因为L非常大,无法实现。
由此而产生了变长编码。
二、变长编码。
在变长编码中,码长K是变化的,可根据信源各个符号的统计特性,对概率大的符号用短码,而对概率小的符号用长码。
这样大量信源符号编成码后,平均每个信源符号所需的输出符号数就可以降低,从而提高编码效率。
用变长编码来达到相当高的编码效率,一般所要求的符号长度L可以比定长编码小得多的多。
很明显,定长码需要的信源序列长,这使得码表很大,且总存在译码差错。
而变长码要求编码效率达到96%时,只需L=2.因此用变长码编码时,L 不需要很大就可达到相当高的编码效率,而且可实现无失真编码。
并且随着信源序列长度的增加,编码效率越来越接近于1,编码后的信息传输率R也越来越接近于无噪无损二元对称信道的信道容量C=1bit/二元码符号,达到信源与信道匹配,使信道得到充分利用。
几种不同的变长编码方式如下:1、香农编码方法。
香农第一定理指出了平均码长与信源之间的关系,同时也指出了可疑通过编码使平均码长达到极限值,这是一个很重要的极限定理。
香农第一定理指出,选择每个码字的长度Ki满足下式:I(xi)<Ki<I(xi)+1就可以得到这种码。
编码方式如下:首先将信源消息符号按其出现的概率大笑依次从大到小排列,为了编成唯一可译码,计算第i种消息的累加概率P=∑p(a),并将累加概率Pi变换成二进制数。
最后去Pi二进制数的小数点后Ki位提取出,即为给细心符号的二进制码字。
由此可见香农编码法多余度稍大,实用性不强,但他是依据编码定理而来,因此具有重要的理论意义。
2、费诺编码方法。
费诺编码属于概率编码,但不是最佳的编码方法。
在编N进制码时首先将信源消息符号按其出现的概率依次由小到大排列开来,并将排列好的信源符号按概率值分N大组,使N组的概率之和近似相同,并对各组赋予一个N进制码元“0”、“1”……“N-1”。
之后再针对每一大组内的信源符号做如上的处理,即再分为概率和相同的N组,赋予N进制码元。
如此重复,直至每组只剩下一个心愿符号为止。
此时每个信源符号所对应的码字即为费诺码。
针对同一信源,费诺码要比香农码的平均码长小,消息传输速率大,编码效率高。
3、哈夫曼编码方法。
编码方法:也是先将信源符号按其出现的概率大小依次排列,并取概率最小的字母分别配以0和1两种码元(先0后1或者先1后0,以后赋值顺序固定),再将这两个概率想家作为一个新字母的概率,与未分配的二进制符号的字母重新排队。
并不断重复这一过程,直到最后两个符号配以0和1为止。