通信的数学基石——信息论引言1948年,美国科学家香农(C. E. Shannon)发表了题为“通信的数学理论”论文,这篇划时代学术论文的问世,宣告了信息论的诞生。
文中,香农创造性地采用概率论的方法研究通信的基本问题,把通信的基本问题归结为“一方精确或近似地重现出另一方所选择的消息”,并针对这一基本问题给予了“信息”科学定量的描述,第一次提出了信息熵的概念,进而给出由信源、编码、信道、译码、信宿等组建的通信系统数学模型。
如今,信息的概念和范畴正不断地被扩大和深化,并迅速地渗透到其他相关学科领域,信息论也从狭义信息论发展到如今的广义信息论,成为涉及面极广的信息科学。
信息论将信息的传递看作一种统计现象,运用概率论与数理统计方法,给出信息压缩和信息传输两大问题的解决方法。
针对信息压缩的数学极限问题,给出了信息源编理论;针对信息传输的极限问题,则给出了信道编码理论。
《信息论基础与应用》在力求降低信息论学习对数学理论要求下,加强了信息论中基础概念的物理模型和物理意义的阐述;除此这外,该书将理论和实际相结合,增加了在基础概念的理解基础上信息论对实际通信的应用指导,并给出了相关应用的MATLAB程序实现,以最大可能消除学生对信息论学习的疑惑。
全书共分7章,第1章是绪论,第2章介绍信源与信息熵,第3章介绍信道与信道容量,第4章给出信源编码理论,第5章给出信道编码理论,在此基础上,第6章、第7章分别介绍了网络信息理论和量子信息理论。
什么是信息论什么是信息论?信息论就是回答:1)信息是如何被度量?2)如何有效地被传输?3)如果接收到的信息不正确,如何保证信息的可靠性?4)需要多少内存,可实现信息的存储。
所有问题的回答聚集在一起,形成的理论,称为信息论。
总之,信息论是研究信息的度量问题,以及信息是如何有效地、可靠地、安全地从信源传输到信宿,其中信息的度量是最重要的问题,香农首次将事件的不确定性作为信息的度量从而提出了信息熵的概念。
香农熵是香农信息论中信息度量的基础,它与事件发生的概率相联系,以“不确定性”作为它度量的基础。
在此基础上,可引进联合熵、条件熵、互信息、信道容量、率失真函数等概念,它们可看作是信息度量的其它形式。
值得注意的是:香农熵虽然是以概率分布构成的不确定性为度量基础,但是随着信息科学的不断发展,香农熵的理解也被日益加深和扩大,新的信息度量与新的学科分支不断出现,出现了如量子信息论中的冯诺依曼熵等新型熵概念的延伸。
信息论的产生和发展与通信、计算机技术的产生、发展密切相关,信息论的发展大体可以分为早期酝酿、理论建立与发展、理论应用与近代发展等几个阶段。
在人类文明的早期,就已经知道可利用信息或信息传递等手段来达到某种目的。
例如,古代的烽火台就是用烽、火来传递外敌入侵的信息。
但是,大量信息的运用还是在有线、无线电通信产生以后。
20世纪初,信息论进入了早期酝酿阶段。
为了提高通信的质量与效率,人们开始从物理和数学两个方面考虑。
在物理上,主要研究和改进了通信的物理手段和条件,如不同通信方式(有线、无线)的采用、发射与接收设备的改造、波段的选择与信噪比的提高等。
在物理技术改进的同时,人们也发现数学理论与工具的使用也变得十分重要,因为通信中的许多问题如果没有数学的描述就无法精准说明。
期间信息论的一些基本问题开始形成。
如早期编码问题:莫尔斯(Morse)码和波多(Bodo)码把文字通过点、划、空等信号表示,这些码虽然原始,但他们实现了从文字到通信信号的重大转变;再如通信的有效性和可靠性问题:随着通信距离的加大,如何克服噪声干扰就成为通信技术中迫切需要解决的问题;控制论的奠基人维纳(N.Wiener)和美国统计学家费希尔(E.Fisher)与香农同时提出信息度量的一种方式,即信息熵的定义;再如纠错与检测码的产生问题:人们发现由点、划、空等组合成的一定结构的信号具有更强的抗干扰能力。
自1948年香农理论产生以后,信息论得到迅速发展,通常把1948年到20世纪60年代称为信息论的确立期,其主要特点是对香农理论的研究和说明,包括对通信系统的数学模型与基本问题的说明和对信息量、香农熵的来源、意义与作用的讨论,对通信基本问题的讨论,对信源、信道编码问题的模型、本质问题与意义的讨论,以及信源、信道编码的编码实现与应用问题等。
这一阶段完成的主要标志是对以上问题实现了严格的数学描述与论证。
同时,一系列专著的完成也标志着香农信息论的确立,如B.McMillan、A.Feinstein(1954)、Robert G.Gallager(1968)和J.Wolfowitz(1978)等人的重要论著,这些著作基本上完成了对香农理论的阐释,在理论上解答了通信中所提出的问题。
随后是香农信息论的发展期。
由于香农理论的阐明与通信技术的发展,信息论的研究范围日益扩大。
1959年,香农发表了《保真度准则下的离散信源编码定理》,首次提出了率失真函数及率失真信源编码定理。
另一方面,多用户信息论的最早思路也是由香农于1961年在《双路通信信道》中提出,由此开拓了多用户信息论的研究。
在此基础上,Cover提出了广播信道,P.Bergmans,R.G.Gallager等人分别研究了广播信道的容量区域问题,指出只有降价广播信道的容量区域可以求解;同时Gamal于1979年找到了降价中继信道的容量区域。
各种不同类型的多用户信源、多用户信道模型被提出,许多相关的编码定理也得到证明。
最后,信息论近期发展的主要特征是向多学科结合方向发展,其重要的发展方向有:信息论与密码学、算法信息论与分形数学、信息论在统计与智能计算中的应用等等。
信息论的产生是以1948年香农奠基性论文《通信的数学理论》为起点,至今已有70多年的历史。
在这70多年中,电子、通信与计算机技术、产业与市场经历了空前的、大规模的发展,信息技术的产品进入千家万户,成为工作、学习与生活中不可缺少的组成部分。
可以毫不夸张地说,信息论在这场空前的技术革命的许多问题中起到了理论基础、思想先导与技术关键性的作用。
现代的快速通信、多媒体与网络技术、大数据处理无不受益于信息论与编码理论,以及它们的相关学科的发展,这些发展又推动了信息技术的革命,也丰富了信息论的内容。
通信系统模型香农信息论研究的问题主要来自于通信系统。
图1是目前较常见、较完整的(不含加密)的通信系统模型。
图1-1 通信系统模型由图1可知,通信过程可归结为:首先将信源发出的消息(又称为原始信息)由编码变换为信号,并进入信道成为信道的输入信号(简称输入信号或入口信号)。
输入信号经信道的传输,到达通信的另一端,形成输出信号(或出口信号)。
输出信号经译码处理把输出信号变为消息,这种消息是原始消息的还原,所以又称为还原消息。
还原消息最终由接受者接受,实现通信过程。
那么信息是如何有效地被传输的?信息论认为是通过信源编码方法。
下面我们以一无失真信源编码为例说明信息是如何有效地被传输的?即信息压缩过程。
假设信源有4个符号A,B,C和D,它们的分布概率分别是1/2,1/4,1/8和1/8。
对于这样的信源,若要进行信息传输,最简单的方法是将每个信源符号用两个'0’、'1’信道符号表示,即A用00,B用01,C用10,D用11,那么,每个信源符号在传输时用了2比特信息表示;由于信源分布不均匀,可以实施信息的压缩,即信源编码,如哈夫曼编码。
通过编码,可将A编码为0,将B编码为 10,将C编码为110,且将D编码为111。
计算平均每个信源符号用的信道符号数可表示为由此可见,通过信源编码,每个信源符号现仅需要7/4比特的信息表示,而不是原来2个比特,所以信息被压缩了。
更为重要的是,信息论通过信源编码理论,如无失真信源编码理论和限失真编码理论,给出了信息能被压缩的最大极限。
我们再看一下信道编码,它的目的是保证信息传输的可靠性。
我们知道,由于信道中存在着噪声,当信息传输时会产生差错。
例如对于二进制对称信道(交叉概率为e),由于噪声的干扰,当发送'0’时接收的符号可能是'0’(概率为1-e),也可能是'1’(概率为e);同样,当发送'1’时,接收到的符号可能是'0’(概率为e),也可能是'1’(概率为1-e)。
由此可见,信息在有噪声的信道中传输时会产生差错,即正解接收概率只有1-e,错误概率为e。
那么,通信系统如何保证信息的可靠呢?信息论告诉我们可以通过信道编码。
现我们通过最简单的重复编码方法来说明如何通过信道编码提高系统的可靠性。
针对重复编码,可将'0’编码成'000’,将'1’编码成'111’。
这样,在接收端,根据概率译码准则,人们获得正确的恢复消息的概率将被提高。
例如,当发送信息为'0’,通过信道编码,被编码成'000’,且'000’将在信道中传输。
当'000’在信道中传输时,接收端可能接收到'000’(没有差错),可能接收到'100’,'010’和'001’(出现一个差错),也可能接收到'110’,'011’和'101’(出现两个差错)和'111’(出现三个差错)。
对于'100’,'010’和'001’,由于出现一个差错的概率大于出现两个差错、出现三个差错的概率,我们认为它从000差错过来的可能性要大于从111差错过来的可能性。
因此若我们接收到的是'000’,'100’,'010’,'001’,我们将它们译码为000,于是,我们恢复出发送的信息为'0’。
这样,正解译码的概率为1-3e2-e3。
由于e远小于1,如e=0.01,则经过信道编码后的正确概率将为0.999699,而没有信道编码的正确传输率为0.99,由此可见通过信道编码,获得正确信息的概率被提高,信道编码成为在有噪声干扰的信道中信息传输可靠性的保证。
信息论是研究在含噪信道中,信息传输的有效性、可靠性和安全性问题。
表现为三大编码定理,即无失真信源编码定理,又称为第一极限定理;信道编码定理,又称为第二极限定理;限失真信源编定理,又称为第三极限定理。
因此,香农信息论又常称为狭义信息论。
信息论的应用及成果自从香农信息论和相关编码理论产生以来,随着电子、通信与计算机的发展,信息论的研究成果得到了广泛应用,最后我们看看经过70多年的发展,信息论获得到哪些应用和成果。
1编码技术在快速通信领域中的应用20世纪70、80年代的编码理论在快速通信技术中得到大量的应用。
当时的通信技术正在从低速向高速发展,通信手段正向微波、卫星等方向发展。
因此误差干扰问题就突现出来。