信息论及其应用摘要信息论是在人们长期的通信工程实践中,由通信技术和概率论、随机过程和数理统计相结合而逐步发展起来的一门应用数学学科,能够运用概率论和数理统计的方法来研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题。
本文主要介绍信息论的一些基本知识以及它在数据压缩、密码学、统计及信号处理中的应用。
关键字:信息论三大定律应用一信息论的产生及发展信息论是20世纪40年代由当代伟大的数学家、美国贝尔实验室杰出的科学家香农提出的,他在1948年发表了著名的论文《通信的数学理论》,为信息论奠定了理论基础。
信息论有狭义和广义之分。
狭义信息论即香农早期的研究成果,它以编码理论为中心,主要研究信息系统模型、信息的度量、信息容量、编码理论及噪声理论等。
广义信息论又称信息科学,是以信息为主要研究对象,以信息及其运动规律为主要研究内容,以信息科学方法论为主要研究方法,以扩展人的信息器官的功能为主要研究目标的一门新兴的横向科学。
它把各种事物都看作是一个信息流动的系统,通过对信息流程的分析和处理,达到对事物复杂运动规律认识的一种科学方法。
它的特点是撇开对象的具体运动形态,把它作为一个信息流通过程加以分析。
信息论与编码研究的是整个通信的最基本的问题,可以说信息论是我们专业的大纲,从香农1948年发表《通信中的数学原理》到现在60余年的时间,信息论对整个行业的发展有着不可替代的指导意义。
信息论中最著名的是香农的四大定理(国内一般称三大定理),第一定理信源编码定理,是解决通信中信源的压缩问题,也是后来图像和视频压缩的基本定理;第二定理信道编码定理,是解决通信中数据能够在特定信道中传输的最大值的问题,即最大数据速率小于信道容量,容量问题是通信中研究最活跃的问题之一;第三定理有损信源编码定理解决了在允许一定失真的情况下的信源编码问题,比如jpeg图像编码,mp3音频编码,都是有损的编码,其都是在香农第三定理的界之下得出的;第四定理信源信道分离定理,解决了信源编码和信道编码能够分开来解决的问题,所以现在做信源编码的可以是一部分人,做信道编码的可以是另一部分人。
二信息论的研究内容实际通信系统比较复杂,但是任何通信系统都可以抽象为信息源发送机信道接收机收信者,因此,通信过程中信息的定量表示信源和信宿信道和信道容量编码和译码等方面的问题,就构成了信息论的基本内容。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。
信息传输和信息压缩是信息论研究中的两大领域这两个方面又由信息传输定理信源信道隔离定理相互联系。
1. 信息。
从广义上讲,信息是指不同物质在运动过程中发出的各种信号;从狭义上讲,信息是指各种物质在运动过程中发出的映出来的数据。
指令消息情报图象信号等对于信息的定义,目前学术界还没有一个一致的看法,信息论的创始人申农认为,信息就是用以消除随机的不定性的东西;控制论的创始人维纳认为,信息是人与环境相互交换内容的名称,也可以叫负商。
2. 信息量。
它是信息多少的量度许多科学家对信息进行深入的研究以后,发现事件的信息量与事件出现的概率有密切的关系:事件发生的概率大,信息量就越小;反之,事件发生的概率就越小,信息量就越大。
例如:池塘周围的护栏越密,小孩或大人掉进池塘的可能性就越少;反之则反[4]。
3. 信源和信宿。
信源即消息的来源消息一般以符号的形式发出,通常就有随即性信源是多方面的,自然界的一切物体都可以成为信源。
如果信源发出的信号是确定的,即是事先知道的,就不会传输任何信息如果符号的出现是时刻变化的随机事件,就可以用随机变量来表示以随机变量来研究信息,是信息论的一个基本思想。
信宿是信息的接收者,它能够接收消息,并使消息再现,达到通讯的目的信宿可以是人,也可以是机器。
例如:我们看电视,电视是信息的发出者,人从电视上了解各种各样的信息,人就是信宿;电视相对于各个电视台来说,也是一个信宿,即信息的接收者。
4. 信道和信道容量。
在信源和信宿之间存在着传递信息的通道,其主要任务是传输信息和存储信息。
信源发出的信息必须进行编码,使之能转化成为能在信道中传输的信号信道容量是指信道传输信息的多少以及速度。
通讯速度的大小并不完全取决于信道的性质,它还随信源性质和编码方法而改变。
5. 编码和译码。
“码”是一个符号表达和将这些符号排列起来所必须遵守的一些约定。
运用这些符号,遵守相应的约定把信息变成信号,这一过程就是编码用符号来表达消息,称为信源编码;将符号转换成为信道所要求的信号,称为信道编码。
在通讯系统里,消息往往要经过几次编码,才能变成适合信道传输的信号当信号系列通过信道输出后,必须经过译码复制成消息,才能送达接收者。
译码过程正好与编码过程相反,所以译码就是编码的逆过程。
6. 信息方法。
所谓信息方法,是指用信息的观察来考察系统的行为结构和功能,通过对信息的获取、传递、存储、加工过程的分析,达到对某个复杂系统运动过程的规律性认识。
它不需要对事物的整体结构进行剖析性的分析,而仅仅对信息的流程加以综合考察,就可获得关于系统的整体性知识。
信息方法的主要特点:是完全撇开对象的具体运动形态,把系统的运动过程抽象为信息过程,在不考虑系统内具体物质形态、不打开机器或活体的条件下研究系统与外界之间的输入与输出的关系。
这种方法也叫控制论中的黑箱方法。
信息与控制信息论方法与控制论方法是紧密相连的没有信息就无所谓控制,控制就是通过信息来实现对系统行为、功能的调整信息方法。
也可以说是用信息观点来考察控制系统的行为功能结构的方法信息方法的另一个特点是:它不是为了说明客观对象,而是为了说明客观对象的过程,说明主、客体之间信息交换过程的方式,以达到对控制系统运动过程的规律性认识。
如果从物质构成和运动形态来看,生命系统社会系统人造技术系统是极为不同的,但是,他们的运动过程都可以抽象化为一个信息传递、加工、交换的过程。
三信息论的具体应用而当今社会,从DVD到个人电脑,从卫星通信到文件,在我们的现实生活中,信息论无不扮演着不可或缺的角色。
信息是人类社会互通情报的实践过程中产生的,在当今信息社会中,常把它作为人们认识世界的向导与智慧的源泉,也是社会与社会生产力发展的动力与资源。
信息作为一种资源,如何开发、利用、共享是人们普遍关注的问题。
信息是信息论中最基本最重要的概念。
信息论是应用近代数理统计方法研究信息的传输、存储与处理的科学。
其基本任务是为设计有效而可靠的通信系统提供理论依据,主要特点是理论的成功应用。
接下来我们将从以下四个方面具体介绍信息论的应用:1. 信号处理方面信号处理包括数据、影象、语声或其他的信号的处理,从信息论的观点看,信号则是观察客观事物表达其相应信息的技术手段,也就是特定信息的载体[9]。
信息是通过信号来表达的,对信息的加工和处理,也就是信号的加工和处理。
所有处理过程无非是信源编码,变换,过滤或决策过程,其实变换也是一种编码过程。
这些过程中的大部分的信息论基础是信息率失真理论。
譬如数字信号处理,其技术可以归结为以快速傅里叶变换和数字滤波器为核心,以逻电路为基础,以大规模集成电路为手段,利用软硬件来实现各种模拟信号的数字处理,其中要用到信息论中的信号检测、信号变换、信号的调制和解调、信号的运算、信号的传输和信号的交换等。
2. 数据压缩理论方面信息论之父香农在 1948 年发表的论文《通信的数学理论》一文中指出,任何信息都有冗余,冗余大小和信息中每个符号的出现概率或者说不确定性有关。
香农把信息中排除了冗余后的平均信息量称为信息熵,并给出了计算信息熵的数学表达式,这为数据压缩奠定了理论基础。
数据压缩的主要目的是力求用最少的数据表示信源所发出的信号,使信号占用的存储空间尽可能小,以达到提高信息传输速度的目的。
数据压缩在近代信息处理问题中有大量的应用,无论在数据存储或传送中,通过数据压缩不仅可以大大节省资源利用的成本,而且把一些原来无实用意义的技术,如多媒体技术中的一些问题,达到具有实用意义的标准。
数据压缩作为信息论研究中的一项内容,主要是有关数据压缩比和各种编码方法的研究,即按某种方法对源数据流进行编码,使得经过编码的数据流比厡数据流占有较少的空间。
其中基于符号频率统计的哈夫曼编码效率高,运算速度快,实现方式灵活,使得其在数据压缩领域得到了广泛的应用。
不过,哈夫曼所得的编码长度只是对信息熵计算结果的一种近似,还无法真正逼近信息熵的极限。
所以尽管哈夫曼编码具有良好的压缩性能,也一直占据重要的地位,还是不断有基于哈夫曼编码的改进算法提出。
数据压缩技术的不断完善是依靠在信息论这门学科的成长上的,信息能否被压缩以及能在多大程度上被压缩与信息的不确定性有直接的关系,人工智能技术将会对数据压缩的未来产生重大影响。
3. 统计方面中信息论在统计中的应用一般指信息量在统计中的应用,也有编码定理与码结构在统计中的应用等问题。
由于统计学研究的问题日趋复杂,如统计模型从线性到非线性,统计分布从单一分布到混合分布,因此信息量在统计中的作用日趋重要,在许多问题中以信息量作为它们的基本度量[8]。
在统计领域里,统计计算技术近年来发展很快,它使许多统计方法,尤其是Bayes 统计得到广泛的运用。
Bayes 计算方法有很多,其中一类是直接应用于后验分布以得到后验均值或后验众数的估计,以及这种估计的渐进方差或其近似。
EM 算法就是一种迭代方法,主要用来计算后验分布的众数或极大似然估计。
这种方法可以广泛的应用于缺损数据,截尾数据,成群数据,带有讨厌参数的数据等所谓的不完全数据。
EM 算法的最大优点是简单和稳定,主要目的是提供一个简单的迭代算法来计算极大似然估计,问题是如此建立的 EM 算法得到的估计序列是否收敛。
它的特点与信道容量的递推渐近算法相似,但应用更为广泛。
EM算法实现简单,数值计算稳定,存储量小,并具有良好的全局收敛性。
EM算法是一种求参数极大似然估计的迭代算法,在处理不完全数据中有重要应用。
信息与统计相结合的其他典型问题还很多,如假设检验中的两类误差估计问题,试验设计问题,信息量在有效估计中的应用问题等,这些问题已使信息论与统计学想成相互推动发展的局面。
4. 密码学方面密码学是研究编制密码和破译密码的技术科学。
从传统意义上来说,密码学是研究如何把信息转换成一种隐蔽的方式并阻止其他人得到它。
密码术的研究和应用虽有很长的历史,但在信息论诞生之前,它还没有系统的理论,直到香农发表的保密通信的信息理论一文,为密码学确立了一系列的基本原则与指标,如加密运算中的完全性、剩余度等指标,它们与信息的度量有着密切相关。
之后才产生了基于信息论的密码学理论,所以说信息论与密码学的关系十分密切。
近代密码学由于数据加密标准与公钥体制的出现于应用,使近代密码学所涉及的范围有了极大的发展,尤其是在网络认证方面得到广泛应用,但其中的安全性原理与测量标准仍未脱离香农保密系统所规定的要求,多种加密函数的构造,如相关免疫函数的构造仍以香农的完善保密性为基础。