当前位置:文档之家› 神经网络期末报告

神经网络期末报告

学习报告——基于信息论的神经网络模型专业:计算数学班级:数学二班学号:*********姓名:***本报告主要分为两个部分,第一部分主要是对神经网络做一个整体的论述,阐述神经元的模型基理和特点,第二部分则是利用信息论的知识来研究神经元信号传递过程中,在有外界噪声的干扰下,如何保证信息最终能够达到最大输出。

第三部分列举了一个拟合图像的算例,用于对比不同算法对噪声的敏感程度。

1 神经网络概述1.1人工神经网络的概念人工神经网络(Artificial Neural Networks,ANNs),是人脑或自然神经网络对信息感知与处理等智能行为的抽象和模拟,是一种分布式并行处理系统,它具有自组织、自学习、自适应和非线性动态处理的特性。

可以实现人脑的概括、类比和推广能力,因而可以从大量数据中提取所需要的信息,通过联想记忆和推理等能力来获取所需要的数据。

目前,已经开发和应用的神经网络有30多种,比较典型的有以下几种:感知器(Perceptron),多层感知器(MLP),BP前向网络,Hopfield网络和竞争型(Kohonen)神经网络。

可以说人工神经网络就是模拟人思维的第二种方式。

1.2 人工神经网络的工作原理及特点人工神经网络是由大量的简单基本元件——神经元相互联接而成的自适应非线性动态系统。

每个神经元的结构和功能比较简单,但大量神经元组合产生的系统行为却非常复杂。

人工神经网络首先要以一定的学习准则进行学习,然后才能工作,它反映了人脑功能的若干基本特性,但并非生物系统的逼真描述,只是某种模仿、简化和抽象。

与数字计算机比较,人工神经网络在构成原理和功能特点等方面更加接近人脑,它不是按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律、完成某种运算、识别和过程控制。

人工神经网络吸取了生物神经网络的许多优点,因而有其固有的特点:(1)高度的并行性人工神经网络由许多相同的简单处理单元并列组合而成,虽然每个单元的结构和功能比较简单,但大量简单处理单元的并行行动,使其对信息的处理能力与效果惊人。

(2)高度的非线性全局作用当对系统对于设计人员来说,很透彻或者很清楚时,则一般利用数值分析,偏微分方程等数学工具建立精确的数学模型,但当对系统很复杂,或者系统未知,系统信息量很少时,建立精确的数学模型很困难时,神经网络的非线性映射能力则表现出优势,因为它不需要对系统进行透彻的了解,但是同时能达到输入与输出的映射关系,这就大大简化设计的难度。

(3)良好的容错性与联想记忆能力人工神经网络通过自身的网络结构能够实现对信息的记忆,所记忆的信息存储在神经元之间的权值中。

从单个权值中看不出所存储的信息内容,因而是分布式的存储方式。

这使得网络具有良好的容错性,并能进行聚类分析、特征提取、等模式信息处理工作:又宜于做模式分类、模式联想等模式识别工作。

(4)十分强的自适应、自学习功能人工神经网络可以通过训练和学习来获得网络的权值和结构,呈现出很强的自学习能力和对环境的自适应能力。

1.3人工神经元模型作为NN的基本单元的神经元模型,它有三个基本要素:(1)一组连接(对应于生物神经元的突触),连接强度由各连接上的权值来表示,权值为正表示激活,为负表示抑制。

(2)一个求和单元,用于求取各输入信号的加权和(线性组合)。

(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定范围内(一般限制在(0,1)或(-1,1)之间)。

,如图1所示此外还有一个阈值k输入信号连接权阈值1x 2x px ky 图1 基本神经元模型图形中的各个作用可用数学式子表示:1,,()pk kj j k k k k k k j u w x v net u y v θϕ====-=∑式中12,,,p x x x 为输入信号,12,,,k k kpw w w 为神经元的权值,k u 为线性组合结果,k θ为阈值,()ϕ⋅为激活函数,k y 为神经元的输出。

2 基于信息论的神经网络模型2.1信息论简介信息论是通信的数学基础,它是随着通信技术的发展而形成和发展起来的一门新兴横断学科。

信息论创立标志是1948年Claude Shannon(香农)发表论文“A Mathematical Theory of Communication ”。

在这篇文章中香农创造性的采用概率论的方法来研究通信中的问题,并且对信息给予了科学的定量描述,第一次提出了信息熵的概念。

1928年,哈特莱(Hartley)首先提出了用对数度量信息的概念。

一个消息所含有的信息量用它的可能值的个数的对数来表示。

信息的度量方式主要有以下几种:1.自信息:一个事件(消息)本身所包含的信息量,它是由事件的不确定性决定的。

随机事件的自信息量()i I x 是该事件发生概率()i p x 的函数,并且应该满足以下公理化条件:(1)()i I x 是()i p x 的严格递减函数。

即概率越小,事件发生的不确定性越大,事件发生后所包含的自信息量越大。

(2)极限情况下当()0i p x =时,()i I x →∞;当()1i p x =时,()0i I x =。

(3)另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。

可以证明,满足以上公理化条件的函数形式是对数形式。

2.平均自信息(信息熵):随机变量X 的每一个可能取值的自信息()i I x 的统计平均值定义为随机变量X 的平均自信息量:()[()]log Ki k kk K H x E I x P P =-==-∑这里考虑离散随机变量X 从-K 取到+K 间2K+1个可能值,kx x =出现的概率为(),01,1Kk k k kk KP P x x P P=-==≤≤=∑()H x 是一个系统的不确定性的度量(1)当对某一k ,1k P =时,则取其他值的概率均为0,这时完全确定,即为0,(2)当取任何一个值得概率均相等时,不确定性最大,事实上,由柯西不等式()log Kk k k K P P =--≤∑等式成立的条件为,当且仅当1212log log log log KKKKP P P P P P P P ------=====时,等式成立,所以对于2K+1个可能值得随机变量来说0()log(21)H x K ≤≤+3.联合熵、条件熵、平均互信息若有两个随机变量x ,y ,它们的离散分布分别是,x y P P ,二者的联合分布为xy P ,则有联合熵和条件熵,,(,)log ,(|)log(,)()xy xy xy xy x yx yyP H x y P P H x y P H x y H y P =-=-=-∑∑其中条件熵表示观测到输出y 后输入x 中剩余的不确定性大小,由于信息熵是观 测到y 以前x 中的不确定性,所以条件熵满足0(|)()H x y H x ≤≤它们的二者之差就是x 与y 间的平均互信息,表示为(,)()(|)I x y H x H x y =-(,)H x y()H x ()H y 图2 互信息与条件熵的关系由图2可知(,)I x y 有如下性质: (1)对称性:(,)(,)I x y I y x =, (2)非负性:(,)0I x y ≥,(3)(,)()(|)()(|)I x y H y H y x H x H x y =-=-。

4.连续信源的微分熵(差熵)当x 为连续变量时,设其分布密度为()f x ,则可定义()()log ()h x f x f x dx+∞-∞=-⎰称为微分熵,它虽然已不能代表连续信源的平均不确定性,也不能代表连续信源输出的信息量,但依然满足可加性。

当x 为多维变量时,即用向量表示,()f x 为联合分布密度,则()()log ()h x f x f x dx+∞-∞=-⎰下面讨论最大微分熵问题: 求满足约束条件 ()1f x dx +∞-∞=⎰ 22()()x f x dx μσ+∞-∞-=⎰的分布密度()f x ,使得其微分熵达最大,其中μ为均值,2σ为方差。

根据拉格朗日乘数法可知,只有当积分 212()log ()()()()f x f x f x x f x dx λλμ+∞-∞⎡⎤-++-⎣⎦⎰为稳定时,微分熵达最大,即上述积分中的被积函数 212()log ()()()()f x f x f x x f x λλμ-++-对()f x 求导为零时,()h x 最大,所以求导得2121()log ()x f x λλμ-++-=对上式取自然对数,则其解为 2121()()x f x e λλμ-++-=将其代入约束条件得2111ln(2)2λπσ=-2212λσ=-所以22()2()x f x μσ--=可见这是一个正态分布,此时随机变量x 的微分熵为22()222()()2x x h x dx μσμσ--+∞-∞⎧⎫⎡⎤-⎪=--⎬⎢⎥⎣⎦⎪⎭⎰2222()()22221()2x x dx x dx μμσσμσ----+∞+∞-∞-∞=⋅+-⎰⎰22211ln(2)22πσσσ=+⋅211ln(2)2πσ⎡⎤=+⎣⎦ (2.1)2.2单个神经元受噪声干扰神经网络的一个最终目的是使得输入信号最大程度的从输出端输出,尽量减少传输过程中的信息损失,即使得当有噪声是x 与y 间的互信息最大,这就是所谓的信息最大保持原则,而且最大信息保持原则与学习规则无关,它可以看作是信息论中信道容量这一概念在神经网络中的体现,即对于固定的信道,总存在一种信源(某种输入概率分布),使信道平均传输一个符号接收端获得的信息量最大,也就是说对于每个固定信道都有一个最大的信息传输率,这个最大的信息传输率即为信道容量。

设输入x 是L 维的,单个神经元受噪声干扰时,输出为1Li i i y w x v==+∑ (2.2)其中v 为噪声,假定v 为高斯随机变量,方差为2v σ,均值为0。

输出y 也是高斯分布的随机变量,方差为2y σ,且噪声与输入不相关,即 [],0i i E vx ∀= 按照互信息的定义有(,)()(|)I y x h y h y x =- (2.3)从(2.2)可见,给定输入向量x 下y 的分布相当于一个常数叠加上一个高斯分布的随机变量v ,因此,条件熵是输出中所含有关v 的信息(而不是x 的),于是有(|)()h y x h v =(2.3)式变为(|)()()I y x h y h v =-由(2.1)式知21()1ln(2)2y h y πσ⎡⎤=+⎣⎦ 21()1ln(2)2v h v πσ⎡⎤=+⎣⎦ 所以221(|)ln 2y v I y x σσ⎛⎫= ⎪⎪⎝⎭其中比值22yv σσ可看作是输出的信噪比,此时,当噪声方差2v σ一定时,使输出方差2yσ达到最大即可,换句话说,这就相当于使平均互信息(,)I y x 最大,因此,在一定条件下,使单个神经元的输出的方差最大就能使输入与输出间的互信息最大,从而使得信息得以最多输出。

相关主题