分析重金属污染的主要原因,首先要分区考虑,因为每个功能区污染源不同,起最主要作用的重金属也会不同,那么针对每区做如下分析。
在问题一中我们已经得出不同区域的重金属污染程度,但这是8种重金属综合影响的结果,究竟哪几种金属的污染效应最大就要看哪些对综合污染程度的贡献最大或者说相关性最大,为解决该问题,我们建立了基于BP神经网络的变量筛选模型。
本问将结合BP神经网络,应用平均影响值MIV(Mean Impact Value)方法来说明如何使用神经网络来筛选变量,找到对结果有较大影响的输入项,继而实现变量筛选。
MIV被认为是在神经网络评价变量相关性中最好的指标之一,用于确定输入神经元对输出神经元影响大小,其绝对值大小代表影响的重要性。
神经网络是由多个神经元组成的广泛互连的神经网络,能够模拟生物神经系统真实世界及物体之间所做出的交互反应。
神经网络处理信息是通过信息样本对神经网络的训练,使其具有人的大脑的记忆,辨识能力,完成名种信息处理功能。
它不需要任何先验公式,就能从已有数据中自动地归纳规则,获得这些数据的内在规律,具有良好的自我学习能力,良好的适应性和联想记忆功能,并行处理和非线性形转换的能力,特别适合于因果关系复杂的非确定性推理,判断,识别和分类等问题。
对于任意一组随机的,正态的数据,都可以利用神经网络算法进行统计分析,做出拟合和预测。
BP网络是由输入层,输出层以及一个或多个隐层节点互连而成的一种多层网,这种结构使多层前馈网络可在输入和输出间建立合适的线性或非线性关系,又不致使网络输出限制在-1和1之间,如图9 。
输入层隐含层输出层
图9 BP神经网络结构
学习过程中由信号的正向传播与误差的逆向传播两个过程组成。
正向传播时,模式作用于输入层。
设输入层输入的8种重金属单一污染指数为x,实际得到的综合污染指数大小为y,经过神经网络学习得到综合污染指数的大小为y 。
BP神经网络可以在输入层和输出层之间的隐含层建立一种非线性关系:
),,(x B f y ω=' (3)
式中,f 表示此种非线性关系,也可以理解为传播特征;ω表示网络中各神经元连接的权值;B 表示神经元的阈值。
经隐含层处理后,传入误差的逆向传播阶段。
设参考误差为E '
2
)(∑-'='y y E (4)
将输出误差通过隐含层向输入层逐层返回,并“分摊”给各层的所有单元,从而获得各层单元的参考误差或称误差信号,以作为修改各单元权值的依据。
设标准误差为E :
当E E >'时,修改各神经元权值和阈值;
当E E <'时,网路训练结束。
权值不断修改的过程,也就是网络学习过程。
常规BP 网络权值和阈值的调整公式如下:
⎪⎪⎩⎪⎪⎨⎧+∂'∂-=++∂'∂-=+)()1()
()1(t w E t t w E t jk jk jk ij ij ij ωηωωηω (5) ⎪⎪⎩
⎪⎪⎨⎧+∂'∂-=++∂'∂-=+)()1()()1(t B B E t B t B B E t B jk jk jk ij ij ij ηη (6) 式中,E '为参考误差;η为网络的学习速率即权值的调整幅度;)(t w ij 表示t 时刻输入层第i 个神经元与隐含层第j 个神经元的连接权值;)1(+t w ij 表示t 时刻输入层第i 个神经元与隐含层第j 个神经元的连接权值;)(t w jk 表示t 时刻隐含层第i 个神经元与输出层第j 个神经元的连接权值)1(+t w jk 表示1+t 时刻隐含层第i 个神经元与输出层第j 个神经元的连接权值;阈值下标意义与权值相同。
调整过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止,网络训练完毕。
针对本题我们以8种重金属的单一污染指数为输入层,作为训练样本M ,以内梅罗综合污染指数为输出层,利用原始数据训练一个正确的BP 神经网络,仿真得到结果为A 。
在网络训练终止之后,将训练样本M 中每一个自变量特征在其原值的基础上分别加/减10%构成两个新的训练样本1M 和2M :
⎩⎨⎧==M
M M M 9.01.121 (7) 将1M 和2M 分别作为仿真样本利用已建成的神经网络进行仿真,得到两个仿真结果为1A 和2A ,求出1A 和2A 的差值,即为变动自变量后对输出产生的影响变化值IV (Impact Value ):
21A A IV -= (8)
最后将IV 求取平均得出该自变量对应的平均影响值即MIV :
n IV
MIV ∑= (9)
n 表示每个自变量的输入个数。
按照上面步骤依次算出各个自变量的MIV 值,最后根据MIV 值的绝对值由大到小为各自变量排序,得到各自变量对网络输出影响相对重要性的位次表,从而判断出输入特征对于网络结果的影响程度,即实现了变量筛选。
流程图如下:
图10 基于BP 神经网络的变量筛选流程图
基于上述理论,通过matlab 编程(程序二)得到一下结果:
将表中数据进行横向比较(纵向无意义),得到了重金属污染的主要原因:生活区中Hg金属对该区的污染程度影响最大,其次是Zn和Ni。
我们知道生活垃圾中有大量的废旧电池,其中含有大量的Hg,造成较为严重的汞污。
工业区各重金属的污染程度都比较大,其中对该区污染影响最大的是Zn、Cu,次之是。