当前位置:文档之家› 基于多元统计分析的水质综合评价

基于多元统计分析的水质综合评价


0 引 言
延安市的水资源问题制约着整个城市的发展, 影响着整个市区的环境景观和人民的健康。 如何科 学准确评价母亲河—— 延河的水质状况, 已成为延 安市环保和水利等部门的重要课题。 水质评价包含 两方面内容: 一是水质污染相似性的分类研究; 二是 水质污染程度的评价。 水质系统是由多种因子构成 的复杂系统, 水质质量受到诸多指标 (污染物含量或 指数) 的影响, 每项指标从不同角度反映水质污染状 况。 本文运用因子分析方法将所取断面进行水质污 染程度的综合评价、分析, 确定影响水质质量状况的 综合因子; 以聚类分析方法对各断面水质污染相似 性进行研究, 给出分类处理结果; 应用逐步回归的数
第 17 卷 第 4 期 2006 年 8 月
水资源与水工程学报 Journal of Water Resources & Water Engineering
基于多元统计分析的水质综合评价
Vol.17 No.4 Aug .,2006
李传哲1, 于福亮1, 刘 佳1, 鲍卫锋2, 杜子芳3
(1. 中国水利水电科学研究院水资源所, 北京 100044;2. 武汉大学 水资源与水电工程科学国家重点实验室, 武汉 430072;3. 中国人民大学 统计学院, 北京 100872 )
Comprehensive evaluation of water quality based on multivariate statistical analysis
LI Chuan-zhe1, YU Fu- liang1, LIU Jia1, BAO Wei -feng 2, Du Zi-fang 3
-0 .174
0.972
-0 .779 -2 .30 ×10-2
-0 .155 8.14 ×10-3
0.868 0.854
-0 .145 0.139
-0 .755 7.31 ×10-3
0.822 0.781
-0 .339
0.190
0.766
0.652 0.741 0.772
0.168 -2 .85 ×10-2
原始指标矩阵 x = (x ij ) np 。由于所选指标数据过分 悬殊, 为消除因此而导致的噪音影响, 对原始数据进
行标准化处理。根据相关矩阵可知, 各因子间的相关
性较好, 适合用因子分析法提取综合因子。旋转前后
各因子的特征值、贡献率和累积贡献率见表 2。
因子分析中选取因子的两个原则: 特征值大于1
第 4 期 李传哲, 等: 基于多元统计分析的水质综合评价
73
表 1 2002 年延河各监测断面水质监测结果统计表 (综合污染指数除外)
mg L
指标
悬浮物
总硬度
高锰酸 盐指数
生化 需氧量
非离 子氨
亚硝 酸盐氨
硝酸 盐氨
挥发酚

六价铬
石油类
综合污 染指数
断面 1 50.7 164.3 2.53 断面 2 47.5 141.9 4.12 断面 3 56.7 154.9 4.46 断面 4 64.8 175.5 4.20 断面 5 73.0 187.6 3.96
2.0
0.013 0.082 0.36 0.001 0.005 0.013 0.189 7.18
6.0
0.133 0.134 0.37 0.002 0.008 0.014 0.183 14.65
4.4
0.167 0.154 0.36 0.003 0.010 0.014 0.247 17.74
4.1
0.027 0.170 0.38 0.002 0.012 0.013 1.262 31.01
理统计方法, 寻求主要污染指标与水质综合污染指 数间的关系。
1 断面和指标的选取
延安市地面水常规监测的主要河流为延河。 根 据《水环境监测技术规范》的要求, 设 1 号杨家湾断 面、2 号柳树店断面、3 号点四联队断面、4 号点七里 村断面、5 号点王家川断面, 共5 个断面, 均为省控断 面, 监测河段长80 km。本文选取的监测指标为悬浮 物、总硬度、高锰酸盐指数、生化需氧量、非离子氨、 亚硝酸盐氨、硝酸盐氨、挥发酚、砷、六价铬、石油类 等 11 项。数据资料为 2002 年这 5 个监测断面 11 项 监测指标的年平均值, 见表 1。
4.0
0.047 0.182 0.38 0.002 0.013 0.018 0.282 12.68
数据来源: 延安市环境保护局 2002 年水环境保护质量报告书。
2 因子分析法在延河水质污染程度综 合评价中的应用
2. 1 因子分析基本原理
因子分析 (Factor Analysis ) 是主成分分析的推
3.585
32.589
93.442
1.408
12.803
100.000
100.000
100.000
100.000
100.000
100.000
100.000
100.000
累积贡 献率 % 48.051 80.640 93.442
特征值
4.590 3.937 1.752
旋转后 提取的 变量贡 献率 % 41.728 35.791 15.923
m
∑ 的因子; 因子的累积贡献率大于或等于85%, 即 i=1
Κi ≥ 85% 。从表2 和图1 (因子碎石图) 看出, 选取前
p
3
11
∑ ∑ 3 个因子满足 Κj Κj =93.442% ≥85% , 可
j =1
j =1
以作为综合因子充分反映各污染指标及水环境要素
的变化情况。
因子
特征值
初始的 变量贡 献率 %
9 -1 .323 ×10-16 -1 .203 ×10-15
10 -2 .183 ×10-16 -1 .985 ×10-15
11 -4 .090 ×10-16 -3 .718 ×10-15
表 2 总方差分解
旋 转 前
累积贡 献率 %
特征值
提取的 变量贡 献率 %
48.051
5.286
48.051
80.640
累积贡 献率 % 41.728 77.519 93.442
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
83 水 资 源 与 水 工 程 学 报 2006 年
个样品, 每个样品观测 p 个变量。为了对变量进行比
较, 并消除由观测量纲的差异及数量级所造成的影
响, 将样本观测数据进行无量纲化或标准化处理, 使
标准化后的变量的均值为 0, 方差为 1。② 计算变量
的相关系数矩阵, 求出特征值 Κ, 得到贡献率和累积
贡献率, 选取前m (m < p ) 个主因子, 使得累积贡献
Abstract : Using the methods of factor analysis and cluster analysis , the paper has made the quan 2 titative analysis and comprehensive assessment for the polluting status in degrees and in similari 2 ties of monitoring sections in Yanhe River. A method of stepwise regression analysis on water polluting is discussed with examples of the comprehensive water polluting index. It can be pro 2 vided some scientific bases to assess the water environment situation of Yanhe River. Key words: water pollution ; factor analysis ; cluster analysis ; stepwise regression analysis
(1. Department of Water Resources , China Institute of Water Resources and Hydropower Research , Beijing 100044, China ;2. State Key Laboratory of Water Resources and Hydropower Engineering Science , Wuhan University , Wuhan 430072, China ;3. School of Statistics , Renmin University of China , Beijing 100872, China )
收稿日期: 2006202215; 修稿日期: 2006203216 基金项目: 延安市水资源综合规划项目; 全国水资源综合规划专题 (01-06-02 ) 作者简介: 李传哲 (19832) , 男 (汉族) , 湖北荆州人, 硕士研究生, 主要从事水资源合理配置、规划评价等方面的研究。
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
提取的 3 个因子代表了 11 个因子的综合信息, 因而很难命名。为此需对其旋转, 使因子载荷值向两 极端趋近, 以明确各因子代表的含义。采用Varimax with Kaiser Normalization 因子旋转法对初始因子
载荷矩阵施以 25 次的正交旋转。 计算结果 (表 3) 表 明旋转后因子分类极其明确。 同时由表 2 可知旋转 前后综合因子代表的信息量始终满足大于或等于 85% 的要求, 可认为旋转前后信息量没有损失。
相关主题