基于多元线性回归模型对AQI研究与分析摘要:目前中国大气污染形势严峻,以可吸入颗粒物、细颗粒物为特征污染物的区域性大气环境问题日益突出,损害人民群众的身体健康,影响社会和谐稳定。
本文根据相关数据,选取了一部分影响因子:PM2.5、PM10、CO、NO2、SO2、温度和降雨量,对我国部分城市的空气质量进行评价,采用了多元线性回归模型方法,预测空气质量指数。
通过回归分析发现,空气质量指数和PM2.5、PM10、CO、NO2和降雨量有关,并得到空气质量指数的预测模型,有利于我们对未来各城市空气质量的走势有所了解。
1研究背景和目的空气是人类生活中不可或缺的一部分,是城市生产活动的基础。
空气污染不仅会影响人的身体健康,还会对动植物的生长有非常不利的影响,损害农业和林业的发展,是城市所面临的最严峻的问题之一。
现代医学研究表明,呼吸新鲜自然的空气能够增强免疫力、促进血液循环、消除疲劳、提高工作效率等;否则就会引起乏力、烦闷、头晕、注意力不集中、精神不振等不良症状,日积月累,将可能会导致多种人体疾病的发生。
因此空气质量的好坏对我们的生活有着重大的影响。
为了研究空气的好坏,提出了空气质量的概念。
空气质量指数(air quality)的好坏反映了空气污染程度,它是依据空气中污染物浓度的高低来判断的。
空气质量问题始终是世界各国备受关注的一个问题。
随着我国工业化、城镇化的深入推进,能源和资源消耗持续增加,大气污染防治压力继续加大。
了解我国空气质量现状,及时采取有效措施进行治理,是改善空气质量的唯一途径。
我国从1973年召开第一次全国环境保护会议开始,通过制定环境保护五年计划,对空气污染物排放进行约束与管理,为城市环境空气质量保护、工业污染防治等提供方向。
为了改善环境空气质量,防止生态破坏,创造清洁适宜的环境,保护人体健康,研究影响空气质量的影响因子刻不容缓。
本文运用多元线性回归模型,对影响空气质量的因子进行分析,最终得到空气质量预测模型。
2研究方法与原理回归分析研巧的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。
考察某一个变量(因变量)与其余多个变量(自变量)的相互依赖关系,便是多元回归问题。
因此本文采用多元线性回归模型对空气质量指数进行预测。
空气质量指数AQI与巧染物浓度值间的多元线性回归模型建立为Y=a0+a1X1+a2X2+a3X3+a4X4+a5X5+a6X6+a7X7其中,a0表示回归常数,a i为个回归系数X1表示PM2.5含量,X2表示PM10含量,X3表示一氧化碳含量,X4表示二氧化氮含量,X5表示二氧化硫的含量,X6温度,X7表示降雨量。
3研究区域与数据来源主要选择2016年我国14个城市的PM2.5、PM10、CO、NO2、SO2、温度、降雨量等影响因子作为自变量对因变量AQI(空气质量指数)的影响分析。
并且构建了多元线性回归方程模型,最终得出利用PM2.5、PM10、CO、NO2、降雨量反映AQI的多元线性方程。
计算理论预测的AQI,利用获得的监测站的实际AQI,两者之间进行比较,来验证模型的准确性。
表1AQI及其影响因子因子城市PM2.5PM10CO NO2SO2温度降雨量AQI 荆门370.551671309萍乡7100.9678220.311吕梁6111.3183912013衢州10130.6672411230.714襄阳9121.05265100.514重庆32521.0543813230.551沈阳34510.7332211051拉萨29900.9543817070巴彦淖尔701091.2382713094银川65961.78391816088泉州631950.8253827295.3123库尔勒2231.5615911053和田4451.552210634130145喀什5191.43344721201524 过程与分析4.1 过程1从表2中可一看出,相关系数R为0.999,说明自变量与因变量之间有比较好的相关性,决定系数R方为0.998(R方反映总体的回归效果,越接近1越好),即在因变量的变异中,有99.8%可由自变量的变化来解释。
表3 回归系数及显著性检验表从表中可以看出:常数项的t的显著性概率为0.512>0.05,表示常数项与0没有显著性差异,表名常数项不应该出现在方程中。
而温度、NO2和SO2的t 的显著性概率为均大于0.05,表示几个参数与0没有显著性差异,则不应该出现在方程中。
PM2.5的t显著性概率为0.000<0.05,表示PM2.5的系数与0有显著性差异,PM2.5应当作为解释变量出现在方程中。
同理可知,CO、PM10和降雨量的t显著性概率均小于0.05,表面这几个参数的系数与0均有显著性差异,所以应当作为解释变量出现在方程中。
由此可见,PM2.5、PM10、CO和降雨量可以作为解释变量存在于方程中,而由于SO2的Sig值太大,所以首先将其从“解释变量”中剔除。
4.2 过程2表4 回归系数及显著性检验表模型非标准化系数标准系数t Sig.共线性统计量B标准误差试用版容差VIF(常量) PM2.5 PM10CO NO2温度降雨量2.2192.778.799.451.312.0071.04042.937.000.2474.054 .614.017.69837.094.000.4082.449 -.350.063-.133-5.594.001.2563.901 .093.033.0472.834.025.5341.871 .121.157.014.774.464.4352.298 -4.756.779-.131-6.105.000.3123.204模型非标准化系数标准系数t Sig.共线性统计量B标准误差试用版容差VIF(常量) PM2.5 PM10 CO NO2 SO2温度降雨量2.3163.327.696.512.312.0081.04039.566.000.2444.094 .614.018.69834.295.000.4072.458 -.350.068-.133-5.178.002.2563.910 .095.040.0472.357.056.4202.382 -.005.074-.001-.068.948.5951.681 .118.178.014.663.532.3962.526 -4.742.867-.131-5.469.002.2943.405从表中可以看出:常数项的t 的显著性概率为0.451>0.05,表示常数项与0没有显著性差异,表名常数项不应该出现在方程中。
而温度的t 的显著性概率为大于0.05,表示温度与0没有显著性差异,不应该出现在方程中。
PM2.5的t 显著性概率为0.000<0.05,表示PM2.5的系数与0有显著性差异,PM2.5应当作为解释变量出现在方程中。
同理可知,CO 、PM10、NO 2和降雨量的t 显著性概率均小于0.05,表面这几个参数的系数与0均有显著性差异,所以应当作为解释变量出现在方程中。
由此可见,PM2.5、PM10、CO 、NO 2和降雨量可以作为解释变量存在于方程中,而由于温度的显著性检验没有通过,故将其从“解释变量”中剔除。
4.3 过程3表5 回归系数及显著性检验表从表中可以看出PM2.5的t 显著性概率为0.000<0.05,表示PM2.5的系数与0有显著性差异,PM2.5应当作为解释变量出现在方程中。
同理可知,常数项、CO 、PM10、NO 2和降雨量的t 显著性概率均小于0.05,表面这几个参数的系数与0均有显著性差异,所以应当作为解释变量出现在方程中。
由此可见,常数项、PM2.5、PM10、CO 、NO 2和降雨量可以作为解释变量存在最终的到的模型包含这五个因子。
模型 非标准化系数标准系数 t Sig . 共线性统计量 B 标准误差 试用版容差 VIF (常量) PM2.5 PM10 CO NO2 降雨量 4.143 1.207 3.432 .009 .312 .007 1.040 44.049 .000 .247 4.052 .614 .016 .698 38.073 .000 .410 2.442 -.359 .060 -.136 -5.997 .000 .266 3.763 .093 .032 .046 2.884 .020 .535 1.869 -4.400.612-.122-7.186.000.4802.084表6 Anova d模型平方和df均方F Sig.1 回归33153.83174736.262845.828.000a残差33.59765.600总计33187.429132回归33153.80665525.6341150.387.000b 残差33.62374.803总计33187.429133回归33150.93056630.1861453.244.000c 残差36.49984.562总计33187.42913该表是使用方差分析Analysis of Variance对整个回归方程作显著性检验,可以看出表中每一步的Sig都小于0.05,即P值小于0.05,说明差异有显著性意义,即此方程有必要成立。
综上所述,本文最终得出空气质量指数的预测方程为:Y=4.143+0.312X1+0.614X2-0.359X3+0.093X4-4.4X7Durbin-Watson统计量是用来检验残差分布是否为正态分布的,进行回归估计是假设模型残差服从正态分布的,如果残差不服从正态分布,那么模型将是有偏的,也就是说模型的解释能力是不强的. Durbin-Watson统计量在2左右说明残差是服从正态分布的,若偏离2太远,那么你所构建的模型的解释能力就要受影响了。
上表分析:根据Durbin-Watson = 1.741 较为接近2,选择的数据较为合理,AQI 基本呈现正态分布。
PM2.5,PM10,CO,NO2,降雨量与AQI基本呈现线性关系,说明多元线性回归模型拟合效果满足基本要求。
图能够用来判断数据的是否异常,若数据都在(-2,2)的区间内,表明数据具有正态性;若数据点超出(-2,2)的区间,表明该数据为异常点,不能加入到回归直线拟合当中,也无正态性。
上表中散点都在(-2,2)之间,散点较为分散,所选数据效果较好。
5 结果与总结表7 模型检验文中通过对AQI的研究,R2检验通过说明影响因子PM2.5、PM10、CO、NO2、降雨量能较好的解释AQI变化,D-W检验通过说明回归分析模型基本符合正态分布,模型解释效果不错,T检验通过说明自变量之间差异性显著。