软件设计开发本栏目责任编辑:谢媛媛1引言回归分析用来研究多个预报因子对预报量的影响程度,然后建立它们的统计关系的方程式,对未来时刻的预报量做出预报估计,是目前气象业务与研究中最为常用的一种统计分析与预报方法[1-8]。
逐步回归可从影响预报量的许多因子中,挑选出一批相关较好的作为预报因子,在气象业务中应用甚广[9-11]。
回归分析在气象业务和研究中应用非常广,但该过程目前基本上都是编程来实现,编程复杂、易出错,基层气象工作者较难掌握不利于推广应用。
SPSS(StatisticalProductandServiceSolutions)意为统计产品与服务解决方案,统计和数据分析功能强大,界面友好,易学易用,目前是非统计专业人员应用最多的统计软件[12-13]。
SPSS提供了多种回归分析过程,如Linear(线性回归)、Nonlinear(非线性回归)、CurveEstimation(曲线拟合)、BinaryLogistic(二分类,即事件概率回归)等。
本文简要介绍如何使用统计软件SPSS进行线性回归分析,为便于与传统编程方式对比,分析实例采用目前气象常用统计教科书中介绍“逐步回归分析”一节中的经典案例,逐步回归分析的原理和编程实现过程可参考文献[1-2]。
2线性逐步回归分析过程首先根据表1建立数据文件,其中y为预报量,x1、x2、x3和x4为预报因子。
表1预报因子与预报量资料表在SPSS菜单栏上选择Analyze→Regression→Linear(图1左),则出现LinearRegression(线性回归分析)主对话框(图1右)。
将“y”选入Dependent(因变量)框中,“x1”、“x2”、“x3”和“x4”选入Independent(自变量)框中,Method框选择Stepwise(逐步回归);Save子对话框中选择PredictedValues下的Unstandardized(将预报量的估计值另存为新变量),Options子对话框选择UseFValue;其余默认,点OK,则得线性逐步回归分析结果。
图1线性回归分析过程(左为Regression菜单;右为LinearRegression主对话框)收稿日期:2007-12-17作者简介:罗凤明,男,工程师,主要从事网络维护,业务开发及服务工作。
如何使用统计软件SPSS进行回归分析罗凤明,邱劲飚,李明华,肖炳坤(惠州市气象局,广东惠州516001)摘要:简要介绍如何使用统计软件SPSS进行线性回归分析,并给出了逐步回归分析实例。
使用SPSS进行回归分析操作简单且全面,与编程相比大大减小了难度、节约了时间。
关键词:计算机应用;SPSS;回归分析;逐步回归中图分类号:TP312文献标识码:A文章编号:1009-3044(2008)02-10293-02HowtodoRegressionAnalysisbyStatisticalSoftwareSPSSLUOFeng-ming,QIUJin-biao,LIMing-hua,XIAOBin-kun(HuizhouMeteorologicalStation,Huizhou516001,China)Abstract:IntroducedinbriefhowtodolinearregressionanalysisbystatisticalsoftwareSPSS,andgaveanex-ampleofstepwiseregressionanalysis.ItissimplyandroundlytodoregressionanalysisbySPSS,andiseasierandtimesavingcomparedwithprogramme.Keywords:computerapllication;SPSS;regressionanalysis;stepwiseregressionLinearRegression过程Method单选框中提供了Enter(强制引进法)、Stepwise、Remove(强制剔除法)、Backward(逐步剔除法)和Forward(逐步引进法)5种方法,Method单选框与Block按钮组的组合使用,可对引入的不同变量组进入回归方程的方法进行单独设置。
Statistics子对话框可供用户选择更多的输出统计量。
Plots子对话框中提供了散点图、标准化残差图等,主要用于残差序列的分析。
Save子对话框中提供了将预测值、残差等分析结果存为数据编辑窗口中新变量的功能,以便进一步分析。
Options子对话框可供用户设置多元线性回归分析中纳入和排除的标准以及缺失值的处理方式。
3线性逐步回归分析结果表2、表3和表4给出了线性逐步回归分析的部分结果。
表2给出了回归模型(方程)的拟合优度,表3给出了回归系数,表4给出了回归模型方差分析结果。
由表2、表3和表4可知:回归方程1:y!=117.568-0.738x4,R为0.821,校正的决定系数Ra2为0.645,残差均方差σ!2为80.352,回归方程和回归系数都通过了0.01的显著性检验。
回归方程2:y!=103.097+1.440x1-0.614x4,R为0.986,校正的决定系数Ra2为0.967,残差均方差σ!2为7.476,回归方程和回归系数都通过了0.01的显著性检验。
回归方程3:y!=71.648+1.452x1+0.416x2-0.237x4,R为0.991,校正的决定系数Ra2为0.976,残差均方差σ!2为5.330,回归方程通过了0.01的显著性检验,但预报因子x2和x4的回归系数未通过0.05的显著性检验。
回归方程4:y!=52.577+1.468x1+0.662x2,R为0.989,校正的决定系数Ra2为0.974,残差均方差σ!2为5.790,回归方程和回归系数都通过了0.01的显著性检验,该方程为“最优”回归方程,分析结果与参考文献一致。
应用统计学中逐步回归筛选自变量的准则,一般有残差平方准则和统计量显著性检验准则2种。
前者是将自变量个数与残差平方和的值结合起来(σ!2)考虑选取哪些自变量构造模型,但SPSS目前尚未提供该项功能;后者是通过对回归系数进行显著性检验,选择有统计学意义的自变量构成模型,SPSS目前支持该项功能。
而气象统计分析中常根据因子既显著、方程的残差均方差σ!2又最小的原则来挑选“最优”回归方程,此时可以对多个回归模型通过人工判断找出“最优”回归方程。
由上面的分析可知,回归方程2和方程4较好,其中方程4为“最优”回归方程,与参考文献的分析结果一致。
图2给出了预报量和预报方程2和方程4估计量的变化图。
由图2可知,预报量与预报方程2和方程4的估计量的变化趋势基本一致,2个回归方程拟合都较好。
表2ModelSummary(回归模型拟合优度)表3Coefficients(回归系数)表4ANOVA(回归模型方差分析结果)图2预报量与预报方程的估计量变化图由上面的回归分析过程可知,统计软件SPSS集数据处理、多种回归分析方法、回归检验、回归预测、残差分析和绘制图表等功能于一身,回归分析功能强大且易学易用。
使用统计软件SPSS进行回归分析非常简单,靠鼠标点击即可完成操作,同时利用Paste键可将操作过程存为程序,方便下次直接调用,与教科书中提供的编程方法相比提供了更多回归分析功能、提高了方程的精度、且大大减小了操作难度、节约了时间。
参考文献:[1]黄嘉佑.气象统计分析与预报方法[M].第3版.北京:气象出版社,2004:58-72.(下转第304页)(上接第294页)[2]施能.气象科研与预报中的多元分析方法[M].第2版.北京:气象出版社,2002:46-55.[3]林良勋.广东省天气预报技术手册[M].北京:气象出版社,2006.[4]徐海量,陈亚宁.塔里木河下游荒漠化多元回归模型分析[J].干旱区资源与环境,2003,17(4):78-82.[5]李丽.用深层地温资料建立多元非线性回归方程预报韶关站前汛期降水量[J].广东气象,2003,25(2):8-9.[6]彭武坚.主分量逐步回归法在桂东南低温阴雨预报的应用[J].广西气象,2005,26(S1):41-44.[7]孔宁谦,陈润珍.用统计动力方法作盛夏南海中北部热带气旋强度预报[J].广西气象,2006,27(1):4-5.[8]唐毓勇,蒋国兴.均生函数残差预报模型在降水预报中的试验研究[J].广西气象,2006,27(3):5-8.[9]曾琮,陈创买.主分量逐步回归在气温预测中的应用[J].中山大学学报:自然科学版,2006,45(4):107-110.[10]陈慧娴,黄露菁,陈创买.用逐步回归方法预报番禺年降水量[J].广东气象,2004,26(4):7-9.[11]彭端,黄天文,郭媚媚,等.用逐步回归模型预测肇庆市汛期降水[J].广东气象,2005,27(2):16-17.[12]张文彤.SPSS11统计分析教程(高级篇)[M].北京:希望电子出版社,2002.[13]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004.(1)计算信息系统S的区分矩阵M(S);(2)根据区分矩阵M(S)计算相关的区分函数fm(s);(3)计算区分函数fm(s)的最小析取范式,求出所有的约简。
下面给出基于区分矩阵的算法:输入:一个目标决策系统S=(U,A,V,f),其中U是论域,A=CUD,C是条件属性集合,D是决策属性集合。
输出:S的属性约简及核属性。
(1)计算“U/IND(C),令Core=0,Reduct=0,n={U/IND(C)},定义一个nxn的矩阵结构M(n,n),并令其所有元素为O;(2)生成区分矩阵:fori=1ton{forj=i+lton{fork=1to|C|{ifCk(Xi)≠Ck(Xj)andD(Xi)≠D(Xj)thenM(i,j)=M(i,j)∪Ck}}}(3)求约简及核值:fori=lton{forj=i+1ton{if|M(i,j)|=1thenCore=Core∪M(i,j)Reduct=Reduct∩M(i,j)}}Core为核值,Reduct为约简。
该算法的优点是能够直接提取出规则,缺点是计算的复杂度高。
因此,只能处理非常小的数据。
考虑到区分矩阵算法复杂度的问题,从而提出了区分矩阵的简化方法。
所谓简化方法就是一边从信息系统中提取关于属性值是区分的属性并构成区分合取范式,一边做这种逻辑公式的等价变化,直接得到最小析取范式,从而避免生成区分矩阵的中间环节,最终达到节省空间和时间,降低约简算法复杂度。
当然建立在区分矩阵的基础上,还有很多改进算法,而且在一定程度上,都对算法复杂度有一定的降低。