当前位置：文档之家› 如何使用统计软件SPSS进行回归分析_罗凤明

如何使用统计软件SPSS进行回归分析_罗凤明

软件设计开发本栏目责任编辑：谢媛媛１引言回归分析用来研究多个预报因子对预报量的影响程度，然后建立它们的统计关系的方程式，对未来时刻的预报量做出预报估计，是目前气象业务与研究中最为常用的一种统计分析与预报方法［１－８］。

逐步回归可从影响预报量的许多因子中，挑选出一批相关较好的作为预报因子，在气象业务中应用甚广［９－１１］。

回归分析在气象业务和研究中应用非常广，但该过程目前基本上都是编程来实现，编程复杂、易出错，基层气象工作者较难掌握不利于推广应用。

ＳＰＳＳ（ＳｔａｔｉｓｔｉｃａｌＰｒｏｄｕｃｔａｎｄＳｅｒｖｉｃｅＳｏｌｕｔｉｏｎｓ）意为统计产品与服务解决方案，统计和数据分析功能强大，界面友好，易学易用，目前是非统计专业人员应用最多的统计软件［１２－１３］。

ＳＰＳＳ提供了多种回归分析过程，如Ｌｉｎｅａｒ（线性回归）、Ｎｏｎｌｉｎｅａｒ（非线性回归）、ＣｕｒｖｅＥｓｔｉｍａｔｉｏｎ（曲线拟合）、ＢｉｎａｒｙＬｏｇｉｓｔｉｃ（二分类，即事件概率回归）等。

本文简要介绍如何使用统计软件ＳＰＳＳ进行线性回归分析，为便于与传统编程方式对比，分析实例采用目前气象常用统计教科书中介绍“逐步回归分析”一节中的经典案例，逐步回归分析的原理和编程实现过程可参考文献［１－２］。

２线性逐步回归分析过程首先根据表１建立数据文件，其中ｙ为预报量，ｘ１、ｘ２、ｘ３和ｘ４为预报因子。

表１预报因子与预报量资料表在ＳＰＳＳ菜单栏上选择Ａｎａｌｙｚｅ→Ｒｅｇｒｅｓｓｉｏｎ→Ｌｉｎｅａｒ（图１左），则出现ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ（线性回归分析）主对话框（图１右）。

将“ｙ”选入Ｄｅｐｅｎｄｅｎｔ（因变量）框中，“ｘ１”、“ｘ２”、“ｘ３”和“ｘ４”选入Ｉｎｄｅｐｅｎｄｅｎｔ（自变量）框中，Ｍｅｔｈｏｄ框选择Ｓｔｅｐｗｉｓｅ（逐步回归）；Ｓａｖｅ子对话框中选择ＰｒｅｄｉｃｔｅｄＶａｌｕｅｓ下的Ｕｎｓｔａｎｄａｒｄｉｚｅｄ（将预报量的估计值另存为新变量），Ｏｐｔｉｏｎｓ子对话框选择ＵｓｅＦＶａｌｕｅ；其余默认，点ＯＫ，则得线性逐步回归分析结果。

图１线性回归分析过程（左为Ｒｅｇｒｅｓｓｉｏｎ菜单；右为ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ主对话框）收稿日期：２００７－１２－１７作者简介：罗凤明，男，工程师，主要从事网络维护，业务开发及服务工作。

如何使用统计软件ＳＰＳＳ进行回归分析罗凤明，邱劲飚，李明华，肖炳坤（惠州市气象局，广东惠州５１６００１）摘要：简要介绍如何使用统计软件ＳＰＳＳ进行线性回归分析，并给出了逐步回归分析实例。

使用ＳＰＳＳ进行回归分析操作简单且全面，与编程相比大大减小了难度、节约了时间。

关键词：计算机应用；ＳＰＳＳ；回归分析；逐步回归中图分类号：ＴＰ３１２文献标识码：Ａ文章编号：１００９－３０４４（２００８）０２－１０２９３－０２ＨｏｗｔｏｄｏＲｅｇｒｅｓｓｉｏｎＡｎａｌｙｓｉｓｂｙＳｔａｔｉｓｔｉｃａｌＳｏｆｔｗａｒｅＳＰＳＳＬＵＯＦｅｎｇ－ｍｉｎｇ，ＱＩＵＪｉｎ－ｂｉａｏ，ＬＩＭｉｎｇ－ｈｕａ，ＸＩＡＯＢｉｎ－ｋｕｎ（ＨｕｉｚｈｏｕＭｅｔｅｏｒｏｌｏｇｉｃａｌＳｔａｔｉｏｎ，Ｈｕｉｚｈｏｕ５１６００１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｔｒｏｄｕｃｅｄｉｎｂｒｉｅｆｈｏｗｔｏｄｏｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｙｓｔａｔｉｓｔｉｃａｌｓｏｆｔｗａｒｅＳＰＳＳ，ａｎｄｇａｖｅａｎｅｘ－ａｍｐｌｅｏｆｓｔｅｐｗｉｓｅｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓ．ＩｔｉｓｓｉｍｐｌｙａｎｄｒｏｕｎｄｌｙｔｏｄｏｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｙＳＰＳＳ，ａｎｄｉｓｅａｓｉｅｒａｎｄｔｉｍｅｓａｖｉｎｇｃｏｍｐａｒｅｄｗｉｔｈｐｒｏｇｒａｍｍｅ．Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｕｔｅｒａｐｌｌｉｃａｔｉｏｎ；ＳＰＳＳ；ｒｅｇｒｅｓｓｉｏｎａｎａｌｙｓｉｓ；ｓｔｅｐｗｉｓｅｒｅｇｒｅｓｓｉｏｎＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ过程Ｍｅｔｈｏｄ单选框中提供了Ｅｎｔｅｒ（强制引进法）、Ｓｔｅｐｗｉｓｅ、Ｒｅｍｏｖｅ（强制剔除法）、Ｂａｃｋｗａｒｄ（逐步剔除法）和Ｆｏｒｗａｒｄ（逐步引进法）５种方法，Ｍｅｔｈｏｄ单选框与Ｂｌｏｃｋ按钮组的组合使用，可对引入的不同变量组进入回归方程的方法进行单独设置。

Ｓｔａｔｉｓｔｉｃｓ子对话框可供用户选择更多的输出统计量。

Ｐｌｏｔｓ子对话框中提供了散点图、标准化残差图等，主要用于残差序列的分析。

Ｓａｖｅ子对话框中提供了将预测值、残差等分析结果存为数据编辑窗口中新变量的功能，以便进一步分析。

Ｏｐｔｉｏｎｓ子对话框可供用户设置多元线性回归分析中纳入和排除的标准以及缺失值的处理方式。

３线性逐步回归分析结果表２、表３和表４给出了线性逐步回归分析的部分结果。

表２给出了回归模型（方程）的拟合优度，表３给出了回归系数，表４给出了回归模型方差分析结果。

由表２、表３和表４可知：回归方程１：ｙ!＝１１７．５６８－０．７３８ｘ４，Ｒ为０．８２１，校正的决定系数Ｒａ２为０．６４５，残差均方差σ!２为８０．３５２，回归方程和回归系数都通过了０．０１的显著性检验。

回归方程２：ｙ!＝１０３．０９７＋１．４４０ｘ１－０．６１４ｘ４，Ｒ为０．９８６，校正的决定系数Ｒａ２为０．９６７，残差均方差σ!２为７．４７６，回归方程和回归系数都通过了０．０１的显著性检验。

回归方程３：ｙ!＝７１．６４８＋１．４５２ｘ１＋０．４１６ｘ２－０．２３７ｘ４，Ｒ为０．９９１，校正的决定系数Ｒａ２为０．９７６，残差均方差σ!２为５．３３０，回归方程通过了０．０１的显著性检验，但预报因子ｘ２和ｘ４的回归系数未通过０．０５的显著性检验。

回归方程４：ｙ!＝５２．５７７＋１．４６８ｘ１＋０．６６２ｘ２，Ｒ为０．９８９，校正的决定系数Ｒａ２为０．９７４，残差均方差σ!２为５．７９０，回归方程和回归系数都通过了０．０１的显著性检验，该方程为“最优”回归方程，分析结果与参考文献一致。

应用统计学中逐步回归筛选自变量的准则，一般有残差平方准则和统计量显著性检验准则２种。

前者是将自变量个数与残差平方和的值结合起来（σ!２）考虑选取哪些自变量构造模型，但ＳＰＳＳ目前尚未提供该项功能；后者是通过对回归系数进行显著性检验，选择有统计学意义的自变量构成模型，ＳＰＳＳ目前支持该项功能。

而气象统计分析中常根据因子既显著、方程的残差均方差σ!２又最小的原则来挑选“最优”回归方程，此时可以对多个回归模型通过人工判断找出“最优”回归方程。

由上面的分析可知，回归方程２和方程４较好，其中方程４为“最优”回归方程，与参考文献的分析结果一致。

图２给出了预报量和预报方程２和方程４估计量的变化图。

由图２可知，预报量与预报方程２和方程４的估计量的变化趋势基本一致，２个回归方程拟合都较好。

表２ＭｏｄｅｌＳｕｍｍａｒｙ（回归模型拟合优度）表３Ｃｏｅｆｆｉｃｉｅｎｔｓ（回归系数）表４ＡＮＯＶＡ（回归模型方差分析结果）图２预报量与预报方程的估计量变化图由上面的回归分析过程可知，统计软件ＳＰＳＳ集数据处理、多种回归分析方法、回归检验、回归预测、残差分析和绘制图表等功能于一身，回归分析功能强大且易学易用。

使用统计软件ＳＰＳＳ进行回归分析非常简单，靠鼠标点击即可完成操作，同时利用Ｐａｓｔｅ键可将操作过程存为程序，方便下次直接调用，与教科书中提供的编程方法相比提供了更多回归分析功能、提高了方程的精度、且大大减小了操作难度、节约了时间。

参考文献：［１］黄嘉佑．气象统计分析与预报方法［Ｍ］．第３版．北京：气象出版社，２００４：５８－７２．（下转第３０４页）（上接第２９４页）［２］施能．气象科研与预报中的多元分析方法［Ｍ］．第２版．北京：气象出版社，２００２：４６－５５．［３］林良勋．广东省天气预报技术手册［Ｍ］．北京：气象出版社，２００６．［４］徐海量，陈亚宁．塔里木河下游荒漠化多元回归模型分析［Ｊ］．干旱区资源与环境，２００３，１７（４）：７８－８２．［５］李丽．用深层地温资料建立多元非线性回归方程预报韶关站前汛期降水量［Ｊ］．广东气象，２００３，２５（２）：８－９．［６］彭武坚．主分量逐步回归法在桂东南低温阴雨预报的应用［Ｊ］．广西气象，２００５，２６（Ｓ１）：４１－４４．［７］孔宁谦，陈润珍．用统计动力方法作盛夏南海中北部热带气旋强度预报［Ｊ］．广西气象，２００６，２７（１）：４－５．［８］唐毓勇，蒋国兴．均生函数残差预报模型在降水预报中的试验研究［Ｊ］．广西气象，２００６，２７（３）：５－８．［９］曾琮，陈创买．主分量逐步回归在气温预测中的应用［Ｊ］．中山大学学报：自然科学版，２００６，４５（４）：１０７－１１０．［１０］陈慧娴，黄露菁，陈创买．用逐步回归方法预报番禺年降水量［Ｊ］．广东气象，２００４，２６（４）：７－９．［１１］彭端，黄天文，郭媚媚，等．用逐步回归模型预测肇庆市汛期降水［Ｊ］．广东气象，２００５，２７（２）：１６－１７．［１２］张文彤．ＳＰＳＳ１１统计分析教程（高级篇）［Ｍ］．北京：希望电子出版社，２００２．［１３］张文彤．ＳＰＳＳ统计分析高级教程［Ｍ］．北京：高等教育出版社，２００４．（１）计算信息系统Ｓ的区分矩阵Ｍ（Ｓ）；（２）根据区分矩阵Ｍ（Ｓ）计算相关的区分函数ｆｍ（ｓ）；（３）计算区分函数ｆｍ（ｓ）的最小析取范式，求出所有的约简。

下面给出基于区分矩阵的算法：输入：一个目标决策系统Ｓ＝（Ｕ，Ａ，Ｖ，ｆ），其中Ｕ是论域，Ａ＝ＣＵＤ，Ｃ是条件属性集合，Ｄ是决策属性集合。

输出：Ｓ的属性约简及核属性。

（１）计算“Ｕ／ＩＮＤ（Ｃ），令Ｃｏｒｅ＝０，Ｒｅｄｕｃｔ＝０，ｎ＝｛Ｕ／ＩＮＤ（Ｃ）｝，定义一个ｎｘｎ的矩阵结构Ｍ（ｎ，ｎ），并令其所有元素为Ｏ；（２）生成区分矩阵：ｆｏｒｉ＝１ｔｏｎ｛ｆｏｒｊ＝ｉ＋ｌｔｏｎ｛ｆｏｒｋ＝１ｔｏ｜Ｃ｜｛ｉｆＣｋ（Ｘｉ）≠Ｃｋ（Ｘｊ）ａｎｄＤ（Ｘｉ）≠Ｄ（Ｘｊ）ｔｈｅｎＭ（ｉ，ｊ）＝Ｍ（ｉ，ｊ）∪Ｃｋ｝｝｝（３）求约简及核值：ｆｏｒｉ＝ｌｔｏｎ｛ｆｏｒｊ＝ｉ＋１ｔｏｎ｛ｉｆ｜Ｍ（ｉ，ｊ）｜＝１ｔｈｅｎＣｏｒｅ＝Ｃｏｒｅ∪Ｍ（ｉ，ｊ）Ｒｅｄｕｃｔ＝Ｒｅｄｕｃｔ∩Ｍ（ｉ，ｊ）｝｝Ｃｏｒｅ为核值，Ｒｅｄｕｃｔ为约简。

该算法的优点是能够直接提取出规则，缺点是计算的复杂度高。

因此，只能处理非常小的数据。

考虑到区分矩阵算法复杂度的问题，从而提出了区分矩阵的简化方法。

所谓简化方法就是一边从信息系统中提取关于属性值是区分的属性并构成区分合取范式，一边做这种逻辑公式的等价变化，直接得到最小析取范式，从而避免生成区分矩阵的中间环节，最终达到节省空间和时间，降低约简算法复杂度。

当然建立在区分矩阵的基础上，还有很多改进算法，而且在一定程度上，都对算法复杂度有一定的降低。

e商务文档

如何使用统计软件SPSS进行回归分析_罗凤明

相关文档推荐：