应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。
关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。
这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。
逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。
SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。
SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了。
基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。
本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的320厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件EM-Plant对该系统建模并仿真,设计实验因子及各水平如表1-1,则共有3*4*6=72组实验结果,如表所示。
为方便描述,将各因子定义为:X1表示AGC物料交换服务水平,X2表示周转箱交换周期,X3表示EMS数量,Y表示因变量年产量箱数。
本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。
表1-1 三因子多水平实验方案表1-2 实验结果2、逐步回归法原理回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。
回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有3个因变量故为多元回归。
在实际研究中,影响因变量Y的因素有很多,而这些因素之间可能存在多重共线性,特别是在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,这就给回归系数的估计带来不合理的解释。
为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量,在它们和Y的观测数据基础上建立“最优”的回归方程。
逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。
逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。
该方法也是从一个自变量开始,视自变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。
但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
对于每一步都要进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
本文运用IBM SPSS Statistics 20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。
当F引 =F剔=0时,则所有的变量全部被引入,逐步回归分析结果就和一般的多元线性回归分析结果相同。
当F取值比较大时,理论和实践都表明,在相同的F水平上,用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。
为了从挑选因子中筛选出尽可能多的因子建立回归预测模型,本系统可以自己给出F 临界值,计算机默认的F引为0.05,F剔为0.1,如果入选的自变量因子数目不多,可通过人为降低F临界值的水平而筛选出更多的因子。
如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。
如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。
3、模型建立3.1 确定自变量和因变量根据表1-1可知,本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系,其中AGC物料交换服务水平分为水平1、水平2和水平3,分别表示自动交换、人工交换(积极)和人工交换(消极),周转箱交换周期分为2、4、6和8小时,EMS数量有2、4、6、8、10和12辆。
3.2 分析数据准备打开SPSS软件,在变量视图中定义变量:自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量,因变量Y表示年产量箱数,如图3-1所示。
图3-1 定义变量将表1-2中的仿真结果输入到SPSS的数据视图中,如图3-2所示。
图3-2 仿真数据输入3.3 逐步回归分析单击SPSS工具栏中的分析,选择回归→线性,如图3-3所示,打开如图3-4所示的线性回归对话框。
图3-3 线性回归分析图3-4 线性回归对话框在该对话框中选择相应的自变量和因变量,方法中选择逐步,在绘制中选中直方图、正态概率图和产生所有部分图。
图3-5 绘制单击继续后回到线性回归对话框,再单击确定进行回归计算。
4、结果输出及分析逐步回归分析得到的结果为6张表和2幅图,分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。
4.1 输入/移去的变量表4-1 输入/移去的变量a模型输入的变量移去的变量方法1 周转箱交换周期.步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2 EMS数量. 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
3 AGC服务水平.步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a.因变量:年产量箱数表4-1显示变量的引入和剔除,以及引入或剔除的标准。
系统在进行逐步回归过程中产生了3个模型,模型1是按照F检验的标准概率值,先将与Y (年产量箱数)最密切的自变量X2(周转箱交换周期)引入模型,建立Y与X2之间的一元线性回归模型,然后再把X3(EMS数量)引入模型,建立了Y 与X2,X3之间的二元线性模型,最后把X1(AGC服务水平)引入模型,建立了它们与Y之间的三元线性模型。
4.2 模型汇总表4-2 模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .632a .399 .390 11757.832152 .727b .529 .515 10486.436253 .776c .602 .584 9710.99811 .845a. 预测变量: (常量),周转箱交换周期。
b. 预测变量: (常量),周转箱交换周期, EMS数量。
c. 预测变量: (常量),周转箱交换周期,EMS数量, AGC服务水平。
d. 因变量: 年产量箱数表4-2中显示了各模型的拟合情况,回归模型概述表中给出了各模型的相关系数R,用来对生成的模型进行评估,R值越接近于1说明估计的模型对观测值的拟合越好。
从表中可以看出,从模型1到模型3,随着预测变量的增多,相关系数(0.390<0.515<0.584)不断增大,说明模型3是比较好的拟合模型。
4.3 方差分析表4-3显示各模型的方差分析结果,对模型1:F等于46.449,显著性概率Sig. <0.001;对模型2:F等于38.699,显著性概率Sig. <0.001;对模型3:F等于34.237,显著性概率Sig. <0.001,可以认为Y(年产量箱数)与X2(周转箱交换周期)、X3(EMS数量)和X1(AGC物料服务水平)存在高度显著的线性关系。
4.4 回归系数表4-4 系数aa. 因变量: 年产量箱数表4-4中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。
根据表中数据非标准化系数B的数值可知,逐步回归过程中先后建立的三个模型分别是:模型1:Y = 54823.917-4223.408X2模型2:Y = 43783.242-4223.408X2+1577.239X3模型3:Y = 53678.408-4223.408X2+1577.239X3-4947.583X1t值表示对回归系数的显著性检验,其概率值Sig小于0.05时才可以认为有意义,即自变量对因变量有显著性影响。
在模型中,系数均小于0.05,可认为回归是显著的。
模型 3中各因子95%的知置信区间为:常亮——[44486.618,62870.198],周转箱交换周期——[-5244.718,-3202.098],EMS数量——[908.635,2245.844],AGC服务水平——[-7744.556,-2150.611]。
4.5 已排除的变量表4-5中显示逐步回归过程所建立的三个模型中剔除掉的变量信息,包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(Collinearity Statistics)的容差。