当前位置:文档之家› 实验十 回归分析实验

实验十 回归分析实验

实验十回归分析实验变量之间的关系可以分为两类,一类是确定性的,另一类是非确定性的。

确定型的关系是指:某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即()=。

当知道x的数值时,就可y f x以计算出确切的y值来。

如圆的周长与半径的关系:周长2rπ=。

非确定关系则不然,例如,在发育阶段,随年龄的增长,人的身高会增加。

但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1米40公分。

年龄与身高的关系不能用一般的函数关系来表达。

研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。

如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。

实验目的:学习利用SPSS进行回归分析。

实验内容:一、一元线性回归分析二、多元线性回归分析三、曲线估计四、Logistic 回归分析五、probit回归分析六、非线性回归分析实验工具:SPSS中回归分析菜单。

一一元线性回归分析知识准备:相关和回归描述的是两变量间联系的不同侧面,一元线性回归分析就是寻找因变量数值随自变量变化而变化的直线趋势,并在散点图上找到这样一条直线,相应的方程也就被称为直线回归方程。

通过回归方程解释两变量之间的关系会显的更为精确,例如可以计算出大白鼠每进食一个单位代乳粉体重平均增加的单位数量,这是相关分析无法做到的。

除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,预测就是在回归方程中控制了变量x的取值范围就可以相应的得到变量y的上下限,而控制则正好相反,也就是通过限制结果变量y的取值范围来得到x的上下限。

这两点在实际的应用中显得尤为重要。

1、一元线性回归分析的原理和要求如果将两个事物的取值分别定义为变量x和y,则可以用回归方程ˆy a b x=+来描述两者的关系,这里需要注意的有两点:①变量x称为自变量,而y为因变量,一般来讲应该有理由认为是由于x的变化而导致y发生变化。

②ˆy不是一个确定的数值,而是对应于某个确定x的群体的y值平均值的估计。

该方程的含义可以从其等式右边的组成来理解。

即每个预测值都可以被分解成两部分:1)常量(constant):为x等于零时回归直线在y轴上的截距即x取值为零时y的平均估计量。

2)回归部分:它刻画因变量y的取值中,由因变量y与自变量x的线性关系所决定的部分,即可以由x直接估计的部分。

b 称为回归系数(Coefficient of Regression),又称其为回归线的斜率(Slope)。

估计值ˆy和每一个实测值y之间的差被称为残差,一般用εi 表示。

它刻画了因变量y除了自变量x以外的其他所有未进入该模型或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。

往往假定ε服从正态分布i2Nσ。

(0,)回归方程中的参数a和b一般是通过最小二乘原理估计出来的,所谓最小二乘原理就是指使得坐标中每一对x变量和y变量所对应的点到回归直线纵向距离的平方和,或者说残差的平方和最小。

2、一元线性回归分析的适用条件1)线性趋势:自变量与因变量的关系是线性的,如果不是,则不能采用线性回归来分析。

这可以通过散点图来加以判断。

2)独立性:可表述为因变量y的取值相互独立,之间没有联系。

反映到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。

3)正态性:就自变量的任何一个线性组合,因变量y均服从正态分布,反映到模型中,实际上就是要求残差服从正态分布。

4)方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质就是要求残差的方差齐性。

如果只是建立方程,探讨自变量与因变量间的关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。

概括起来,“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。

3、一元线性回归方程的检验根据原始数据,求出回归方程后就需要对回归方程进行检验。

检验的假设是总体回归系数为0。

另外要检验回归方程对因变量的预测效果如何。

1)回归系数的显著性检验①对斜率的检验,假设是:总体回归系数为0b=.检验该假设的t 值计算公式是:/b t b S E =,其中b S E 是回归系数的标准误。

②对截距的检验,假设是:总体回归方程截距0a =。

检验该假设的t 值计算公式是:/a t b S E =,其中b S E 是截距的标准误。

2)2R 判定系数在判定一个线性回归直线的拟合优度的好坏时,2R 系数是一个重要的判定指标。

2R 判定系数等于回归平方和在总平方和中所占的比率,即2R 体现了回归模型所能解释的因变量变异性的百分比。

如果20.775R=,则说明变量y 的变异中有77.5%是由变量x 引起的。

当21R =时,表示所有的观测点全部落在回归直线上。

当20R=时,表示自变量与因变量无线性关系。

为了尽可能准确的反应模型的拟合度,SPSS 输出中的Adjusted R Square 是消除了自变量个数影响的2R 的修正值。

3)方差分析体现因变量观测值与均值之间的差异的偏差平方和S S T 是由两个部分组成的,即回归平方和S S R,反应了自变量X的重要程度;残差平方和S S E,它反应了实验误差以及其他意外因素对实验结果的影响。

表示为S S T S S R S S E=+。

这两部分除以各自的自由度,得到它们的均方。

统计量F=回归均方/残差均方。

当F值很大时,拒绝0b=的假设。

4)Durbin-Watson检验在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性。

若误差项不独立,那么对回归模型的任何估计与假设所作出的结论均不可靠的。

其参数称为DW或D。

D的取值范围是0<D<4,统计学意义如下:①当残差与自变量互为独立时D≈2。

③当相邻两点的残差为正相关时,D<2。

③当相邻两点的残差为负相关时,D>2。

5)残差图示法;在直角坐标系中,以预测值ˆy为横轴,以ye为纵轴,绘制残差的散点图。

如果散点呈现出与ˆy之间的误差t明显的规律性则,认为存在自相关性问题。

实验背景为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个年龄段抽10个男孩,共抽60个男孩。

资料如下表所示:表1 60个男孩的身高资料如下年龄3岁4岁5岁6岁7岁8岁身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.096.5 102.0 109.5 110.0 117.0 125.597.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5平均身高95.4 101.8 107.6 113.1 120.6 124.0 实验过程1)建立数据文件。

定义变量名:身高为Y,保留1位小数;年龄为X,保留0位小数。

输入原始数据(如图1)。

图12)先作身高与年龄的散点图(如图2),从散点图上,可发现样本点(X,Y)随机地出现在一条直线附近,儿童身高与年龄有很强的直线关系,故可进行一元线性回归分析。

也可进行儿童身高与年龄的相关分析,结果如图3所示,由图3可知:身高与年龄的相关系数为0.965,具有极强的线性相关关系。

图2 图33)选择菜单“Analyze→Regression→Linear ” ,弹出“Linear Regression ”对话框。

从对话框左侧的变量列表中选择变量y ,使之进入“Dependent ”框,选择变量x 进入“Indepentdent(s)”框;在“Method ”处下拉菜单,选用Enter 法(如图4)。

图44)单击“Statistics ”按钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析(如图5)。

图55)单击“Plot”,选择作标准化残差图的直方图和正态概率图等(如图6)。

图66)单击“OK”完成设置,得到输出结果。

结果说明由上表可知:20.931R=,Durbin-Watson检验参数D=≈,通过检验,并且拟合优度很好。

2.4542由方差分析表知:建立的一元线性回归模型效果明显,P值小于0.05.下表是主要的回归系数计算结果,由表中系数可得回归方差为:ˆ78.185 5.854yx =+,并且系数均通过t 检验,由此方程可进行预测,其中 5.854b =表示年龄每增长1岁,身高平均增长5.854厘米。

标准化残差的正态概率图表明残差服从独立性。

二 多元线性回归分析 知识准备1.多元线性回归的概念根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。

多元回归分析的模型为:01122ˆn n y b b x b x b x =++++ 其中ˆy为根据所有自变量x 计算出的估计值,0b 为常数项,12,,,n b b b 称为y 对应于12,,,n x x x 的偏回归系数。

偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。

多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。

2.多元线性回归分析中的参数l)复相关系数R。

复相关系数表示因变量y与其他的自变量i x之间线性相关密切程度的指标。

复相关系数的取值范围在0-1之间。

其值越接近1表示其线性关系越强,越接近0表示线性关系越差。

2)2R判定系数与经调整的判定系数与一元回归方程相同,在多元回归中也使用判定系数2R来解释回归模型中自变量的变异在因变量变异中所占比率。

但是,判定系数的值随着进入回归方程的自变量的个数(或样本容量的大小n)的增加而增大。

因此,为了消除自变量的个数以及样本量的大小对判定系数的影响,引进了经调整的判定系数(Adjusted R Square)。

3)零阶相关系数、部分相关与偏相关系数①零阶相关系数(Zero-Order)计算:所有自变量与因变量之间的简单相关系数。

②部分相关(Part Correlation)表示:在排除了其他自变量对i x的影响后,当一个自变量进入回归方程模型后,复相关系数的平均增加量。

相关主题