用SPSS做回归分析
结果说明——回归系数分析:
1. Model 为回归方程模型编号 2. Unstandardized Coefficients 为非标准化系数,B为系数值, Std.Error为系数的标准差 3. Standardized Coefficients 为标准化系数 4. t 为t检验,是偏回归系数为0(和常数项为0)的假设检验 5. Sig. 为偏回归系数为0 (和常数项为0)的假设检验的显著性 水平值 6. B 为Beta系数,Std.Error 为相应的标准差
从而用以进行预测或控制,达到指导生产活动的目的。
例1、某医学研究所对30个不同年龄的人的血压(高 压)进行了测量,得到如下数据:
年龄 血压 年龄 血压 39 47 45 47 65 45 67 42 67 56 36 50 39 21 44 144 120 138 145 162 142 170 124 158 154 136 142 120 120 116 64 56 59 34 42 48 45 17 20 19 53 63 29 25 69
xi yi
y 106.3094 1.7172ln x
112
首先绘出散点图:
步骤: Graphs →Scatter… →Simple
111
110
109
108
¿ ¬ Á ʺ ð ô ½
0 10 20
107 106
à À ¾ ë
根据散点图的形态可以认为变量X与Y之间具 有对数曲线类型的回归方程:
X4 27. 38. 20. 99. 43. 33. 46. 78. 52. 22. 39. 28. 46. 59. 70. 52. 38. 32.
1.初步分析(作图观察)
1) 按Graphs→Scatter →Simple顺序展开对话框 2) 将y选入Y Axis,然后将其余变量逐个选入X Axis , 绘出散点图,观察是否适宜用线性方程来拟合。
y a b ln x
操作步骤:Analyze→Regression →Curve Estimation… 通过点击右键观看选择适当的 类型:Logarithmic 结果如右:
由图易知,结果 方程与书上结果 有差距 y 106.707 1.3834ln x
通过对图形仔细分析,可以发现X=14时, Y=106.62导致图形剧烈变化!
结果:
y 0.0472 0.3389 x 2 0.0019
F 117.1282 F0.01 (1, 8) 11.26 R 0.9675 R0.01 (8) 0.765
检验说明线性关系显著
操作步骤:Analyze→Regression →Linear… →Statistics→Model fit Descriptives
多元线性回归
一、简介 在现实生活中,客观事物常受多种因素影响,我 们记录下相应数据并加以分析,目的是为了找出对我 们所关心的指标(因变量)Y有影响的因素(也称自变 量或回归变量)x1、x2、…、xm,并建立用x1、x2、…、 xm预报Y的经验公式:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
结合SPSS的曲线模型选择:
操作步骤:Analyze→Regression →Curve Estimation…
鼠标在选项上点击右键可看到相应模型类型
例.
测量13个样品中某种金属含量Y与该样品采集点距 中心观测点的距离X,有如下观测值:
2 3 4 5 7 8 10 106.4 108.2 109.5 109.5 110.0 109.9 110.4 2 0 8 0 0 3 9 xi 11 14 15 16 18 19 yi Y关于 110.5 106.6 110.9 110.7 111.0 111.2 求 X的关系式。 9 2 0 6 0 0
逐步回归——变量选择问题
在实际问题中,影响因变量Y的因素(自变量)可 能很多。在回归方程中,如果漏掉了重要因素,则会 产生大的偏差;但如果回归式中包含的因素太多,则 不仅使用不便,且可能影响预测精度。如何选择适当 的变量,建立最优的回归方程呢? 在最优的方程中,所有变量对因变量Y的影响都应 该是显著的,而所有对Y影响不显著的变量都不包含 在方程中。选择方法主要有:
二、多元线性回归
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 n 0 1 1 2 2 m m
1. 参数估计方法——最小二乘法
2. 回归方程显著性的检验——就是检验以下假设是 否成立(采用方差分析法):
H0 : b0 b1 b2 bm 0
162 150 140 110 128 130 135 114 116 124 158 144 130 125 175
以年龄为自变量x, 血压为因变量y,可 作出如下散点图:
为了判断经验公式是否可用线性函数来拟合,可以 画出散点图观察。其方法如下:
改变显示格式
双击
改变坐标轴的显示
从散点图可以 看出年龄与血 压有线性关系:
ˆ y ˆ y y y y y
2 2 i i i i i 1 i 1 i 1 n
方差分析的主要思
ESS MSS
误差平方和
模型平方和
如果自变量对Y的影响显著,则总方差主要应由xi 引起,也就是原假设不成立,从而检验统计量为: MSS k MMS(模型均方 ) F ESS ( m k 1) EMS(均方误差 ) 多元线性回归的方差分析表: 方差来 源 自变量 随机误 差 和 自由度 m n-m-1 n-1 平方和 MSS ESS TSS 均方 MMS EMS F MMS —— EMS p值 p
结果说明——方差分析:
1. Sum of Squares为回归平方和(Regression)、残差平方和 (Residual)、总平方和(Total) 2. df 为自由度 3. Mean Square 4. F 5. Sig 为大于F的概率,其值为0.000,拒绝回归系数为0的原假 设:b0=b1=0——即认为回归方程显著性成立
例. 《概率论与数理统计》P280 例9.3.1
在汽油中加入两种化学添加剂,观察它们对汽车消 耗1公升汽油所行里程的影响,共进行9次试验,得到 里程Y与两种添加剂用量X1、X2之间数据如下: xi1 0 1 0 1 2 0 2 3 1 xi2 0 0 1 1 0 2 2 1 3 yi 15.8 16.0 15.9 16.2 16.5 16.3 16.8 17.4 17.2 试求里程Y关于X1、X2的经验线性回归方程,并求 误差方差σ2的无偏估计值。
为了求得经验公式, 可通过如下步骤进 行:
当自变量和 因变量选好 后,点击 OK 键
结果说明——常用统计量:
P (1 R 2 ) R R N P 1 ( P为 自 变 量 个 数 , N为 样 本 数 )
2 a 2
1. Model为回归方程模型编号(不同方法对应不同模型) 2. R为回归方程的复相关系数 3. R Square即R2系数,用以判断自变量对因变量的影响有 多大,但这并不意味着越大越好——自变量增多时,R2 系数会增大,但模型的拟合度未必更好 4. Adjusted R Square即修正R2,为了尽可能确切地反映模 型的拟合度,用该参数修正R2系数偏差,它未必随变量 个数的增加而增加 5. Std. Error of the Estimate是估计的标准误差
Y 309.0 400.0 454.0 520.0 516.0 459.0 531.0 558.0 607.0 541.0 597.0 558.0 619.0 618.0 742.0 805.0 859.0 855.0 X1 137.0 148.0 154.0 157.0 153.0 151.0 151.0 154.0 155.0 155.0 156.0 155.0 157.0 156.0 159.0 164.0 164.0 156.0 X2 4.0 6.0 10.0 18.0 13.0 10.0 15.0 16.0 27.0 36.0 46.0 47.0 48.0 60.0 96.0 191.0 186.0 195.0 X3 15.0 26.0 33.0 38.0 41.0 39.0 37.0 38.0 44.0 51.0 53.0 51.0 51.0 52.0 52.0 57.0 68.0 74.0
结果:
y 15.6468 0.4139 x1 0.3139 x2 2 0.0387 F 30.6202 F0.01 (2, 6) 10.92 R 0.9543
检验说明线性关系显著
三、非线性回归
在实际问题中,常会遇到变量之间关系不是线性的 相关关系,而是某种曲线的非线性相关关系。此时首 先要确定回归函数的类型,其原则是: 1. 根据问题的专业知识或经验确定 2. 根据观测数据的散点图确定 常选曲线类型: 双曲线、幂函数曲线、对数曲线、指数曲线、 倒数指数曲线、S形曲线
•逐步筛选法(STEPWISE) (最常用) •向前引入法(FORWARD) •向后剔除法(BACKWARD)等
逐步回归的基本思想和步骤:
开始 对不在方程中的变 量考虑能否引入? 能 否 筛选结束
引入变量
否 对已在方程中的变 量考虑能否剔除? 能 剔除变量
例2、大春粮食产量的预报模型
某地区大春 粮食产量 y 和大春粮食 播种面积x1、 化肥用量x2、 肥猪发展头 数x3、水稻 抽穗扬花期 降雨量x4的 数据如下表, 寻求大春粮 食产量的预 报模型。
3. 结果分析
被引入与被剔除的变量
回归方程模型编号 引入回归方程的自变量名称 从回归方程被剔除的自变量名称 回归方程中引入或剔除自变量的依据
常用统计量