SPSS做回归分析精讲
二、多元线性回归
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 n 0 1 1 2 2 m m
1. 参数估计方法——最小二乘法
2. 回归方程显著性的检验——就是检验以下假设是 否成立(采用方差分析法):
H0 : b0 b1 b2 bm 0
例. 《概率论与数理统计》P267 例9.2.1
第一导丝盘速度Y是合成纤维抽丝的重要因素,它 与电流的周波X有密切关系,由生产记录得: 周波X 49. 50. 49. 49. 49. 49. 49. 49. 50. 50. 2 0 3 0 0 5 8 9 2 2 速度Y 16. 17. 16. 16. 16. 16. 16. 17. 17. 17. 2 试求Y 的经验回归直线方程,并求误差方差 7 对X 0 8 6 7 8 9 0 0 σ1 的 无偏估计值。 检验X与Y之间是否存在显著的线性关系(取 α=0.01)?
结果说明——方差分析:
1. Sum of Squares为回归平方和(Regression)、残差平方和 (Residual)、总平方和(Total) 2. df 为自由度 3. Mean Square 4. F 5. Sig 为大于F的概率,其值为0.000,拒绝回归系数为0的原假 设:b0=b1=0——即认为回归方程显著性成立
为了求得经验公式, 可通过如下步骤进 行:
当自变量和 因变量选好 后,点击 OK 键
结果说明——常用统计量:
P (1 R 2 ) R R N P 1 ( P为 自 变 量 个 数 , N为 样 本 数 )
2 a 2
1. Model为回归方程模型编号(不同方法对应不同模型) 2. R为回归方程的复相关系数 3. R Square即R2系数,用以判断自变量对因变量的影响有 多大,但这并不意味着越大越好——自变量增多时,R2 系数会增大,但模型的拟合度未必更好 4. Adjusted R Square即修正R2,为了尽可能确切地反映模 型的拟合度,用该参数修正R2系数偏差,它未必随变量 个数的增加而增加 5. Std. Error of the Estimate是估计的标准误差
从而用以进行预测或控制,达到指导生产活动的目的。
例1、某医学研究所对30个不同年龄的人的血压(高 压)进行了测量,得到如下数据:
年龄 血压 年龄 血压 39 47 45 47 65 45 67 42 67 56 36 50 39 21 44 144 120 138 145 162 142 170 124 158 154 136 142 120 120 116 64 56 59 34 42 48 45 17 20 19 53 63 29 25 69
162 150 140 110 128 130 135 114 116 124 158 144 130 125 175
以年龄为自变量x, 血压为因变量y,可 作出如下散点图:
为了判断经验公式是否可用线性函数来拟合,可以 画出散点图观察。其方法如下:
改变显示格式
双击
改变坐标轴的显示
从散点图可以 看出年龄与血 压有线性关系:
ˆ y ˆ y y y y y
2 2 i i i i i 1 i 1 i 1 n
方差分析的主要思想是把 yi 的总方差进行分解:
n n 2 def
ESS MSS
误差平方和
模型平方和
如果自变量对Y的影响显著,则总方差主要应由xi 引起,也就是原假设不成立,从而检验统计量为: MSS k MMS(模型均方 ) F ESS ( m k 1) EMS(均方误差 ) 多元线性回归的方差分析表: 方差来 源 自变量 随机误 差 和 自由度 m n-m-1 n-1 平方和 MSS ESS TSS 均方 MMS EMS F MMS —— EM现实生活中,客观事物常受多种因素影响,我 们记录下相应数据并加以分析,目的是为了找出对我 们所关心的指标(因变量)Y有影响的因素(也称自变 量或回归变量)x1、x2、…、xm,并建立用x1、x2、…、 xm预报Y的经验公式:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
结果说明——回归系数分析:
1. Model 为回归方程模型编号 2. Unstandardized Coefficients 为非标准化系数,B为系数值, Std.Error为系数的标准差 3. Standardized Coefficients 为标准化系数 4. t 为t检验,是偏回归系数为0(和常数项为0)的假设检验 5. Sig. 为偏回归系数为0 (和常数项为0)的假设检验的显著性 水平值 6. B 为Beta系数,Std.Error 为相应的标准差
对于多元线性回归主要需研究如下几个问题:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
1) 建立因变量Y与x1、x2、…、xm的经验公式(回 归方程) 2) 对经验公式的可信度进行检验 3) 判断每个自变量xi(i=1, … , m)对Y的影响是否显 著? 4) 利用经验公式进行预报、控制及指导生产 5) 诊断经验公式是否适合这组数据
结果:
y 0.0472 0.3389 x 2 0.0019
F 117.1282 F0.01 (1, 8) 11.26 R 0.9675 R0.01 (8) 0.765
检验说明线性关系显著
操作步骤:Analyze→Regression →Linear… →Statistics→Model fit Descriptives
逐步回归——变量选择问题
在实际问题中,影响因变量Y的因素(自变量)可 能很多。在回归方程中,如果漏掉了重要因素,则会 产生大的偏差;但如果回归式中包含的因素太多,则 不仅使用不便,且可能影响预测精度。如何选择适当 的变量,建立最优的回归方程呢? 在最优的方程中,所有变量对因变量Y的影响都应 该是显著的,而所有对Y影响不显著的变量都不包含 在方程中。选择方法主要有: