回归分析SPSS操作
实现步骤
图1 在菜单中选择“Linear”命令
因变量
自变量
指定回归方法
全部选入
图2 “Linear Regression”对话框
提供决定系数、估计 标准误、ANOVA表等
与回归系数相 关的统计量
异常值诊断
报告残差超过2个标 准差的被试
图3 “Linear Regression: statistics”对话框
逐步回归法变量取舍标准 用F值的显著性水平作为标准 用F值作为标准
在回归方程中包括常项 缺失值的处理方式
用均值代替缺失值
图6 “Linear Regression:Options”对话框
3.3 结果和讨论
(1)输出结果文件中的第一部分:
复相关=√R2
Y
R2
Y
SS SS回归 1 误差 SS总 SS总
z1 66.00 55.00 50.00 55.00 55.00 62.00 60.00 52.00 56.00 50.00 58.00 53.00 52.00 56.00 50.00 63.00 56.00 47.00 53.00 z2 64.00 50.00 47.00 59.00 59.00 54.00 60.00 52.00 55.00 50.00 54.00 52.00 56.00 65.00 63.00 57.00 46.00 50.00 66.00 z3 58.00 53.00 46.00 52.00 47.00 46.00 52.00 57.00 44.00 45.00 52.00 65.00 63.00 62.00 55.00 51.00 45.00 50.00 55.00 z4 1.08 1.00 1.31 1.00 1.00 1.08 1.08 1.00 1.69 1.08 1.00 1.08 1.46 1.00 1.00 1.00 2.23 2.08 1.00 Z5 1.00 1.11 1.20 1.00 1.00 1.00 1.00 1.00 1.00 1.14 1.00 1.00 1.43 1.00 1.00 1.00 1.29 1.14 1.00 满 意 度 25.00 22.00 20.00 20.00 24.00 23.00 21.00 23.00 15.00 25.00 25.00 22.00 20.00 22.00 20.00 26.00 21.00 20.00 25.00
H0 : B2 0
非标准化回归方程:
1 Y=7.337+.276×Z1+e
多重回归的矩阵表达
1. 一般公式
2 Y=14.129+.227×Z1-3.301×Z4+e 3 Y=4.335+.268×Z1-6.286×Z4+10.188×Z5+e
yi 0 1x1 2 x2 p xp ei
回归分析
1
回归分析基本概念 一元线性回归分析
2
3
多元线性回归分析
1
回归分析基本概念 回归分析主要解决以下几方面的问题:
通过分析大量的样本数据,确定变量之间的数学关系式。
对所确定的数学关系式的可信程度进行各种统计检验,并 区分出对某一特定变量影响较为显著的变量和影响不显著的
变量。
利用所确定的数学关系式,根据一个或几个变量的值来预
若F≥F(界值),则拒绝H0 ,可决定增多相应的自 变量; 否则,不拒绝H0 ,可决定不增加相应的自变量。
3.2 SPSS中实现过程
研究问题
用多元回归分析来分析36个员工多个心理变量
值(z1~z5)对员工满意度my的预测效果,测得试 验数据如表9-2所示。
表9-2员工多个心理变量值和员工满意度数据
53.00
56.00 59.00
1.00
1.00 1.85
1.00
1.00 1.14
30.00
27.00 18.00
67.00
56.00 53.00 53.00 60.00 54.00
53.00
56.00 46.00 57.00 40.00 45.00
53.00
56.00 50.00 67.00 56.00 42.00
标准化预测值 标准化残差 剔除残差 调整预测值 学生化残差 学生化剔除残差 标准化残差图 直方图 正态概率图 输出标准化残差相对 于因变量的散布图
图4 “Linear Regression:Plots”对话框
对应x值的残差图
ˆ yy
0
x
良好模式
ˆ yy
0
x
方差不齐
ˆ yy
0
x
不满足线性回归假设
2)校正的决定系数Adj R2
MSE Adj R 1 MST
2
0<AdjR2≤1, 越接近于1, 说明回归方程效果越好。
即使自变量对Y无显著意义,R2也随方程中的变 量个数增加而增加。Adj R2可以惩罚复杂模型。
结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响
F=t2
截距 回归系数
3
多元线性回归分析
3.1 统计学上的定义
定义:在上一节中讨论的回归问题只涉及了一 个自变量,但在实际问题中,影响因变量的因素往
往有多个。例如,商品的需求除了受自身价格的影
响外,还要受到消费者收温、平均日照时数、平均湿度等。
预测值
残差
未标准化残差 标准化残差 学生化残差
本对话框用来定义存储
进入数据文件的新变量
预测区间
均数的置信区间 个体的容许区间
图5 “Linear Regression: Save”对话框
( xi x ) 2 1 ˆ Yi t 2,v se n x 2 nx 2
2 ( x x ) 1 i ˆ t s 1 Y i 2, v e n x 2 nx 2
逐步回归的思想:
1. 开始方程中没有自变量,然后按自变量对y的贡 献大小由大到小依次挑选进入方程,每选入一个
变量,都要对进行检验,决定变量的取或舍。
2. 每一步都作一次如下的检验: H0 : p个自变量为好 H1 : p+1个自变量为好
采用F作为统计量。
SSE (H0 )-SSE (H1 ) F= SSE(H1 )/ (n-p-2) 其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。
2.3 结果和讨论
(1)输出的结果文件中的第一部分:
估计标准误 Se
2 e i
X与Y的简单相关系数
n2
2 ˆ ( y y ) i i
n2
1)决定系数R2
SSR SSE R 1 SST SST
2
它表示在因变量 y 的总变异中可由回归方程所解释部分的 比例。 0<R2≤1, 越接近于1, 说明回归方程效果越好。
1.00
1.00 1.31 1.77 1.08 1.00
1.00
1.00 1.14 1.43 1.00 1.00
24.00
24.00 19.00 17.00 24.00 23.00
实现步骤
逐步回归 Enter:所有自变量强制进入回归方程
图7-7 “Linear Regression”对话框(二)
当自变量之间存在高度相关性,将引起回归方程估计结果
不稳定,参数(回归系数)估计的标准误大大增加,称为 共线性。
共线性诊断:
1)条件数(Condition Index):
k<10(轻度) 10<k<30(中度) k>30(严重) 2)方差扩大因子(VIF): >5或10,严重 3) Tolence(容忍度): <.1 严重
2. 矩阵表示
标准化回归方程:
1 2 3 Y=.413×Z1+e Y=.340×Z1- .336×Z4+ e Y=.401×Z1- 6.639×Z4 + .477×Z5+e
y = Xβ + e
3. 最小二乘估计
ˆ = (XX)-1 Xy β
Zero-Order
均数的置信区间: 均数界值×标准误 个体的容许区间(参考值范围):
ˆ ±t s Y i α 2,v e 1 ( xi - x )2 + 2 n ∑ (x - x )
均数界值×标准差
2 1 ( x x ) i ˆ ±t s 1 + + Y 2 i α 2,v e n ∑ (x -x )
可信区间与预测区间示意图
1.15
1.08 1.08 1.85 1.00 1.31 1.23 1.00
1.14
1.00 1.00 1.71 1.00 1.14 1.14 1.14
23.00
26.00 26.00 30.00 25.00 27.00 20.00 26.00
68.00
60.00 64.00
58.00
53.00 56.00
3.2 逐步回归
研究者往往是根据自己的经验或借鉴他人的研究 结果选定若干个自变量,这些自变量对因变量的
影响作用是否都有统计学意义还有待于考察。
在建立回归方程的过程中有必要考虑对自变量进 行筛选,挑选出若干个与因变量作用较大的变量 建立回归方程。剔除那些对因变量没有影响的变 量,从而建立一个较理想和稳定的回归方程。
提供决定系数、估计 标准误、ANOVA表等 关于回归系数的选择项 与回归系数相关的统计量 非标准化回归系数95%置信区间 非标准化回归系数的方差-协方差 德宾-沃森自相关 观测值诊断
显示每个自变量进 入方程后对R2和F 值的影响