多元线性回归分析实习
线性回归过程(Linear Regression)可用于分析一个或多个自变量与一个因变量之间的线性数量关系,并可进行回归诊断分析。
[例题3.1]
某地29名13岁男童身高x1(cm),体重x2(kg),肺活量y(L)的实测值数据见表3.1,试建立肺活量与身高、体重的回归关系。
[ 操作过程]
①[ 数据格式] 见数据文件< 多元线性回归例题.sav >
该数据库有4列29行,即4个变量、29个记录(Observation),每个变量占1列,每个记录占1行,该数据格式为一般多元分析的数据格式。
②[ 过程]
单击后可弹出线性回归对话框。
该对话框内有诸多选项,现分别介绍。
③[ 选项]
◆因变量。
只能选入1个因变量,本例选入变量“肺活量”。
◆自变量。
可以是1个或多个,本例选入变量“身高、体重”。
◆当选择不同组合的自变量进行回归分析时,可保存每次选择的自
变量,用按钮和按钮可分别向前、向后翻找各种自变量的
组合。
◆选择回归模型拟合的分析方法,有5种可供选择。
Enter 强迫引入法,即一般回归分析,所选自变量全部进入方程,为系统默认方式。
Stepwise
加入有显著性意义的变量和剔除无显著性意义的变量,直到所建立的方程式
中不再有可加入和可剔除的变量为止。
Remove 强迫剔除法。
根据设定的条件剔除自变量。
Backward向后逐步法。
所选自变量全部进入方程,根据Options对话框中设定的标准在计算过程中逐个剔除变量,直到所建立的方程式中不再含有可剔除
的变量为止。
Forward:向前逐步法。
根据Options对话框中设定的标准在计算过程中逐个加入单个变量,直到所建立的方程式中不再有可加入的变量为止。
◆选择符合某变量条件的观察单位进行分析,每次只能选入1
位范围,有6种方式供选择,在Value框内输入设定值。
equal to 等于设定值。
not equal to不等于设定值。
less than小于设定值。
Less than or equal to 小于或等于设定值。
greater than 大于设定值。
greater than or equal to大于或等于设定值。
◆对话框。
Regression coefficient回归系数
Estimate一般回归系数和标准回归系数及其标准误和显著性检验。
Confidence interval 输出一般回归系数的95%可信区间。
Covarience matrix 方差及协方差知阵和相关矩阵。
Model fit 模型检验,给出复相关系数R,决定系数R2及方差分析结果。
R squared change 输出调整R2及相应的F值和P值。
Descriptive 输出每个变量的均数,标准差,样本容量,相关系及单侧检验P值的矩阵。
Part and partial correlation 输出简单相关系数及偏相关系数。
Collinearity 共线性诊断。
◆残差
☐Dubin-Watson 对残差的顺序相关的Dubin-Watson检验(检验残差间是否独立)。
☐Casewise diagnostics 个体诊断,给出残差和预测值、标准化残差和标准化预测值的统计量。
选此项后,激活以下选项。
⊙Outliers outside standard deviations凡个体观察值超出均数加
减n倍标准差被视为离群点,系统默认此项n为3。
○All cases 给出所有观察单位的残差、标准化残差和预测值。
◆残差散点图、正态概率图、离群点图及直方图。
◆选项对话框。
⊙Use probability of F:
Entry选入变量的显著性水准。
系统默认0.05,即对回归方程
检验时,若P≤0.05,则该变量被选入方程。
Removal剔除变量的显著性水准。
系统默认0.1,即对回归方
程检验时,若P≥0.1,则该变量剔除出方程。
○Use F value 以F值为剔选变量准则。
Entry 选入变量的F界值,系统默认3.84,即对回归方程检验
时,若P≥3.84,则该变量被选入方程。
Removal 剔除变量的F界值,系统默认2.71,即对回归方程
检验时,若P≤2.71, 则该变量剔除出方程。
☐Include constant in equation 回归方程中含有常数项。
◆缺失值处理。
⊙Exclude case listwise仅剔除所有变量中有缺失值的观察单位。
○Exclude case pairwise仅剔除正在参与运算的一对变量中有缺失值的观察单位。
○Replace with mean
◆Save(存新
变量/文件)对话框
☐预测值。
Unstandardized非标准化预测值。
Standardized标准化预测值
Adjusted去掉当前记录时,当前模型对该记录的预测值。
S.E. of mean prediction预测值均数的标准误。
☐残差。
Unstandardized非标准化残差。
Standardized标准化残差。
Studentized学生化残差。
Deleted剔除残差。
Studentized Deleted剔除学生化残差。
☐距离。
Mahalanobis马氏距离。
C ook’s Cook 距离。
Leverage values Leverage值。
☐判断强影响点的影响统计量。
DfBeta(s)剔除某一观察值所引起的回归系数的变化。
DfBeta(s) 标准化DfBeta。
DfFit所引起的预测值的变化。
Standardized DfFit标准化DfFit。
Covariance ratio剔除某一观察值的协方差阵与含全部观察值的协方差阵的比率。
☐预测值的可信区间。
Mean预测值均数的可信区间。
Individual个体预测值的容许区间。
Confidence Interval可信区间范围,系统默认95%。
将所选项存入新建文件。
[ 主要结果输出]
1. 默认选项的输出结果
①进入和剔除的变量列表。
因默认的选项是enter,所以体重与身高均引入方程。
②模型概况:默认状态下给出复相关系数,决定系数,调整决定系数
和剩余标准差。
决定系数R2=0.552
调整决定系数R2arj=0.517
剩余标准差S y.12…m=0.31164
③模型的假设检验:采用方差分析方法,结果见下表。
F=16.003, P<0.001, 回归模型有统计学意义。
④偏回归系数:模型内包含变量的偏回归系数、标准化偏回归系数及偏回归系数的t 检验结果。
2
1
05269
.
0059
.0
646
.0
ˆx
x
y+
+
-
=
2. 一般可选项的输出结果
[ 描述统计量]
选择主对话框中的对话框,然后选中Descriptives即可。
[ 相关系数距阵]
相关系数矩阵及检验结果:表的上部为积矩相关系数矩阵,中部为相关系数单侧检验的P值,下部为样本含量。
Pearson 积矩相关系数矩阵(Pearson Correlation)。
Sig. 相关系数单侧检验的P 值。
3. 逐步回归分析
逐步回归分析(Stepwise ):方程内只选入1个变量“体重”,即2个自变量中,只有“体重”对肺活量有显著性影响。
模型概述(逐步回归分析,Stepwise ):决定系数: R =0.546。
注意:当模型中只有体重变量知,决定系数R 2仅由0.552减至0.546。
模型检验(逐步回归分析,Stepwise ):对方程检验,F=32.477, P<0.001,模型有统计学意义。
参数估计:205907.001769.0ˆx y
+=。