当前位置：文档之家› 实验7相关及回归分析SPSS应用

实验7相关及回归分析SPSS应用

实验7 相关与回归分析
7.1实验目的
熟练掌握一元线性回归分析的SPSS应用技能，掌握一元非线性回归分析的SPSS应用技能，对实验结果做出解释。

7.2相关知识（略）
7.3实验内容
7.3.1一元线性回归分析的SPSS实验
7.3.2一元非线性回归分析的SPSS实验
7.4实验要求
7.4.1准备实验数据
1.线性回归分析数据
（The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》
Street Journal Almanac 1999）上。

航班正点到达的比率和每10万名乘客投诉
的次数的数据，见表7-1所示。

表7-1 美国航空公司航空正点率与乘客投诉次数资料
2.非线性回归分析数据
1992～2013年某国保费收入与国内生产总值的数据，试研究保费收入与国内生产
总值的关系的数据，见表7-2所示。

表7-2 1992～2013年某国保费收入与国内生产总值数据单位：万元
7.4.2完成一元线性回归分析的SPSS 实验，对实验结果作出简要分析。

7.4.3完成一元非线性回归分析的SPSS 实验，对实验结果作出简要分析。

7.5实验步骤
7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。

第一步：在excel 中输入数据
图7-1
第二步：将excel 数据导入spss
单击打开数据文档按钮（或选择菜单文件→打开）→选择文件航空公司航班
正点率与投诉率.xls
图7-2
第三步：选择菜单图形→旧对话框→散点/点状，在散点图/点图对话框中，
选择简单分布按钮
图7-3
第三步：在简单散点图对话框中，将候选变量框中的投诉率添加到Y轴，航班正点率添加到X轴，点击确定：
第四步：运行得到：
根据散点图初步判断航班正点率和投诉率呈线性关系
2．计算相关系数，明确变量之间存在的相关关系。

第一步：选择菜单分析（A）相关（C）→双变量相关（B），在双变量相关
对话框中，将候选变量框中的航班正点率和投诉率添加到变量（V）框，点击确
定：
图7-6
第二步：运行得到
根据相关系数判断：航班正点率和投诉率的相关系数为-0.833，显著性水平P为0.002小于0.05，说明航班正点率和投诉率高度负相关。

3．拟合回归方程
第一步：选择菜单分析（A）→回归（R）→线性（L），将候选变量框中的投诉率添加到因变量框（D），航班正点率添加到自变量框（T），点击确定：
图7-7
第二步，运行得到
拟合回归方程为
Y=-0.07 X + 6.018，常数项和自变量t值分别为5.719和-4.967，
显著性水平P分别为0.001和0.002，均小于0.05，说明常数项和自变量X对因变量Y有显著影响。

4．计算回归标准误差，说明回归直线的代表性；计算样本拟合优度，说明模型拟合的效果。

第一步：操作同3
第二步，运行得到
估计标准误差2
)
(2
--=
∑∧
n Y Y S YX =0.16082比较小，说明回归直线代表性较好。

R 2为0.747接近1，表明模型的拟合效果比较好。

5.在不同置信水平下建立回归估计的置信区间
在置信水平
1-α取不同值的情况下，回归估计的置信区间为：
⎥⎦⎤
⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
6．对估计的回归方程的斜率作出解释
回归方程的斜率，即回归系数b=-0.07，表示航班正点率每提高1%，旅客投诉率会降低0.07%。

7．如果航班按时到达的正点率为80%，估计每10万名乘客投诉的次数。

根据回归方程∧
Y =-0.7 X + 6.018，当航班正点率为80%时，每10万名乘客投诉的次数为-0.7×80+6.018=0.418（次）
8．如果航班按时到达的正点率为80%，试在95%可信程度下估计每10万名乘客投诉的置信区间。

如果航班按时到达的正点率为80%，试在95%可信程度下估计每10万名乘客投诉的置信区间为
⎥⎦⎤⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
=[0.1028,0.7332]
7.5.2完成一元非线性回归分析的SPSS实验步骤
1. 画出这些数据的散点图
第一步：在excel中输入数据
图7-1
第二步：将excel数据导入spss
单击打开数据文档按钮（或选择菜单文件→打开）→选择文件国民生产总值与保费收入.xls
图7-2
第三步：选择菜单图形→旧对话框→散点/点状，在散点图/点图对话框中，
选择简单分布按钮
图7-3
第四步：在简单散点图对话框中，将候选变量框中的将保费收入添加到Y轴，
国民生产总值添加到X轴：
第五步：运行得到：
图7-5
根据散点图初步判：国民生产总值与保费收入呈非线性关系。

2.计算不同模型的样本拟合优度，并据此选择拟合效果最好的模型。

第一步：选择菜单分析→回归→曲线估计，在曲线估计对话框中，将候选变量框中的保费收入添加到因变量，将国民生产总值添加到自变量，依次选择模型复选框中的线性、二次项、对数、指数等模型。

图7-6
第二步：依次得到运行结果
图7-7 直线 R2=0.941
图7-8二次曲线 R2=0.973
图7-9 复合 R2=0.789
图7-10 增长 R2=0.789
图7-11 三次曲线 R2=0.990
图7-12 对数 R2=0.772
图7-13 S曲线 R2=0.946
图7-14 指数 R2=0.789
图7-15 反向 R2=0.015
图7-16 幂 R2=0.015
图7-17 Logistic R2=0.829
通过对比上述模型，与观测点变化趋势拟合最好的是三次曲线模型，三次曲线的拟合优度最大（R2=0.990），也说明它是拟合效果最好的模型。

或者在第一步中，将所有模型的复选框全部选定，得到运行结果：
同样，通过对比上述模型，与观测点变化趋势拟合最好的是三次曲线模型，三次曲线的拟合优度最大（R2=0.990），也说明它是拟合效果最好的模型。

3.求解保费收入依国民生产总值的估计回归方程。

第一步：选择菜单分析→回归→曲线估计，在曲线估计对话框中，将候选变量框中的保费收入添加到因变量，将国民生产总值添加到自变量，选择模型复选框中的立方模型
图7-18
第二步：单击曲线估计对话框中的保存按钮，在曲线估计：保存对话框中，选择预测值、残差、预测区间复选框
图7-19
第三步，运行结果
表7-4 模型汇总
R2为0.990非常接近1，表明模型的拟合效果非常好。

表7-5 系数
从表中可知因变量与自变量的三次回归模型为：y=-166.430 + 0.029x - 5.364E-7x2 + 5.022E-12x3
7.6 思考与练习题
7.6.1一元线性回归分析
合金钢的强度Y与碳含量X关系密切，通常根据强度要求来控制碳的含量来达到目的，二者之间关系如下：
（1）画出这些数据的散点图；
（2）根据散点图和相关系数，表明二变量之间存在什么关系？
（3）求出描述钢强度是如何依赖碳含量的估计的回归方程；
（4）计算回归标准误差，说明回归直线的代表性；计算样本拟合优度，说明模型拟合的效果；（5）对估计的回归方程的斜率作出解释；
（6）如果碳含量控制在0.18，试估计钢的强度；
（7）如果碳含量控制在0.18，试在95%可信程度下估计钢强度的置信区间。

7.6.2一元非线性回归分析
处在青春期发育阶段的学生，其年龄与远视率的变化关系入下表：
实验要求：
（1）画出这些数据的散点图；
（2）计算不同模型的样本拟合优度，根据样本拟合优度选择拟合效果最好的模型；
（3）求出描述保费收入是如何依赖国民生产总值的估计的回归方程。

e商务文档

实验7相关及回归分析SPSS应用

相关文档推荐：