当前位置:文档之家› 实验7相关及回归分析SPSS应用

实验7相关及回归分析SPSS应用

实验7 相关与回归分析
7.1实验目的
熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。

7.2相关知识(略)
7.3实验内容
7.3.1一元线性回归分析的SPSS实验
7.3.2一元非线性回归分析的SPSS实验
7.4实验要求
7.4.1准备实验数据
1.线性回归分析数据
(The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》
Street Journal Almanac 1999)上。

航班正点到达的比率和每10万名乘客投诉
的次数的数据,见表7-1所示。

表7-1 美国航空公司航空正点率与乘客投诉次数资料
2.非线性回归分析数据
1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产
总值的关系的数据,见表7-2所示。

表7-2 1992~2013年某国保费收入与国内生产总值数据 单位:万元
7.4.2完成一元线性回归分析的SPSS 实验,对实验结果作出简要分析。

7.4.3完成一元非线性回归分析的SPSS 实验,对实验结果作出简要分析。

7.5实验步骤
7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。

第一步:在excel 中输入数据
图7-1
第二步:将excel 数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班
正点率与投诉率.xls
图7-2
第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,
选择简单分布按钮
图7-3
第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:
第四步:运行得到:
根据散点图初步判断航班正点率和投诉率呈线性关系
2.计算相关系数,明确变量之间存在的相关关系。

第一步:选择菜单分析(A)相关(C)→双变量相关(B),在双变量相关
对话框中,将候选变量框中的航班正点率和投诉率添加到变量(V)框,点击确
定:
图7-6
第二步:运行得到
根据相关系数判断:航班正点率和投诉率的相关系数为-0.833,显著性水平P为0.002小于0.05,说明航班正点率和投诉率高度负相关。

3.拟合回归方程
第一步:选择菜单分析(A)→回归(R)→线性(L),将候选变量框中的投诉率添加到因变量框(D),航班正点率添加到自变量框(T),点击确定:
图7-7
第二步,运行得到
拟合回归方程为
Y=-0.07 X + 6.018,常数项和自变量t值分别为5.719和-4.967,
显著性水平P分别为0.001和0.002,均小于0.05,说明常数项和自变量X对因变量Y有显著影响。

4.计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果。

第一步:操作同3
第二步,运行得到
估计标准误差2
)
(2
--=
∑∧
n Y Y S YX =0.16082比较小,说明回归直线代表性较好。

R 2为0.747接近1,表明模型的拟合效果比较好。

5.在不同置信水平下建立回归估计的置信区间
在置信水平
1-α取不同值的情况下,回归估计的置信区间为:
⎥⎦⎤
⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
6.对估计的回归方程的斜率作出解释
回归方程的斜率,即回归系数b=-0.07,表示航班正点率每提高1%,旅客投诉率会降低0.07%。

7.如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数。

根据回归方程∧
Y =-0.7 X + 6.018,当航班正点率为80%时,每10万名乘客投诉的次数为-0.7×80+6.018=0.418(次)
8.如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间。

如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间为
⎥⎦⎤⎢⎣
⎡++--+-=⎥⎦⎤⎢⎣⎡+-∧∧222216082.0018.67.0,16082.0018.67.0,ααααZ X Z X S Z Y S Z Y YX YX
=[0.1028,0.7332]
7.5.2完成一元非线性回归分析的SPSS实验步骤
1. 画出这些数据的散点图
第一步:在excel中输入数据
图7-1
第二步:将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件国民生产总值与保费收入.xls
图7-2
第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,
选择简单分布按钮
图7-3
第四步:在简单散点图对话框中,将候选变量框中的将保费收入添加到Y轴,
国民生产总值添加到X轴:
第五步:运行得到:
图7-5
根据散点图初步判:国民生产总值与保费收入呈非线性关系。

2.计算不同模型的样本拟合优度,并据此选择拟合效果最好的模型。

第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,依次选择模型复选框中的线性、二次项、对数、指数等模型。

图7-6
第二步:依次得到运行结果
图7-7 直线 R2=0.941
图7-8二次曲线 R2=0.973
图7-9 复合 R2=0.789
图7-10 增长 R2=0.789
图7-11 三次曲线 R2=0.990
图7-12 对数 R2=0.772
图7-13 S曲线 R2=0.946
图7-14 指数 R2=0.789
图7-15 反向 R2=0.015
图7-16 幂 R2=0.015
图7-17 Logistic R2=0.829
通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。

或者在第一步中,将所有模型的复选框全部选定,得到运行结果:
同样,通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。

3.求解保费收入依国民生产总值的估计回归方程。

第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,选择模型复选框中的立方模型
图7-18
第二步:单击曲线估计对话框中的保存按钮,在曲线估计:保存对话框中,选择预测值、残差、预测区间复选框
图7-19
第三步,运行结果
表7-4 模型汇总
R2为0.990非常接近1,表明模型的拟合效果非常好。

表7-5 系数
从表中可知因变量与自变量的三次回归模型为:y=-166.430 + 0.029x - 5.364E-7x2 + 5.022E-12x3
7.6 思考与练习题
7.6.1一元线性回归分析
合金钢的强度Y与碳含量X关系密切,通常根据强度要求来控制碳的含量来达到目的,二者之间关系如下:
(1)画出这些数据的散点图;
(2)根据散点图和相关系数,表明二变量之间存在什么关系?
(3)求出描述钢强度是如何依赖碳含量的估计的回归方程;
(4)计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果;(5)对估计的回归方程的斜率作出解释;
(6)如果碳含量控制在0.18,试估计钢的强度;
(7)如果碳含量控制在0.18,试在95%可信程度下估计钢强度的置信区间。

7.6.2一元非线性回归分析
处在青春期发育阶段的学生,其年龄与远视率的变化关系入下表:
实验要求:
(1)画出这些数据的散点图;
(2)计算不同模型的样本拟合优度,根据样本拟合优度选择拟合效果最好的模型;
(3)求出描述保费收入是如何依赖国民生产总值的估计的回归方程。

相关主题